英伟达在人工智能领域的好日子结束了？英特尔Xeon Phi处理器正迎面狙击

英特尔公司开发的第二代 Xeon Phi 处理器完美契合了人工智能的需求；
另一方面，英伟达公司则推出了新的 Tesla GPU P100 加速器，提供强大的计算能力；
对于机器学习 / 深度学习这种重负荷工作任务，天平开始倒向英特尔一方。

近期，英特尔公司数据中心事业部的主管 Diane Bryant 在于台北举行的 Computex 电脑展上表示，在运行 ML（机器学习）或者 DL（深度学习）工作任务上，英特尔公司的 Knights Landing（“KNL”）处理器完美契合了 AI（人工智能）的需要。KNL 代表了英特尔的第二代（x200）Xeon Phi 产品系列。

根据 Bryant 的说法，由于英特尔最新的 Xeon Phi 协处理器拥有多达 72 个内核，而且每个内核有两个用于提供更好的单核浮点运算性能的英特尔 AVX-512 SIMD 处理单元，所以这些处理器非常适合运行机器学习 / 深度学习工作任务。但是，这些处理器能否在最终表现上超过英伟达最新的 Tesla GPU P100 加速器还有待观察，据业内人士看法，Tesla GPU P100 加速器是目前最适合处理机器学习 / 深度学习工作任务的计算单元。

英伟达需要保持其竞争优势
通过性能强大的图形处理器以及精心设计的算法，英伟达公司几年前就加入了机器学习 / 深度学习的潮流中。尽管目前尚无法断定英特尔最新的 Xeon Phi 协处理器是否能够取代英伟达公司在基于最新的帕斯卡 Pascal 架构打造的 GP100 GPU 的基础上设计的 Tesla GPU P100 加速器，但是毫无疑问的是，和以前相比，英特尔已经取得了巨大的进步。

帕斯卡是英伟达公司推出的第五代 CUDA 架构。该公司花了三年时间，斥巨资 30 亿美金打造了这款 Tesla P100，目前已经进入量产阶段。IBM、Cray 公司、惠普企业公司以及私人持有的戴尔都已经开始在他们即将推向市场的 HPC（高性能计算）服务和超级计算机上使用 P100。

为高性能计算和超级计算机提供所需的计算能力并不是什么新鲜事儿。英伟达公司针对其早先版本的 Tesla K80 GPU 加速器和英特尔的 Xeon Phi 进行了对比，表示，在不改写 CPU 代码的情况下简单地在 Xeon Phi 上重新编译并运行应用，通常并不能起到加速作用，反而会减速。此外，对 GPU 进行编程和对 Xeon Phi 进行编程需要花费的功夫差不多，但是 GPU 能够提供更佳的性能，英伟达曾经表示：

“一旦您看清了这些事实，便能更好地理解加速计算应用为什么在不断涌现。今天，在开发工作强度基本相同的条件下，GPU 能够实现双倍的性能。对并行代码的加速而言，GPU 是最合理的选择。在某种程度上，这也是为什么科研人员今年以来发表的关于 GPU 的文章数能达到关于英特尔的 Xeon Phi 文章数的 10 倍的原因，也能说明为什么在高性能计算系统中，GPU 的受欢迎程度能达到 Xeon Phi 的 20 倍之多。”

不过，这已经是三年之前的旧事了。现在，由于英特尔大幅度改进了其最新版 Xeon Phi 协处理器和支持工具，今天的场景已经发生了彻底的变化。在下面的章节中，我将试图评估一下在这次回合的较量中，英特尔的 Xeon Phi 能否在运行机器学习 / 深度学习工作任务中替代英伟达的 GPU。

这一次，英特尔的准备更加充分
英特尔的 KNL x200 Xeon Phi 能够提供每秒 3 万亿次 64 位双精度浮点运算（FP64）的计算能力，尽管消费者级别的 GPU 不支持双精度运算，但是英伟达的 Tesla P100 依然凭借每秒 5.3 万亿次 FP64 运算的计算能力击败了 KNL Xeon Phi。

但是，虽然英伟达的 Tesla P100 在 FP64 运算能力这个单一指标上更胜一筹，但是如果从性价比的角度来衡量的话，从系统级别来看，这种性能差距其实是微不足道的。英伟达要在运行机器学习 / 深度学习工作任务上击败英特尔，是一件相当困难的事情，原因有三，分述如下：

英特尔的 AVX-512（高级矢量扩展 512）SIMD 处理单元能够支持如浮点乘法和混合乘加等机器学习 / 深度学习算法。
英特尔在其最新的 Xeon Phi 上添加了自引导功能，所以通过一个可自启动的处理器插槽便可以启动 OS。
最后，凭借英特尔独有的支持 Xeon Phi 的全路径架构（OPA）制造技术，这颗处理器将成为超级计算的猛兽。

在第二代 Xeon Phi 和 Tesla P100 的编程工作强度相当的情况下，英伟达的 Tesla P100 可能无法再像三年前那样在性能上大幅度领先 Xeon Phi。事实上，英特尔提供了 MKL（数学核心函数库），使得并行化机器学习 / 深度学习的代码变得比之前容易多了。比如，英特尔最新版本的 MKL-MKL 2017 公测版，包含了一系列优化机器学习 / 深度学习神经网络的新工具。

机器学习 / 深度学习工作任务的更佳选择
从原始计算能力指标上来比较，英伟达的 Tesla P100 显然更胜一筹。但是，运行机器学习 / 深度学习工作任务时，原始计算能力并不总是优先级最高的指标。随着云计算对机器学习 / 深度学习研究的影响日益加深，一个具备巨大的存储能力的全方位高性能计算平台才是研究人员真正所需要的，此外，更好的优化工具也是必须的。

我坚信，英特尔公司基于其全路径架构的的可扩展系统框架（SSF）高性能计算平台将会使得天平偏向英特尔一方。我在之前的一篇文章中曾经分享过关于英特尔 SSF 方案的观点，英特尔最新最高端的 Xeon 处理器、基于 3D XPoint 存储器技术的 Optane 固态硬盘，再加上最新的 Xeon Phi 协处理器，这种组合肯定能够大幅度提升执行机器学习 / 深度学习工作任务时的性能表现。

此外，通过软件库的形式，英特尔提供了更多之前由开发商控制的工具。它正在优化核心架构，并针对 Caffe 和 Theano 等开源机器学习框架做优化。如果原始计算能力并不是优先级最高的指标，那么英特尔最新的 Xeon Phi 将会是最佳的选择。

结论
随着自动驾驶汽车、智能住宅等新兴事物的来临，人工智能将会慢慢地成为主流。英伟达已经开发了基于人工智能的尖端自动驾驶汽车技术，由于缺少足够的基础设施，自动驾驶汽车至少需要十年的时间才能成为主流。

通常情况下，我们会花费较少的时间开发一项技术，然后花费更多的时间为该技术的合理应用建立足够的基础设施。英伟达虽然会继续开发针对自动驾驶汽车的先进技术，但是在未来很长一段时间内，它的主要营收依然来自于其图形业务。另一方面，英特尔则能够为未来不断开创新的营收来源，这也是我为什么更加看好英特尔的原因。

更多有关人工智能的资讯，欢迎访问与非网人工智能专区

与非网编译，未经许可，不得转载！