深入学习的到来对数据中心产生了巨大的影响。现在,随着芯片制造商向移动处理器中嵌入神经引擎,深度学习正在向边缘移动。但是,高通、英特尔等人正在采取非常不同的方法。

 

在上周的 iPhone X 发布会中,苹果公司花了大量时间用于介绍 A11 处理器的新型神经元引擎,能够提供面部识别和其他功能。9 月 1 日 -6 日,在柏林的 IFA,华为宣布推出其最新的旗舰处理器——麒麟 970,配备了一个神经处理单元,能够处理比单独 CPU 快 20 倍的图像。

 

 

神经引擎的崛起是由深度学习的兴起推动的。这些处理器专门设计用于处理人工神经网络中使用的复杂算法,比一般的 cpu 更快、更高效。

 

深度学习的快速发展对数据中心产生了深远的影响。Nvidia 的游戏图形处理器已经发现了第二次使用加速器来训练这些复杂的模型;微软现在正在使用成千上万的 FPGA(现场可编程门阵列)为其许多服务提供支持,并将很快通过 Azure 向其他客户提供;Google 进一步发展,建立了自己的 Tensor 处理单元,并且有很多初创企业效仿。

 

如今,大部分的繁重工作都是在云中完成的,但也有一些应用程序需要更低的延迟。最明显的例子是嵌入式应用,例如自动驾驶汽车或智能监视系统,在这些系统中,决策需要在接近实时的情况下进行。但随着时间的推移,可以从本地处理中受益的 AI 应用程序数量,如苹果的 Face ID,可能会增长。

 

由于功率限制,这在移动设备中尤其具有挑战性。芯片制造商正在采取不同的策略来解决这个问题。

 

高通公司的战略是至少在短期内充分利用了已经挤满其 Snapdragon 移动 SoC 的所有资源。高通科技公司产品管理总监,AI 和机器学习主管 Gary Brotman 表示,该公司已经在尝试使用新颖的硬件,但发现 CPU、GPU 和 Hexagon DSP 的快速发展已经大大消除了短期需要专门的硬件,如计算机视觉和自然语言处理等任务。

 

高通的 Snapdragon 神经处理引擎(NPE)是一套软件工具,它采用 Caffe、Caffe2 或 TensorFlow(32 位浮点)训练的模型,并将其转换为高通格式,运行在 Kryo CPU(32 位 FP) 骁龙 800 和 600 系列处理器中的 Adreno GPU(16 位)或 Hexagon DSP(8 位)。 该公司还拥有用于神经网络的数学库,包括 QSML(Qualcomm Snapdragon Math Library)和用于 Hexagon DSP 开发人员的 nnlib。

 

高通目前对专用硬件最为重要的是将 HvX 模块添加到 Hexagon DSP 中,以加速 8 位固定操作进行推理,但 Brotman 表示,最终移动 SoC 将需要具有紧耦合存储器和高效数据流的专用处理器( 织物互连)用于神经网络。“现在至少在移动和边缘方面并不至关重要,但在未来的几年里,将需要专门的 AI 硬件,”他说。 在接下来的一年中,高通将专注于加快推进速度,但下一步是“获得设备学习”。

 

竞争对手已经将部分死亡运用到神经处理中。苹果和华为是最突出的例子,三星 Galaxy S8 和 Note 8 搭载的 Exynos 8895 也有一个视觉处理单元,该公司称加速运动检测和对象识别。Ceva、Cadence Tensilica、Synopsys 等提供处理器 IP,旨在加快卷积神经网络的边缘图像识别。

 

英特尔的策略是提供从数据中心到边缘的完整的人工智能生态系统。 该公司正确地注意到,至强服务器几乎涉及到所有的培训和推理工作负载。今年晚些时候,它将发布 Knights Mill,目前的 Knights Landing 处理器的衍生产品,由于两个新功能,它将提供四倍于 Xeon Phi 7290 的性能,支持四 FMA(融合倍增)指令。

 

 

紧随其后的是 Lake Crest,这是一个基于与去年收购 Nervana 完全不同的架构的协处理器。Amir Khosroshwahi 是英特尔的人工智能产品集团的首席技术官(以及 Nervana Systems 的联合创始人和前神经系统的首席技术官),将其描述为“分布式的、密集的线性代数处理器”,专门设计用于运行数据图表。虽然英特尔还没有分享很多细节,但我们知道这包括一个小片式内核,具有大量片上存储器(SRAM)的多层芯片封装,具有四个 8GB 堆叠的第二代高带宽 记忆。自主的 Nervana 引擎将提升培训绩效,但 Khosroshwahi 表示,真正的关键是如何使用 Intel 先前所说的专有互连技术在多个芯片上实现性能规模将比 PCI-Express 快 20 倍。

 

通过其对 Altera 的 167 亿美元收购,英特尔现在在推动 FPGA 方面处于领先地位。微软是这方面的先驱,在上个月的 Hot Chips 会议上,它谈到了其具有 14nm Stratix 10 FPGA 的 Project Brainwave“软 DPU”(DNN 处理单元)将如何提供“实时 AI”,峰值性能为 90 teraops 使用微软的限制精度格式。 英特尔正在使用专有的 EMIB(嵌入式多芯片互连桥)2.5D 技术,将 Skylake Xeon 可扩展处理器与 FPGA 封装在一起。 该公司已经进行了另外两次收购,以扩大其 AI 边缘投资组合,其中包括以色列在 ADAS 和自主驾驶领域的领先者 Mobileye,以及 Movidius 公司。Movidius 公司拥有一台视觉处理器,可以使用少于一瓦的功率提供超过一台的三倍。英特尔宣布,英特尔公司的 Waymo 在其最新的自驾车中使用了至强 CPU,Arria FPGA 和 WLAN 以及 WWAN 连接芯片。

 

这些不同方法的一个明显问题是没有标准。有许多深入学习框架(Caffe,TensorFlow,Torch 和 PyTorch,Microsoft 的认知工具包)用于培训和运行模型,并且它们迅速发展。下面的硬件是异构的,并且变得越来越专业化。

 

对于 Google 或 Microsoft 而言,这不是问题 。他们可以设计自己的硬件和软件来提供特定的服务。但是,对于想要创建可以在所有移动设备上运行神经网络的加速应用程序的开发者来说,这是一个很大的挑战,Facebook 似乎特别关注这个问题。它以前已经开放了移动设备的 Caffe2Go 框架,在最近的@Scale 会议上,该公司正在展示 OpenGL 如何用于加快手机上的图像识别和特效,但正如 EE Times 指出的,API 是老旧的,而且难以编程。

 

显然需要一些移动参考标准,ARM 已经采用 OpenCL 和 Neon 的 Compute Library 向这个方向迈出了一小步。但是在近期的团队中,随着芯片制造商争相为深度学习提供最佳解决方案,这可能仍然是一场拉锯战。高通公司的 Brotman 表示:“现在说什么时候会有一个标准出来为时尚早。事情需要一些时间才能稳定下来。”

 

与非网编译内容,未经许可,不得转载!