英特尔发生彻底变化？将发布的人工智能架构Nervana是什么鬼

英特尔在深度学习领域的推进催生了各种新型架构，还包括 tile、先进封装和更加定制化的解决方案。

近日，英特尔人工智能产品事业部副总裁 Gadi Singer 接受了媒体访谈，谈论了英特尔在深度学习领域的长期愿景，以及为什么公司看好 x86 之外的架构和单芯片解决方案。

记者：处理器方面有什么变化？

Singer：最大的变化是增加了深度学习和神经网络。过去几年，人工智能带来了快速且深刻的变化，我们也正在试图评估它们的潜力，以及能用它做些什么。但是，与此同时，您还需要退后一步，思考如何与其它互补性的功能相适应。处理器的变化是英特尔整体转型大略的一部分。

英特尔人工智能产品事业部副总裁 Gadi Singer

记者：真正人工智能的标志是可以用机器开发算法而不是人工开发对吧？

Singer：人工智能起步于 20 世纪 60 年代，直到计算机科学家 Hinton 和其他人在 21 世纪初找到一种更好的方法有效处理多层数据之前，它一直处于沉寂状态。几年前，ImageNet 的工作表明可以通过机器进行图像识别且达到接近于人的识别精度，人们才意识到深度学习是一种重要的计算力量，人工智能至此取得了重大突破。之后，我们在语音识别方面也取得了很好的成果。2015 年到 2016 年左右，深度学习的一系列成果表明，人工智能成为推动人类科技进步的重大因素。当时能够处理的图像都是相对简单的二维图像，可以识别的语音也简单直接。之后，业界的一系列努力证明了可以通过深度学习达到一定的精度，取得一系列成果。当时创建和验证模型的主要架构是 CPU 和 GPU，主要开发语言是 C++，开发环境是 CUDA 等专有环境。构建并部署计算架构需要大量的专业知识并投入大量精力。你看看现在这个领域的主要技术，就可以看出哪些公司是早期的参与者。

记者：从那以后发生了什么变化？

Singer：在过去的几年中，深度学习时代迎面而来。数据本身变得更加复杂了，我们也从识别 2D 图像成功转变为识别 3D 图像。我们正在和诺华公司合作，它们正在研究细胞的 3D 显微图像，以试图找出潜在的恶性细胞。在数据方面，图像的复杂程度提升了 25 倍，但是现在识别的是更加精确的模型。

记者：英特尔在这些架构的哪些方面发力？人工智能和深度学习的一大问题在于它们还在快速变化之中，因此您需要一个非常灵活的架构，英特尔在这方面有什么计划？

Singer：过去面对的问题很清楚。你知道两三年后的图形芯片或者 CPU 芯片需要实现什么功能，公司之间的竞争体现在为已知问题提供最佳解决方案上。在深度学习领域的竞争则体现在谁能够在发展变化过程中最深刻地理解问题。你需要的是一个能够理解并预见变化趋势的架构，并在全面生产上市和部署时为即将面临的问题做好准备，而不是在设计和测试时就固定好了能够解决的问题。

记者：架构会因市场而改变，还是架构仍然相同？

Singer：这影响到方方面面。我们认为，一种架构不可能满足所有需求，成功的解决方案是提供一系列各具特色的产品。所以架构肯定不止一个，但是也不会太多。我们可以按照功率从 1 瓦以下到 300 瓦，从推理、训练到机器学习，从关注吞吐能力到关注延迟，按照各种要求实施不同的架构。架构对每瓦性能也有不同的敏感度。解决方案的能效值是多少？你愿意在其它方面妥协吗？这不仅仅是在一个实例上进行小程度的修改，而是面对一系列需求，必须有一系列互补性的架构。

记者：这一系列架构是什么？

Singer：主要有三个要素。第一，因为我们客户要求不同，我们需要提供一个产品组合。你需要提供从终端设备（安全摄像头、无人机或汽车等）到网关（数据汇聚点）再到云端或本地服务器的解决方案，每个层面都需要有非常有效的解决方案。第二，我们的硬件战略是提供具有互补架构和解决方案的组合。第三，进一步使 Xeon 成为 AI 的坚实基础。

记者：针对训练还是针对推理？

Singer：我们是从推理开始的。Xeon 是一个很好的推理解决方案。和其它任何产品相比，Xeon 的推理解决方案都毫不逊色，而且在总体拥有成本和灵活性方面具有其它优势。你看看 Facebook，他们会展示怎么对其 Top 7 服务进行培训和推理的。

记者：但是 Facebook 这样的公司对推理的要求和手机或汽车摄像头一样吗？

Singer：不一样，这就是你需要不同架构的原因。你希望在大型数据中心中进行推理，你可以利用同样的计算进行推理或者执行其它任何任务。在低端市场中，我们有 Movidius 架构，它的功耗在 1 瓦到几瓦之间（英特尔于 2016 年 9 月购买了开发计算机视觉应用低功耗处理器的公司 movidius），你可以使用它实时创作音乐，或者将 Movidius 计算棒连接到手机上，检测早期皮肤癌，然后进行非常重要的分析。

记者：所以你们在数据中心和边缘节点上都有方案了，你们战略的第三部分是什么？

Singer：系统集成。当您考虑系统集成时，拥有正确解决方案的大量价值都体现在数据移动上。一个好的解决方案应该尽量减少数据移动，因为数据移动的成本要比对数据进行乘除 / 累加贵 10 倍。针对如何在正确的位置、正确的时间取得数据进行系统和软件栈的优化，是任何解决方案成功的关键。

记者：听起来英特尔像是要发生从头到脚的变化

Singer：当然，你看一下我们对基本版本 Xeon 的改进，我们现在通过 VNNI（矢量神经网络指令集）和 BFloat 16 提升 DL（深度学习）能力。过去，英特尔分别解决了浮点、SIMD 和矢量运算。现在，AI 需要一系列能力，我们在 x86 架构下实现了许多重要的新功能。我们希望为这两种架构提供优化的解决方案。这就是我们和 Movidius 合作要解决的问题，我们将要发布 Nervana，这个架构引入了 FPGA，它集成了最出色的 x86，并用最好的架构增强它，对它加速。现在从系统的层面来看，不仅仅是主机和加速器的改进，还涉及到存储器和网络，它是一种系统集成。你在硅片上、封装内放什么东西？你在同一个机架中集成了什么？

记者：所以你们现在实施的是包含先进封装在内的平台策略。这是英特尔之前没有认真做过的事情，你觉得这种策略是怎么个玩法？

Singer：封装内集成可以将不同种类的事情结合在一起，并将之紧密集成，我们正在这方面努力，我们认为这样做非常有价值。

记者：新型硬件架构正在发生的一个重大变化是增加数据密度，每个周期可以处理更多数据，对吧？

Singer：这方面讲的是数据压缩和增加计算的并行性。你看我们从头开始构建的 Nervana NNP（神经网络处理器）架构，它具有张量神经网络，你管理的是各种数据结构。这是架构创新的基础，使用 VNNI，你可以提供在数据结构上执行的指令，从而能够在阵列上进行计算。

记者：除了缩小功能单元外，还有更多优势，对吧？

Singer：我们需要从这个流程中得到需要的东西。我们一直将设计和架构向矢量处理的方向推进。我们将利用这种流程。不过，我们的目的是提高设计和架构的效率，使得每个周期可以处理更多指令，始终都是为了让向量尽可能快地运行。

记者：但是现在你必须把这些东西融合在一起，数据在内存中存储和读取的方式也可能不同。

Singer：是的。你必须能够从内存中提取这些数据结构，我们需要看到的另外一件事是如何融合纯神经网络操作和常规的潜在循环代码。如果你注意到现在已经在开展的一些工作就会发现，它会假设很多新的计算必须是深度学习。实际上，这些是具有神经网络和深度学习的更加通用的任务。你需要一个非常有效的神经网络架构。但是，如果一个方程的某些部分的次序性更强或者需要依赖更多条件，它同样需要非常有效地完成。你需要能够在常规运算和神经网络运算之间切换。我们目前正在研究的一个课题就是，如何在具有其它元素的真实背景中以最佳方式执行神经网络运算。如果你看一下 NNP 机器翻译或者其它类似的工作，就会发现它们内部就有一些不是神经网络计算的内容，它们也是解决方案的一部分。

更多有关英特尔的资讯，欢迎访问与非网英特尔专区

与非网编译内容，未经许可，不得转载！

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
STM32H743XIH6TR	1	STMicroelectronics	High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals	ECAD模型下载ECAD模型	暂无数据	查看
AT89C51CC03CA-RDTUM	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 64VQFP		$8.65	查看
MC9S12A256CPVE	1	Rochester Electronics LLC	16-BIT, FLASH, 25MHz, MICROCONTROLLER, PQFP112, LQFP-112		$32.12	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

STM32H743XIH6TR

STMicroelectronics

High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals