英特尔和IBM押注的神经模态计算究竟是什么

目前英特尔和 IBM 在内的企业正积极探索超低功耗神经模态芯片在不同领域的应用，在未来几年内随着 AI+IoT 的发展，神经模态计算将会迎来一波新的热潮。

人工神经网络的概念以及基本神经元模型于 1943 年就已提出，这正是试图模拟脑皮层以神经元网络形式进行信息处理的体现。

卷积神经网络的局部感受野是受到大脑视觉系统的启发。深度神经网络的层级构建是源于脑皮层的分层通路。

只不过在深度学习的后续发展中，研究者更加偏重把神经网络视为一个黑匣，用于拟合从输入到输出的复杂映射关系：

只需要给网络的输出定义一个收敛目标（目标函数，比如每张图像的输出对应到正确的类别）并描述为一个优化问题，然后用梯度下降的方式去更新系统参数主要是突触权重,使得输出逐渐逼近想要的结果。

原则上网络越大，特征提取的能力就会越强，也就需要越多的数据来训练网络更新参数使网络收敛，因此计算量也大幅增加。

故而，深度学习也被称为数据和算力驱动的智能。虽然深度学习以解决实际应用为目标而与神经科学渐行渐远，但近两年也有科学家试图在大脑中找到梯度下降的证据和吸收新的脑科学成果。

而机器学习是目前人工智能模型中最卓有成效的一个分支，而深度学习又是当今机器学习的宠儿，其以人工神经网络为主要模型。

人工神经网络由大量神经元通过突触连接而成，从输入到输出呈现层级结构，当层数较多时则被称为深度神经网络。

相比于全连接神经网络，卷积神经网络通过引入二维特征图与突触核的卷积操作获得了强大的局部特征提取能力，被广泛用于图像处理领域。

而反馈神经网络通过引入反馈连接，建立时序动力学模型，被广泛用于处理语音文本等时序数据。

神经模态计算的重要意义

①目前的深度学习仅能实现人类大脑极小一部分的功能，距离人类的智能还有非常远的距离，而使用神经模态计算直接模仿神经元系统在人工神经元数量足够多时，或将有希望能实现比起深度学习更好的效果，更接近人类大脑。

②目前深度学习计算在部署上遇到的困难是能效比和延迟问题，在对于功耗要求非常低的物联网领域，以及对于延迟要求非常高的领域无人驾驶领域，部署深度学习会遇到很大的挑战。

恰好神经模态计算则可以解决这两大问题。

①神经模态计算的一大优势就是其计算功耗与输入有关，在输入不会激活大量神经元的情况下，其功耗可以做到非常低。

②对于物联网应用来说，神经模态计算可以利用这样的规律，仅仅在需要的时候激活神经元消费能量来完成事件识别，而在其他没有事件的时候由于神经元未被激活因此功耗很低，从而实现远低于深度学习芯片的平均功耗。

③神经模态计算并非常规的冯诺伊曼架构，神经模态计算芯片一般也不会搭配 DRAM 使用，而是直接将信息储存在了神经元里。这样就避免了内存墙带来的功耗和延迟问题，因此神经模态计算芯片的延迟和能效比都会好于传统的深度学习。

国外技术寡头优势明显

近日，英特尔发布了基于其神经模态计算芯片 Loihi 的加速卡 Pohoiki Beach，该加速卡包含了 64 块 Loihi 芯片，共含有八百多万个神经元。

继 IBM 发布 TrueNorth、英特尔发布 Loihi 之后，PohoikiBeach 又一次让神经模态计算走进了聚光灯下。

深度神经网络压缩技术，当前，深度学习领域目前面临的一大挑战是，主流 DNNs 都是计算和存储密集型的，这导致在边缘和嵌入式设备的部署面临巨大的挑战。

为此，英特尔研究院提出了从动态网络手术 DNS、渐进网络量化 INQ 到 MLQ 多尺度编码量化的低精度深度压缩解决方案。

通过这些布局可获得百倍 DNN 模型无损压缩性能。根据 AlexNet 测试结果，该项简洁的解决方案能够超越主流深度压缩方案至少一倍，在 2/4-bit 精度下达到超过 100 倍的网络压缩。

IBM 研究人员在活动上详细介绍了数字和模拟 AI 芯片的 AI 新方法，它的数字 AI 芯片首次采用 8 位浮点数成功训练了深度神经网络，同时在一系列深度学习模型和数据集上完全保持了准确性。

这些更广泛的问题需要更大规模的神经网络、更大的数据集和多模态数据集，为此 IBM 需要改变架构和硬件来实现这一切。

IBM 大胆预测，GPU 在 AI 中的主导地位正在结束。GPU 能够为图形处理进行大量的并行矩阵乘法运算，这种矩阵乘法碰巧与神经网络所需的完全相同，这非常重要。

因为没有那些 GPU，我们永远无法达到我们今天在 AI 性能方面已经达到的性能水平。随着 IBM 掌握的更关于如何实现人工智能的知识，也在寻找设计出更高效硬件的方法和途径。

对于 32 位计算来说，必须在 32 位上进行计算。如果可以在 16 位上计算，那基本上是计算能力的一半，或者可能是芯片面积的一半甚至更少。

如果可以降到 8 位或 4 位，那就更好了。所以，这是在面积、功率、性能和吞吐量方面的巨大胜利——关乎我们能够以多快的速度完成这一切。

IBM 还在 IEDM 大会上展示了所谓的 8 位精度内存乘法与设计中的相变内存。IBM 发表了一项关于新型内存计算设备的研究，与当今的商业技术相比，该设备的计算能耗水平要低 100-1000 倍，非常适合于边缘 AI 应用，例如自动驾驶、医疗监控和安全性。

IBM 的不同之处是相信完整的 AI 解决方案需要加速推理和训练，其正在开发和逐渐发展成熟可用于推理和训练的非易失性内存元件。

结尾

随着英特尔和 IBM 在内的企业正积极探索超低功耗神经模态芯片在不同领域的应用，在未来几年内伴随 AI+IoT 的发展，神经模态计算将会迎来一波新的热潮。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ATXMEGA128A4U-MHR	1	Atmel Corporation	RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQCC44, 7 X 7 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VKKD-3, VQFN-44		$4.48	查看
MCP23S17-E/SS	1	Microchip Technology Inc	16 I/O, PIA-GENERAL PURPOSE, PDSO28, 5.30 MM, PLASTIC, SSOP-28	ECAD模型下载ECAD模型	$2.1	查看
XC7Z010-1CLG400C	1	AMD Xilinx	Multifunction Peripheral, CMOS, PBGA400, BGA-400	ECAD模型下载ECAD模型	$62.79	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

ATXMEGA128A4U-MHR

Atmel Corporation

RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQCC44, 7 X 7 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VKKD-3, VQFN-44