又是一年Hot Chips，百度、微软的AI大招为何齐瞄准FPGA

一年一度的行业盛会国际高性能微处理器研讨会（Hot Chips）刚刚落下帷幕，会议期间微软、百度、英特尔等大佬都发布了一系列硬件方面的新信息。今天与非小编就带大家来看看 Hot Chips 上的“FPGA”亮点。

微软，Project Brainwave

微软推出了一套专用于机器学习模型的系统，代号为脑波计划（Project Brainwave）。这是一个运行在英特尔 Stratix 10 FPGA 上的 GRU 模型（一种循环神经网络，属于序列模型），用于云端加速深度学习。

要如何解读这个系统呢？

Brainwave 使用的是微软多年来一直进行部署的 FPGA 架构，这个系统架构可大大降低延迟，并允许较高的吞吐量。高性能 FPGA 与数据中心相连接，将作为硬件微服务的 DNN 映射到远程 FPGA 池，并被没有软件的服务器所调用。

Brainwave 是如何深度挖掘 DNN 处理单元（DPU）潜力的？

Brainwave 结合 FPGA 上的 ASIC 数字信号处理模块和可合成的逻辑，以提供一个更大更优化数量的功能单元。而这是通过自定义数据类型与创新整合实现的。因此可以实现超越硬编码 DPU 芯片的性能。Project Brainwave DPU 架构如下图：

除此之外，Brainwave 还融合进一个支持多款主流深度学习框架的软件栈，目前 Microsoft Cognitive Toolkit（CNTK）、Tensorflow 均已兼容，微软计划支持更多框架。

简而言之，Brainwave 的“硬”气之处就在于：

- 高性能的分布式系统架构

- 集成在 FPGA 的硬件 DNN 引擎

- 可低摩擦部署训练模型的编译器和 runtime

因此，Brainwave 可实现快速、灵活、友好的特点。

Brainwave 可在无批处理的情况下支持每秒 39.5 万亿次浮点运算。无需批运算意味着硬件可以对请求进行实时处理，让机器学习系统能够真正实现实时性。

微软研究院的高级工程师 Doug Burger 曾说道：我们将其称为“实时人工智能”，因为无论是视频流、对话、还是异常检测，所有需要交互的人工智能，你都希望它能够实时进行。

当然，我们不应该对此感到陌生。因为这已经不是微软第一次提出 Brainwave 的概念，过去的几年时间里，微软一直探索利用 FPGA 提升其必应浏览器与 Azure 的性能与效率。

因此，这个深度学习加速系统应运而生。借助 Brainwave，微软能实现的美好愿景是什么呢？

业内人士分析：
微软通过 Azure 云服务将 Brainwave 提供给其他公司，当然，能拿下多大的市场还是未知的，毕竟这个领域的竞争很激烈，谷歌、Facebook、百度等等。但早一步布局等于机会更多一些。

百度 XPU
百度的 AI 大计与微软有着异曲同工之处，百度在 Hot Chips 大会上发布了 XPU，这是一款 256 核、基于 FPGA 的云计算加速芯片，采用的是 Xilinx 平台。

XPU 可以带来“飞”一般的体验？

XPU 关注计算密集型、基于规则的多样化计算任务，希望提高效率和性能，并带来类似 CPU 的灵活性。而其目标是实现性能与效率之间的平衡，对多样化的计算任务进行处理。FPGA 加速器本身很擅长处理某些计算任务，但随着许多小内核交织在一起，多样性程度将会上升。

关于这款芯片，百度研究员欧阳剑表示：芯片架构突出多样性，着重于计算密集型、基于规则的任务，同时确保效率、性能和灵活性的最大化。

FPGA 中 XPU 的 DSP 单元提供了并行处理能力，片外 DDR4 和 HBM 接口优化了数据传输，而片上 SRAM 则提供了必要的存储特性。测试显示，对于计算密集型、常规内存访问的计算任务，XPU 的效率与 x86 内核类似。对于数据同步的计算任务，XPU 的可扩展性应当可以进一步优化。而对于没有数据同步的计算任务，XPU 的可扩展性与核心数量呈线性关系。

当然，万事万物没有十全十全美的。据悉，XPU 目前所欠缺的仍是可编程能力，而这也是涉及 FPGA 时普遍存在的问题。目前为止，XPU 尚未提供编译器。

编译实现的办法与流程：
XPU 在 FPGA 上实现，通过订制的逻辑电路提供指令。小核心类似于 CPU，只能使用汇编语言，所有的执行都受主机控制。整个流程包括拆分计算任务，编写 XPU 代码，调用专用的逻辑函数，从而在 Linux 平台上进行编译和运行。

微软和百度同时将 AI 目光聚焦于 FPGA，说明 FPGA 的 AI 地位更上一层，尤其在数据中心领域。

FPGA 其实可以看作是半定制的 ASIC，既解决了定制电路的不足，又在性能与应用广度上显示出优势，拥有 ASIC/GPU 无可比拟的灵活性，如今 FPGA 似乎已成为数据中心加速的主角。

作为 FPGA 的对手，ASIC 与 GPU 各有优势，也各有弊端。

ASIC，为专门应用而设计，由于面向特定用户的需求，在加速效率上可圈可点。但其设计周期长、成本高、应用范围有限，因此 ASIC 仅适用于大批量或性能至上对成本不敏感的产品中。

如今的 GPU 已不再局限于 3D 图形处理，其在浮点运算、并行计算等部分计算方面具有优良特性，因此应用也扩展到诸多领域，因此 NVIDIA 在 AI 领域有着至高无上的地位。

与非网原创文章，未经许可，不得转载！

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ATXMEGA128A3U-MHR	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 64QFN		$7.31	查看
ATXMEGA256A3U-MHR	1	Microchip Technology Inc	IC MCU 8BIT 256KB FLASH 64QFN		$13.36	查看
STM32F207ZGT6	1	STMicroelectronics	High-performance Arm Cortex-M3 MCU with 1 Mbyte of Flash memory, 120 MHz CPU, ART Accelerator, Ethernet	ECAD模型下载ECAD模型	$13.88	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

ATXMEGA128A3U-MHR

Microchip Technology Inc

IC MCU 8BIT 128KB FLASH 64QFN