AI通用芯老玩法新套路：GPU/FPGA脱颖而出，CPU/DSP还有哪些可能

芯片作为产业链技术要求最高的环节之一，往往是最难攻克的阵地。2016 年，我们谈中国集成电路在芯片环节还比较薄弱；2017 上半年，我们说我国与美国的差距主要在硬件方面，尤其是芯片环节；2017 下半年及 2018 年，我们看到一批本土 AI 芯发布，很多还带有“首款”的荣誉称号，首款嵌入式 AI 芯、首款人脸识别 AI 芯、首款 AI 移动芯片等等。

似乎，集成电路最难攻克的环节——芯片，在 AI 大环境下，一切都变得那么 EASY。这是真的吗？

以上是一位与非网友向小编表达出的疑惑。近期，小编收到很多网友关于 AI 芯的疑惑。那么，在近期的《AI 发现》中，我们将结合与非网友的疑惑，讲一讲 AI 芯那些事。

AI 芯定义
广义上讲，可以运行 AI 算法的都可以称为 AI 芯片，只不过效率有高有低；狭义上说，针对 AI 算法专门做了特殊加速设计的芯片才是 AI 芯片。

AI 芯的硬件核心
AI 芯的核心就是神经网络加速器，或者叫深度学习加速器。

AI 芯分类

芯片架构，四大类芯片

通用类芯片，代表如 CPU、GPU、FPGA；

基于 FPGA 的半定制化芯片，代表如深鉴科技 DPU、百度 XPU 等；

全定制化 ASIC 芯片，代表如 TPU、寒武纪 Cambricon-1A 等；

类脑计算芯片，代表如 IBM TrueNorth、westwell、高通 Zeroth 等。

功能，训练（ Training）与推理（Inference）

训练（Training）：通常需要通过大量的数据输入，或采取增强学习等非监督学习方法，训练出一个复杂的深度神经网络模型。

该过程对处理器的计算能力、精度、可扩展性等性能要求很高，能胜任此环节工作的芯片有英伟达的 GPU 集群与 Google TPU2.0。

推理（Inference）：利用训练好的模型，使用新的数据去“推理”出各种结论。

相比训练过程，推理的计算量像是个“小儿科”，尽管如此，但此过程也涉及大量的矩阵运算。GPU、FPGA 和 ASIC 在此过程发挥作用。

应用场景，云端（Cloud/DataCenter）与设备端（Device/Embedded）

目前，训练环节只能在云端实现。GPU、FPGA、ASIC(Google TPU1.0/2.0)等都已应用于云端训练环境。

设备端对 AI 芯的需求差异大、数量庞大，低功耗、低延迟、低成本是该领域需求趋势，如今的 xPU 与 ASIC 热更多集中于该领域。

搞清楚各类芯在 AI 格局中所在的位置后，我们就集中精力解答如下的问题：

AI 芯与 AI 通用芯的趋势是什么？

AI 通用芯的玩法有哪些？谁才是王道？

与非观点：

AI 芯的趋势：从通用到专用。

该趋势包含两个层次的含义：某些应用场景，AI 专用芯取代 AI 通用芯；AI 通用芯，从通用到为 AI 定制。

AI 通用芯玩法：CPU、GPU、FPGA 和 DSP 共存。

市场首批 AI 芯片，几乎都是以现成的 CPU、GPU、FPGA 和 DSP 加以组合而成，是和平共处的局面；如今，他们却被视作互撕的几股势力。或许情况并不是这样，各种 AI 芯玩法都有存在的意义。

AI 通用芯之间的竞争，是一场旧势力新套路的竞争。

与非论据：

AI 芯的趋势

曾经提及 AI 通用芯的较量，主要是 CPU 与 GPU 两股势力；后来 CPU 渐渐淡出大众视线，GPU 成为 AI 界宠儿。2016~2017 年，英特尔与英伟在 AI 市场的地位及发展也能说明这一点。

黄仁勋曾在演讲中表示，CPU 的时代结束了。

英特尔怼回去说：不单 CPU 不行了，GPU 也不行了。

这说明，英特尔肯定了通用 CPU 在 AI 领域无力的事实，同时对通用 GPU 也提出了质疑。

那么，短板在哪？是“通用”还是“处理器类型”？

小编认为是“通用”，而不同处理器类型是面向不同应用场景总有自身可发挥的优势。

GPU 赢过 CPU 就是因为 GPU 比 CPU 专用。GPU 借助在深度学习方面的优势，成为最有竞争力的 AI 芯片；CPU 通用性强，适用于串行计算，对于 AI 算力而言，较缓慢。当然，CPU 与 GPU 都不是发展 AI 最专用的芯片。

2017 年 12 月，IBM 推出首个为 AI 而生的服务器 CPU POWER9，旨在为数据密集型人工智能工作负载管理自由流动数据、流传感器及算法。该处理器采用 14 纳米技术，嵌入 80 亿个晶体管。

POWER9 试图通过最新的技术和联盟来解决系统短板——异构处理器是否有足够的带宽与系统的其它部分进行通信。

从通用 CPU 到 AI 定制 CPU，POWER9 代表了 CPU 行业在 AI 领域的发展趋势。

对于云端 AI 芯片市场，小公司只能觊觎，这是一场属于寥寥可数大公司的权利游戏，云端发展不只需要有高运算力的芯片，还得营造出生态系，基本上供应商就是这几家巨头。但对于终端市场，能实现更小功耗、更低成本的 xPU 与 ASIC 将成为主流。这就注定通用 AI 芯向专用 AI 芯发展的趋势。

AI 通用芯玩法

CPU & GPU

黄仁勋曾表示：GPU 不会替代 CPU，它是携手和 CPU 共同工作的，这也是我们为什么把它称之为加速器，CPU 是通用型的，什么场景都可以适用。但是 GPU 在一些专门的问题上是能量非常大的。它的性能要比 CPU 超过 10 倍，50 倍甚至百倍。最完美的架构就是“万事皆能的 CPU”+“胜任重大计算挑战的 GPU”。

我们先来看看 CPU 与 GPU 的对比情况：

英特尔 CPU 与英伟达 GPU 性能对比图

CPU 功能模块很多，能适应复杂运算环境；GPU 构成相对简单，对 Cache 需求小，大部分晶体管可以组成各类专用电路、多条流水线，使得 GPU 的计算速度有了突破性的飞跃，拥有了更强大的处理浮点运算的能力。

CPU 与 GPU 结构对比示意图

GPU 未来的主攻方向是高级复杂算法和通用性人工智能平台。但 GPU 无法单独工作，必须由 CPU 进行控制调用才能工作。这也就是黄仁勋为何强调“CPU+GPU”的模式了。

CPU 向 AI 发力的重要一大方向就是加速了 CPU 和 GPU、FPGA 甚至 TPU 之间的通信。POWER9 也印证了这一观点，POWER9 将加速 POWER 和 GPU、FPGA、TPU 之间的合作。比如支持最新的英伟达 Nvida NVLINK 技术，可大幅提升 GPU 与 CPU 之间的数据交换速度。

GPU 未来的主攻方向是高级复杂算法和通用性人工智能平台。

FPGA
FPGA 兼顾了低功耗和高运算能力的优势，FPGA 在 AI 领域的优势是加速和异构计算，比如腾讯云的 FPGA 加速可以实现比通用 CPU 型服务器快 30 倍的性能。

FPGA 和 GPU 未来在超级数据中心将成主流应用，尤其是在深度学习方面，在这方面 GPU 强在训练，而 FPGA 强在推断。

赛灵思曾表示：伙伴厂商利用 FPGA 芯片进行基因体定序与优化语音识别所需的深度学习，察觉 FPGA 的耗能低于 GPU 且处理速度较快。相较于 GPU 只能处理运算，FPGA 能以更快速的速度一次处理所有与 AI 相关的信息。

DSP
DSP 是 AI 通用芯里面最低调的，或者说最受重视的。

我们先来看看骁龙 845 如何发挥 AI 实力吧。

与华为、苹果采用 ASIC 方式来不同，高通骁龙 845 利用基于分布式架构的神经网路处理引擎(SNPE)，运行在骁龙异构平台的 CPU、GPU、DSP 等每一个单元上。

Hexagon 685 DSP 不仅只是一块用于处理语音和音频的解码器，由于采用了异步计算架构，支持矢量计算，因此可用于 AI 以及神经运算，在虚拟现实、增强现实、图像处理、视频处理、计算视觉等功能中发挥作用。

DSP 核心主要供货商 CEVA 认为，若要在嵌入式系统中实现 CNN（卷积神经网络），DSP 将能取代 GPU 和 CPU，因 CNN 在本质上，就十分适合运用 DSP。

DSP 能够实现平行处理，核心利用率高。据悉，相较 GPU 只能达到 40～50%的使用率，DSP 甚至达到 90%以上的核心使用率。业内专家表示，对于一些应用场景，以 DSP 架构驱动的 CNN 引擎，在成本与功耗上皆具优势。

关于 AI 通用芯的情况就讲完了。

回顾 2017，我们发现我国的 AI 芯热主要集中于半定制化芯片与全定制化 ASIC 芯片领域。与非网友关于“集成电路最难攻克的环节（芯片），在 AI 大环境下，一切都变得那么 EASY？”的问题，我们将在下期《AI 发现》中找出答案。

如果你有更多 AI 方面的疑惑，欢迎下方留言。

与非网原创内容，未经许可，不得转载！

《AI 发现》专栏：

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
PIC32MX795F512L-80I/PT	1	Microchip Technology Inc	32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100	ECAD模型下载ECAD模型	$9.74	查看
STM32F407ZGT6	1	STMicroelectronics	High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC	ECAD模型下载ECAD模型	$22.83	查看
SI5338B-B-GMR	1	Silicon Laboratories Inc	Processor Specific Clock Generator, 350MHz, CMOS, QFN-24	ECAD模型下载ECAD模型	$13.39	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

PIC32MX795F512L-80I/PT

Microchip Technology Inc

32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100