加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

AI通用芯老玩法新套路:GPU/FPGA脱颖而出,CPU/DSP还有哪些可能

2018/01/23
51
阅读需 33 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论


 

芯片作为产业链技术要求最高的环节之一,往往是最难攻克的阵地。2016 年,我们谈中国集成电路在芯片环节还比较薄弱;2017 上半年,我们说我国与美国的差距主要在硬件方面,尤其是芯片环节;2017 下半年及 2018 年,我们看到一批本土 AI 芯发布,很多还带有“首款”的荣誉称号,首款嵌入式 AI 芯、首款人脸识别 AI 芯、首款 AI 移动芯片等等。


似乎,集成电路最难攻克的环节——芯片,在 AI 大环境下,一切都变得那么 EASY。这是真的吗?


以上是一位与非网友向小编表达出的疑惑。近期,小编收到很多网友关于 AI 芯的疑惑。那么,在近期的《AI 发现》中,我们将结合与非网友的疑惑,讲一讲 AI 芯那些事。


 

AI 芯定义
广义上讲,可以运行 AI 算法的都可以称为 AI 芯片,只不过效率有高有低;狭义上说,针对 AI 算法专门做了特殊加速设计的芯片才是 AI 芯片。


AI 芯的硬件核心
AI 芯的核心就是神经网络加速器,或者叫深度学习加速器。


AI 芯分类

芯片架构,四大类芯片

通用类芯片,代表如 CPU、GPU、FPGA

基于 FPGA 的半定制化芯片,代表如深鉴科技 DPU、百度 XPU 等;

全定制化 ASIC 芯片,代表如 TPU、寒武纪 Cambricon-1A 等;

类脑计算芯片,代表如 IBM TrueNorth、westwell、高通 Zeroth 等。

功能,训练( Training)与推理(Inference)

训练(Training):通常需要通过大量的数据输入,或采取增强学习等非监督学习方法,训练出一个复杂的深度神经网络模型。
 

该过程对处理器的计算能力、精度、可扩展性等性能要求很高,能胜任此环节工作的芯片有英伟达的 GPU 集群与 Google  TPU2.0。
 

推理(Inference):利用训练好的模型,使用新的数据去“推理”出各种结论。
 

相比训练过程,推理的计算量像是个“小儿科”,尽管如此,但此过程也涉及大量的矩阵运算。GPU、FPGA 和 ASIC 在此过程发挥作用。
 

 

应用场景,云端(Cloud/DataCenter)与设备端(Device/Embedded)

目前,训练环节只能在云端实现。GPU、FPGA、ASIC(Google TPU1.0/2.0)等都已应用于云端训练环境。


设备端对 AI 芯的需求差异大、数量庞大,低功耗、低延迟、低成本是该领域需求趋势,如今的 xPU 与 ASIC 热更多集中于该领域。

搞清楚各类芯在 AI 格局中所在的位置后,我们就集中精力解答如下的问题:

AI 芯与 AI 通用芯的趋势是什么?

AI 通用芯的玩法有哪些? 谁才是王道?
 

与非观点:

AI 芯的趋势:从通用到专用。

该趋势包含两个层次的含义:某些应用场景,AI 专用芯取代 AI 通用芯;AI 通用芯,从通用到为 AI 定制。


AI 通用芯玩法:CPU、GPU、FPGA 和 DSP 共存。

市场首批 AI 芯片,几乎都是以现成的 CPU、GPU、FPGA 和 DSP 加以组合而成,是和平共处的局面;如今,他们却被视作互撕的几股势力。或许情况并不是这样,各种 AI 芯玩法都有存在的意义。


AI 通用芯之间的竞争,是一场旧势力新套路的竞争。
 

与非论据:

AI 芯的趋势

曾经提及 AI 通用芯的较量,主要是 CPU 与 GPU 两股势力;后来 CPU 渐渐淡出大众视线,GPU 成为 AI 界宠儿。2016~2017 年,英特尔与英伟在 AI 市场的地位及发展也能说明这一点。


黄仁勋曾在演讲中表示,CPU 的时代结束了。


英特尔怼回去说:不单 CPU 不行了,GPU 也不行了。
 

这说明,英特尔肯定了通用 CPU 在 AI 领域无力的事实,同时对通用 GPU 也提出了质疑。


那么,短板在哪?是“通用”还是“处理器类型”?
 

小编认为是“通用”,而不同处理器类型是面向不同应用场景总有自身可发挥的优势。


GPU 赢过 CPU 就是因为 GPU 比 CPU 专用。GPU 借助在深度学习方面的优势,成为最有竞争力的 AI 芯片;CPU 通用性强,适用于串行计算,对于 AI 算力而言,较缓慢。当然,CPU 与 GPU 都不是发展 AI 最专用的芯片。


2017 年 12 月,IBM 推出首个为 AI 而生的服务器 CPU POWER9,旨在为数据密集型人工智能工作负载管理自由流动数据、流传感器及算法。该处理器采用 14 纳米技术,嵌入 80 亿个晶体管
 

POWER9 试图通过最新的技术和联盟来解决系统短板——异构处理器是否有足够的带宽与系统的其它部分进行通信
 

从通用 CPU 到 AI 定制 CPU,POWER9 代表了 CPU 行业在 AI 领域的发展趋势。
 

对于云端 AI 芯片市场,小公司只能觊觎,这是一场属于寥寥可数大公司的权利游戏,云端发展不只需要有高运算力的芯片,还得营造出生态系,基本上供应商就是这几家巨头。但对于终端市场,能实现更小功耗、更低成本的 xPU 与 ASIC 将成为主流。这就注定通用 AI 芯向专用 AI 芯发展的趋势。

 


AI 通用芯玩法

CPU & GPU

黄仁勋曾表示:GPU 不会替代 CPU,它是携手和 CPU 共同工作的,这也是我们为什么把它称之为加速器,CPU 是通用型的,什么场景都可以适用。但是 GPU 在一些专门的问题上是能量非常大的。它的性能要比 CPU 超过 10 倍,50 倍甚至百倍。最完美的架构就是“万事皆能的 CPU”+“胜任重大计算挑战的 GPU”。


我们先来看看 CPU 与 GPU 的对比情况:

英特尔 CPU 与英伟达 GPU 性能对比图
 

CPU 功能模块很多,能适应复杂运算环境;GPU 构成相对简单,对 Cache 需求小,大部分晶体管可以组成各类专用电路、多条流水线,使得 GPU 的计算速度有了突破性的飞跃,拥有了更强大的处理浮点运算的能力。
 

CPU 与 GPU 结构对比示意图
 

GPU 未来的主攻方向是高级复杂算法和通用性人工智能平台。但 GPU 无法单独工作,必须由 CPU 进行控制调用才能工作。这也就是黄仁勋为何强调“CPU+GPU”的模式了。
 

CPU 向 AI 发力的重要一大方向就是加速了 CPU 和 GPU、FPGA 甚至 TPU 之间的通信。POWER9 也印证了这一观点,POWER9 将加速 POWER 和 GPU、FPGA、TPU 之间的合作。比如支持最新的英伟达 Nvida NVLINK 技术,可大幅提升 GPU 与 CPU 之间的数据交换速度。
 

GPU 未来的主攻方向是高级复杂算法和通用性人工智能平台。


FPGA
FPGA 兼顾了低功耗和高运算能力的优势,FPGA 在 AI 领域的优势是加速和异构计算,比如腾讯云的 FPGA 加速可以实现比通用 CPU 型服务器快 30 倍的性能。

FPGA 和 GPU 未来在超级数据中心将成主流应用,尤其是在深度学习方面,在这方面 GPU 强在训练,而 FPGA 强在推断。

赛灵思曾表示:伙伴厂商利用 FPGA 芯片进行基因体定序与优化语音识别所需的深度学习,察觉 FPGA 的耗能低于 GPU 且处理速度较快。相较于 GPU 只能处理运算,FPGA 能以更快速的速度一次处理所有与 AI 相关的信息。

 

DSP
DSP 是 AI 通用芯里面最低调的,或者说最受重视的。

我们先来看看骁龙 845 如何发挥 AI 实力吧。
 

华为、苹果采用 ASIC 方式来不同,高通骁龙 845 利用基于分布式架构的神经网路处理引擎(SNPE),运行在骁龙异构平台的 CPU、GPU、DSP 等每一个单元上。
 

Hexagon 685 DSP 不仅只是一块用于处理语音和音频的解码器,由于采用了异步计算架构,支持矢量计算,因此可用于 AI 以及神经运算,在虚拟现实、增强现实图像处理、视频处理、计算视觉等功能中发挥作用。

DSP 核心主要供货商 CEVA 认为,若要在嵌入式系统中实现 CNN(卷积神经网络),DSP 将能取代 GPU 和 CPU,因 CNN 在本质上,就十分适合运用 DSP。

DSP 能够实现平行处理,核心利用率高。据悉,相较 GPU 只能达到 40~50%的使用率,DSP 甚至达到 90%以上的核心使用率。业内专家表示,对于一些应用场景,以 DSP 架构驱动的 CNN 引擎,在成本与功耗上皆具优势。

关于 AI 通用芯的情况就讲完了。

回顾 2017,我们发现我国的 AI 芯热主要集中于半定制化芯片与全定制化 ASIC 芯片领域。与非网友关于“集成电路最难攻克的环节(芯片),在 AI 大环境下,一切都变得那么 EASY?”的问题,我们将在下期《AI 发现》中找出答案。

如果你有更多 AI 方面的疑惑,欢迎下方留言。

与非网原创内容,未经许可,不得转载!

 

《AI 发现》专栏:

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
PIC32MX795F512L-80I/PT 1 Microchip Technology Inc 32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100

ECAD模型

下载ECAD模型
$9.74 查看
STM32F407ZGT6 1 STMicroelectronics High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC

ECAD模型

下载ECAD模型
$22.83 查看
SI5338B-B-GMR 1 Silicon Laboratories Inc Processor Specific Clock Generator, 350MHz, CMOS, QFN-24

ECAD模型

下载ECAD模型
$13.39 查看

相关推荐

电子产业图谱

与非网编辑,网名小老虎。通信工程专业出身,喜欢混迹在电子这个大圈里。曾经身无技术分文,现在可以侃侃电子圈里那点事。喜欢和学生谈谈心情、聊聊理想,喜欢和工程师谈谈生活、聊聊工作。不求技术“上进”,只求结交“贵圈”的朋友!