加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 新势力入局,云端 AI 芯片的抢滩争夺战
    • 从云端涌入的巨头玩家,搅动边缘 AI 芯片新战场
    • 性能功耗比拼:终端 AI 芯片的无限战争
    • 洗牌已至?AI 芯片之战才刚刚开始
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

登陆云边端,AI芯片产业打响全线战争

2020/05/07
253
阅读需 17 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

对于 AI 行业,算法、算力和数据是三大基础要素。深度学习模型的不断优化带来的算法的成熟应用,5G 网络以及边缘、终端的普及让海量数据的获取和传输变得唾手可得,而将算法和数据协调统一处理的算力资源就成为当前 AI 发展的关键制约因素了。

算力的提升在于芯片的性能是否得到飞跃。由于深度学习算法对芯片性能有着极为苛刻的效率要求和超高的并行计算要求,传统的通用 CPU 在 AI 计算当中性价比极低。因此,适合于深度学习要求的海量并行计算和计算加速的 AI 芯片就成为当前 AI 巨头们角力的赛场。

广义上来说,包括像 GPU、FPGA 以及 ASIC(专用芯片)这些提供 AI 算力的芯片都可以称之为 AI 芯片。按照任务划分,AI 芯片可以分为训练芯片和推理芯片;按部署位置划分,可以分为云端芯片、边缘侧和终端芯片。

其中,训练芯片对算力、精度和通用性要求较高,一般部署在云端,多采用“CPU+加速芯片”这类异构计算模式;推理芯片更加注重综合性能,更考虑算力耗能、延时、成本等因素,在云端和边终端都可以部署。

云端 AI 芯片部署在公有云、私有云和混合云等大型数据中心,能满足海量数据处理和大规模计算,可通过多处理器并行完成各类 AI 算法的计算和传输,具有通用性。边终端 AI 芯片要求体积小、能耗少、性能略低,主要用于摄像头、手机、边缘服务器等终端设备中,满足有限的 AI 能力。

从 2016 年谷歌 TPU 专用芯片大放异彩之后,AI 芯片快速经历了 2017 年资本涌入、巨头纷至沓来,2018 年新玩家争相入局、初露峥嵘,2019 年至今,AI 芯片进入全面商用落地的激烈竞争格局当中。

按照 Gartner 数据,伴随着全球 AI 产业的快速增长,未来 5 年,AI 芯片仍然会以每年 50%的速度增长。在过去的一年当中,AI 芯片在云端、边缘侧以及终端领域都取得了明显进展。

我们将通过梳理 AI 芯片在这三大细分市场的最新进展,来进入其行业纵深,找到 AI 芯片行业发展的最新动向。

新势力入局,云端 AI 芯片的抢滩争夺战

在云端的数据中心,无论是深度学习的算法训练还是推理服务,都绕不开英伟达的 GPU 产品。AI 算法训练的主要芯片配置是 GPU+ASIC,全球主流的云端硬件平台都在使用英伟达的 GPU 进行加速。而在推理服务上,主要还是采用 CPU+GPU 的方式进行异构计算,这得益于 GPU 强大的并行计算能力、通用性以及成熟的开发环境,但 GPU 的高能耗和昂贵成本,也成为众多云厂商的心中隐痛。

相比之下,FPGA 的低延迟、低功耗可编程性优势和 ASIC 的特定优化和执行特定模型的效能优势就非常突出了。因此,我们看到越来越多的云厂商和芯片厂商开始尝试 CPU+FPGA 或 CPU+ASIC 这样的异构方式,推出更符合自身云端算力要求的 AI 芯片。

2019 年 4 月,高通推出了面向数据中心推理计算的云端 AI 芯片 Cloud AI 100,峰值性能超过 350TOPS,与其他商用方案相比,每瓦特性能提升 10 倍。

而早先云服务巨头亚马逊也已推出了机器学习推理芯片 AWS Inferentia,最高算力可以达到 128 TOPS,在 AI 推理实例 inf1 可搭载 16 个 Inferentia 芯片,提供最高 2000TOPS 算力。

而在国内,阿里巴巴在去年 9 月推出自研架构和算法的 AI 推理芯片含光 800,主要用于和电商业务相关的云端视觉场景,在 RESNET50 基准测试中获得单芯片性能第一的成绩。

华为则推出了全球最快的 AI 训练集群 Atlas900,集成了数千颗昇腾 910 芯片,总算力可以输出 256-1024 PFLOPS@F16,相当于 50 万台 PC 计算能力的强劲算力。

去年底,腾讯投资的燧原科技推出面向云端数据中心的 AI 训练加速卡云燧 T10,单卡单精度算力达到 20TFLOPS,可以为大中小型数据中心提供了单节点、单机柜、集群三种模式。此外,像寒武纪、比特大陆也在去年从细分市场进入云端 AI 芯片市场,试图抢占一定的云端 AI 芯片的市场份额。

Gartner 数据显示,全球 AI 服务器及 AI 芯片市场规模自 2016 年到 2020 年都将保持持续的高速增长,而全球云端 AI 芯片当中 GPU 的市场份额却呈现出持续下滑的趋势,预计到 2022 年云端训练 GPU 占比将降至 60%,云端推理 GPU 占比更是只有 30%。

这意味着云端 AI 芯片的专用芯片的市场规模将进一步扩大,新入局玩家们特别是云服务厂商的巨头玩家们都会尽可能在自家的数据中心部署结合自身算法的 AI 芯片。

2020 年,随着高通、英特尔等芯片巨头、AWS、阿里、华为等云厂商以及芯片初创公司产品的落地,云端 AI 芯片市场的竞争将更趋激烈,未来将进一步削弱英伟达的话语权。

从云端涌入的巨头玩家,搅动边缘 AI 芯片新战场

随着 5G、自动驾驶、IoT 等新技术普及和配套设备的海量涌现,接下来将为边缘侧 AI 芯片提供更大的发挥空间。特别是 5G 网络的普及将带来边缘侧数据处理方式的变革,为边缘侧 AI 的工作负载提供了更多需求。

边缘计算正在被视为 AI 的下一个重要战场,原有的在云端、终端都有所积累的厂商,都希望通过边缘 AI 芯片的布局,完善云、边缘、终端生态,打造一体化的计算格局。

早在 2018 年,谷歌就发布了用于边缘推理的微型 AI 加速芯片——Edge TPU,专为企业在 IoT 设备中的机器学习任务而设计。在去年 3 月,谷歌还推出了千元级搭载 Edge TPU 芯片的开发板,可以加速硬件设备上的模型推理。

(谷歌 Edge TPU 开发板)

似乎为回应谷歌的这一挑战,英伟达发布了面向嵌入式物联网的边缘计算设备 Jetson Nano,适用于入门级网络硬盘录像机家用机器人以及具备全面分析功能的智能网关等应用。而在去年 11 月,英伟达又发布了边缘 AI 超级计算机 Jetson Xavier NX,能够在功耗 10W 的模式下提供最高 14TOPS,在功耗 15W 模式下提供最高 21 TOPS 的性能,为更小尺寸、更低功耗的嵌入式边缘计算设备提供了 AI 推理能力。

(英伟达 Jetson Xavier NX)

同样在去年底,寒武纪发布用于深度学习的 SoC 边缘加速芯片思元 220,采用台积电 16nm 工艺,最大算力 32TOPS,功耗控制在 10W,支持 Tensorflow、Caffe、mxnet 以及 pytorch 等主流编程框架。根据其公布的数据,参数性能可以比肩英伟达去年发布的 Jetson 系统级模块——AGX Xavier 和 Jetson Xavier NX。

在去年 7 月的百度 AI 开发者大会,联合三大运营商、中兴、爱立信、英特尔等,发起百度 AI 边缘计算行动计划,旨在利用 AI 推理、函数计算、大数据处理和产业模型训练,推动 AI 场景在边缘计算的算力支撑和平台支持,加速百度 AI 应用生态在 5G、物联网等新型场景下快速落地。

在自动驾驶这类专用边缘场景上,AI 芯片也出现加速势头。目前,由于自动驾驶算法仍在快速更迭和进化,大多自动驾驶芯片使用 GPU+FPGA 的解决方案。最典型的产品如英伟达的 DRIVE PX 系列及后续的 Xavier、Pegasus 系列等。在去年 CES 上,英伟达推出了全球首款商用 L2+自动驾驶系统 NVIDIA DRIVE AutoPilot。DRIVE AutoPilot 的核心就是 Xavier 系统级芯片,其处理器算力高达每秒 30 万亿次。

英特尔虽然入局自动驾驶芯片市场较晚,但通过一系列大笔收购,很快推出了完整的自动驾驶云到端的算力方案,包括英特尔凌动 / 至强+Mobileye EyeQ + Altera FPGA,其中,英特尔收购 Mobileye 推出的 EyeQ5,可以支持 L4-L5 自动驾驶,预计在今年量产。

而在国内,国内初创企业如地平线、眼擎科技、寒武纪也都在积极参与。地平线去年正式宣布量产国内首款车规级 AI 芯片“征程二代”,采用台积电 28nm 工艺,可提供超过 4TOPS 的等效算力,典型功耗仅 2 瓦,延迟少于 100 毫秒,多任务模式下可以同时运行超过 60 个分类任务,每秒钟识别目标数超过 2000 个,面向车联网对强实时响应的需求。

据预测,从 2018 年到 2022 年全球边缘计算相关市场规模的年复合增长率将超过 30%,到 2022 年,边缘计算市场规模将超万亿,与云计算市场规模不相上下。正因为边缘计算如此巨大的市场前景,国内外行业巨头纷纷开始边缘侧 AI 芯片的布局。

对于杀入边缘侧的 AI 芯片巨头而言,实现云 - 边 - 端 - 网的多方协同,其中就必须要完成从云端到边缘的端到端解决方案的布局。这一动作客观上也加剧了边缘侧 AI 芯片的竞争态势,为 AI 初创企业带来更多的生存压力。

性能功耗比拼:终端 AI 芯片的无限战争

移动端 AI 芯片市场目前主要是在智能手机上。为实现差异化竞争,各手机厂商都加入了 AI 功能的开发,通过在手机 SoC 芯片中加入 AI 引擎,调配现有计算单元来实现 AI 计算,或者直接加入 AI 协处理器来实现 AI 功能的运行。

智能手机作为一种多传感器融合的综合数据处理平台,要求 AI 芯片具备通用性,能够处理多类型任务能力。而智能手机又受制于电池容量大小和电池能量密度限制,AI 芯片在追求算力的同时对功耗有着严格的限制。

目前主流厂商都开发专用的 ASIC 芯片或者是使用功耗较低的 DSP 作为 AI 处理单元。

根据一份最新的手机 AI 芯片排名,高通骁龙 865、苹果 A13 和华为麒麟 990 分列前三。

排在第一名的高通骁龙 865,采用了全新的第五代 AI Engine,可以实现高达每秒 15 TOPS 的运算,相比骁龙 855 提升了两倍的运算能力。通过 AI 异构多核可编程架构的设计思路,集成了传感器中枢,利用多种不同引擎协同完成 AI 任务,在精度和功耗之间取得平衡。

苹果 A13 处理器,采用第二代 7nm 工艺,专为高性能和低功耗而量身定制,拥有 85 亿个晶体管。其 GPU 为四核心设计,速度提升 20%,功耗降低 40%,也就是在性能大幅提升的前提下续航并没有降低。

华为去年推出的麒麟 990 5G 的 NPU,采用双大核+微核的方式,其大核负责性能,微核拥有超低功耗,其中微核在人脸检测的应用场景下,能耗比大核工作降低 24 倍。

根据信通院报告统计,2017 年全球手机 AI 芯片市场规模 3.7 亿美元,占据全球 AI 芯片市场的 9.5%。预计 2022 年将达到 38 亿美元,年复合增长率达到 59%,未来五年有接近十倍的增长。而目前能够在智能手机 Soc 芯片中取得领先位置的仍然只有高通、苹果、华为、三星等少数玩家,雄厚的资金实力和海量的销售规模,使得每家都愿意拿出真金白银来投入到新一代的 AI 芯片研发上面,在芯片的性能和功耗平衡上面实现碾压和赶超。

洗牌已至?AI 芯片之战才刚刚开始

有媒体分析,根据行业发展规律,AI 芯片在经历了短暂的资本狂欢和创业高峰之后,会在 2020 年之后,出现第一批出局者,开始行业的大洗牌。

这一结论自然具有一定的道理。由于 AI 芯片产业是一个高投入、长周期,依靠量产规模优势才能艰难取胜的产业。同时由于 AI 技术发展迅猛,芯片的设计周期可能无法赶上算法的迭代周期,这很容易造成 AI 芯片从设计到落地,已经无法赶上当前的计算需求。

此外,在对成本和能耗极为敏感的移动终端,还需要特别关注 AI 芯片的计算效能,达到低功耗、小体积、开发简易,这些都需要探索架构上的创新。

实际上,2019 年有不少商用的 AI 芯片,已经开始面临芯片难以落地的困境,原因多种多样,比如芯片本身带来的性能提升不够有吸引力,芯片不适配应用的需求,易用性不高,选择的行业难以突破等等。

显然,种种限制条件和不利因素会更有利于那些入局早、实力雄厚的芯片巨头和互联网巨头,而对那些依靠融资存活的 AI 芯片初创企业们带来巨大压力。

但这并不意味着 AI 初创企业都会进入被洗的哪一阵营。除了少数巨头把持的云端芯片市场、日趋头部化的智能手机 Soc 芯片市场,未来 AI 芯片还将在智能家居、智能安防、自动驾驶等边缘、终端上面有着巨大的市场空间,同时在医疗、教育、零售、交通等行业有着丰富的应用场景。当 AI 芯片的盘子足够大的时候,多样化生态仍然会保持一段时间。

当前全球 AI 芯片产业仍然处于产业化的早期阶段,最新推出的 AI 芯片主要还是集中在专用芯片领域,AI 芯片初创企业仍然可以在 ASIC 上取得独有的优势。例如在 AI 架构上的探索上面,国内的一些初创企业也已提出一些可以适用于多种算法需求、多种场景需求的全新架构。可重构架构以及存算一体成为未来 AI 芯片实现性能突破的主要方向。

在未来,芯片的易用性、有效算力、能效比以及落地速度,都将成为影响 AI 芯片产品失败与否的关键。在各个方面都持续做好迭代创新,才是考验所有这些 AI 芯片玩家们能否在始终在场不掉队的关键因素。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
STM32H743VIT6TR 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals

ECAD模型

下载ECAD模型
暂无数据 查看
ATMEGA8515L-8AU 1 Microchip Technology Inc IC MCU 8BIT 8KB FLASH 44TQFP

ECAD模型

下载ECAD模型
$4.23 查看
ATXMEGA192D3-MH 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 9 X 9 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, MO-220VMMD, MLF-64
$5.62 查看

相关推荐

电子产业图谱

你的困惑,来自于无路贴近未知。我们在技术、思想、传播的异界,贩来极限脑量下的TMT。