从功能来看,可以分为 Training(训练)和 Inference(推理)两个环节;
从应用场景来看,可以分成“Cloud/DataCenter(云端)”和“Device/Embedded(设备端)”两大类;
除了按照功能和应用场景划分外,AI 芯片从技术架构发展来看,大致也可以分为四个类型:
1、通用类芯片,代表如 GPU、FPGA;
2、基于 FPGA 的半定制化芯片,代表如深鉴科技 DPU、百度 XPU 等;
3、全定制化 ASIC 芯片,代表如 TPU、寒武纪 Cambricon-1A 等;
4、类脑计算芯片,代表如 IBM TrueNorth、westwell、高通 Zeroth 等。
AI 芯片产业生态:
全球 AI 芯公司:
国内 AI 芯片公司
中科寒武纪
AI 产品:Cambricon-1A
寒武纪科技成立于 2016 年,总部在北京,创始人是中科院计算所的陈天石、陈云霁兄弟,近期刚刚完成了一亿美元 A 轮融资,阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点、涌铧投资联合投资,成为全球 AI 芯片领域第一个独角兽初创公司。
寒武纪是全球第一个成功流片并拥有成熟产品的 AI 芯片公司,拥有终端 AI 处理器 IP 和云端高性能 AI 芯片两条产品线。2016 年发布的寒武纪 1A 处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、无人机、可穿戴设备以及智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越传统处理器。
地平线机器人(Horizon Robotics)
AI 产品:BPU
地平线机器人成立于 2015 年,总部在北京,创始人是前百度深度学习研究院负责人余凯。公司于去年中完成了 A+轮融资,投资方包括了晨兴资本、高瓴资本、红杉资本、金沙江创投、线性资本、创新工场、真格基金、双湖投资、青云创投、祥峰投资、DST 等。据介绍,公司近期即将完成 B 轮融资。
BPU(BrainProcessing Unit)是地平线机器人自主设计研发高效的人工智能处理器架构 IP,支持 ARM/GPU/FPGA/ASIC 实现,专注于自动驾驶、人脸图像辨识等专用领域。2017 年,地平线基于高斯架构的嵌入式人工智能解决方案将会在智能驾驶、智能生活、公共安防三个领域进行应用,第一代 BPU 芯片“盘古”目前已进入流片阶段,预计在今年下半年推出,能支持 1080P 的高清图像输入,每秒钟处理 30 帧,检测跟踪数百个目标。地平线的第一代 BPU 采用 TSMC 的 40nm 工艺,相对于传统 CPU/GPU,能效可以提升 2~3 个数量级(100~1,000 倍左右)。
深鉴科技
AI 产品:DPU
深鉴科技将其开发的基于 FPGA 的神经网络处理器称为 DPU。到目前为止,深鉴公开发布了两款 DPU:亚里士多德架构和笛卡尔架构,其中,亚里士多德架构是针对卷积神经网络 CNN 而设计;笛卡尔架构专为处理 DNN/RNN 网络而设计,可对经过结构压缩后的稀疏神经网络进行极致高效的硬件加速。相对于 Intel XeonCPU 与 Nvidia TitanX GPU,应用笛卡尔架构的处理器在计算速度上分别提高 189 倍与 13 倍,具有 24000 倍与 3000 倍更高能效。
启英泰伦
AI 产品:CI1006
启英泰伦于 2015 年 11 月在成都成立,是一家语音识别芯片研发商,投资方包括了 Roobo、汇声信息等。
启英泰伦的 CI1006 是基于 ASIC 架构的人工智能语音识别芯片,包含了脑神经网络处理硬件单元,能够完美支持 DNN 运算架构,进行高性能的数据并行计算,可极大的提高人工智能深度学习语音技术对大量数据的处理效率。
云知声
AI 产品:Unione/IVM-M/Unitoy
云知声是一家智能语音识别技术公司,成立于 2012 年,总部位于北京。今年 8 月刚刚获得 3 亿人民币战略投资,其中部分资金将用于加大人工智能专用芯片 UniOne 的研发力度。
UniOne 将内置 DNN 处理单元,兼容多麦克风、多操作系统,对任何的场景不做限制,无论是在智能的空调上、车载上或其他智能设备上都可以植入这个芯片,该芯片具有高集成度的,低功耗、低成本的优点。与此同时,公司还有 IVM-M 高性能嵌入式芯片,基于高通 wifi 模组,提供高性价比的物联网语音交互整体方案,主要应用在智能空调,厨电等职能家具产品上;基于 Linux 系统设计的 Unitoy 芯片可一站式解决儿童陪伴式机器人的唤醒、识别、设备互联能力。
百度
AI 产品:XPU
百度 2017 年 8 月 Hot Chips 大会上发布了 XPU,这是一款 256 核、基于 FPGA 的云计算加速芯片。合作伙伴是赛思灵(Xilinx)。XPU 采用新一代 AI 处理架构,拥有 GPU 的通用性和 FPGA 的高效率和低能耗,对百度的深度学习平台 PaddlePaddle 做了高度的优化和加速。据介绍,XPU 关注计算密集型、基于规则的多样化计算任务,希望提高效率和性能,并带来类似 CPU 的灵活性。但目前 XPU 有所欠缺的仍是可编程能力,而这也是涉及 FPGA 时普遍存在的问题。到目前为止,XPU 尚未提供编译器。
AI 产品:麒麟 970 神经网络处理器 NPU
麒麟 970 搭载的神经网络处理器 NPU 采用了寒武纪 IP。麒麟 970 采用了 TSMC 10nm 工艺制程,拥有 55 亿个晶体管,功耗相比上一代芯片降低 20%。CPU 架构方面为 4 核 A73+4 核 A53 组成 8 核心,能耗同比上一代芯片得到 20%的提升;GPU 方面采用了 12 核 Mali G72 MP12GPU,在图形处理以及能效两项关键指标方面分别提升 20%和 50%;NPU 采用 HiAI 移动计算架构,在 FP16 下提供的运算性能可以达到 1.92 TFLOPs,相比四个 Cortex-A73 核心,处理同样的 AI 任务,有大约 50 倍能效和 25 倍性能优势。
云天励飞
AI 产品:IPU
公司成立于 2014 年,总部在深圳,由国家“千人计划”特聘专家陈宁和田第鸿博士联合创立,今年 3 月完成了 A 轮融资,投资方松禾资本、深投控、红秀盈信、山水从容投资、投控东海、真格基金等。
云天励飞提供视觉智能芯片和解决方案,专注于人工智能领域,以新型处理器、机器学习与大数据技术为核心。公司自主研发的处理器芯片 IPU,采用了全新的面向视觉计算的处理器芯片架构,该技术将机器学习效能提升了两个数量级。公司在在深圳搭建的区域级天眼系统,实现了全球首创的“百万人群、秒级定位”,还被采纳为 2016 年杭州 G20 峰会和乌镇互联网大会的安全系统提供服务。
中星微
AI 产品:NPU
中星微在 2016 年 6 月 20 日率先推出中国首款嵌入式神经网络处理器(NPU)芯片,这是全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片,取名“星光智能一号”。这款基于深度学习的芯片运用在人脸识别上,最高能达到 98%的准确率,超过人眼的识别率。该 NPU 采用了“数据驱动”并行计算的架构,单颗 NPU(28nm)能耗仅为 400mW,极大地提升了计算能力与功耗的比例。
目前“星光智能一号”出货量主要集中在安防摄像领域,其中包含授权给其他安防摄像厂商部分。未来将主要向车载摄像头、无人机航拍、机器人和工业摄像机方面进行推广和应用。
杭州国芯
AI 产品:gxNPU
杭州国芯是一家本土的芯片公司,成立于 2001 年,已经有 17 年的历史。最初杭州国芯主要做数字电视芯片、机顶盒芯片,产品已遍销全球。
西井科技
AI 产品:Deepsouth
西井科技成立于 2015 年 5 月,是一家开发“类脑人工智能芯片+算法”的科技公司,其芯片用电路模拟神经,成品有 100 亿规模的仿真神经元。西井用 FPGA 模拟神经元以实现 SNN 的工作方式,其产品命名为 Deepsouth,正是和 IBM 的 truenorth 成竞品。由于架构特殊,这些芯片计算能力强,可用于基因测序、模拟大脑放电等医疗领域。
西井科技还有一款 5000 万个神经元的商用芯片。除了自我学习外,它的传统计算能力也极强,能将基因测序从两周缩短到数个小时。由于体积小、功耗是同类芯片几十分之一,其它便携式医疗设备也可使用这款芯片。
Think Force
Think Force——上海熠知电子科技有限公司成立于 2017 年,由来自芯片设计、算法软件、系统开发领域的资深专家创立。公司主要设计融合一流 AI 算法和先进制成工艺的智能芯片,并以此构建人工智能硬件平台,提供一站式行业应用解决方案。
据介绍,ThinkForce 计划推出的 AI 芯片基于业界先进的半导体制程工艺,采用自主研发的微内核 ManyCore 架构,能完成 AI 云虚拟化调度在芯片级的实现,此架构将 AI 云的弹性计算和调度提升一个量级,类似 CPU 的虚拟化给云计算的弹性调度带来成倍的成本节约。同时,该技术结合自主研发的固件和 TFDL 软件 SDK 能够实现对于各类神经网络模型的计算加速,相对于 Nvidia 主流计算卡能实现 5 倍以上的功耗和成本节省。
比特大陆
AI 产品:TPU
比特大陆成立于 2013 年,是一家专注于高速、低功耗定制芯片设计研发的科技公司,拥有低功耗高性能的 16nm 工艺集成电路的量产经验,成功设计量产了多款 ASIC 定制芯片和集成系统。
在 2017 世界人工智能大会上重磅发布了面向人工智能应用的专用定制芯片 Sophon BM1680,深度学习加速卡 SC1 和 SC1+以及智能视频分析服务器 SS1,正式进军人工智能行业。
中天微系统
杭州中天微系统有限公司成立于 2001 年,总部位于杭州高新区。是一家致力于 32 位高性能低功耗嵌入式 CPU 研发,以芯片架构授权为核心业务的 IC 设计公司,也是直接与阿里巴巴合作,并获得阿里巴巴入股投资的一家国产 CPU 业者。是当前我国唯一基于自主指令架构研发嵌入式 CPU 并实现大规模量产的 CPU 供应商。
2015 年,阿里便与杭州中天微系统有限公司进行深度合作,面向物联网各细分领域开发云芯片(Yun on Chip)架构。在云端一体的框架下研制新一代 CPU、SoC 平台、软件支撑环境和操作系统,支持从芯片到云端的全链路安全、低成本接入。并积极致力于打造产业生态链,开发面向全行业的云芯片产品。
人人智能
AI 产品:FaceOS
人人智能提供一个基 ARM 的人脸识别核心芯片即模组方案,识别模组是独创的支持深度学习算法的嵌入式高性能 ARM 平台,支持外接摄像机从视频流检测和载取人脸照片等功能。据介绍,人人智能发布的“智能芯”是国内首个人脸识别硬件模组,尺寸仅为 86mm*56mm*21mm,集成了人工智能操作系统 FaceOS。通过将人工智能算法进行集成产品化,能够把产品的研发周期减少 60%,成本降低 50%。
NovuMind
NovuMind 成立于 2015 年,公司创始人是原百度异构计算小组负责人吴韧,在北京及硅谷设有办公室。公司于 2017 年初完成了 A 轮融资,投资方包括了真格基金、宽带资本、英诺天使基金、洪泰基金、臻云创投、极客帮创投等,据报道近期正在筹备新一轮融资。
NovuMind 主要为智能为汽车、安防、医疗、金融等领域提供 ASIC 芯片,并提供训练模型的全栈式 AI 解决方案。与 Nvidia GPU 或 Cadence DSP 的通用深度学习芯片不同,NovuMind 专注于开发一种“非常专用但非常高效地进行推理”的深度学习加速器芯片。NovuMind 设计了一种仅使用 3×3 卷积过滤器的 AI 芯片,通过使用独特的张量处理架构(tensorprocessing architecture)直接对三维 Tensor 进行处理,新芯片将支持 Tensorflow、Cafe 和 Torch 模型。。NovuMind 的第一个 AI 芯片(原型)预计会在 17 年圣诞节前推出。到明年 2 月份应用程序准备就绪,并能够在该芯片上实现耗能不超过 5 瓦进行 15 万亿次浮点运算。NovuMind 的第二个芯片,耗能将不超过 1 瓦,计划在 2018 年中期面世。
AI 产品:RK3399Pro
在 CES 2018 年消费电子展前夜,瑞芯微宣布,向全球正式推出旗下首款性能超强的 AI 处理器 RK3399Pro,其片上 NPU(神经网络处理器)运算性能高达 2.4TOPs,具高性能、低功耗、开发易等优势,并且瑞芯微能为 AI 人工智能领域提供一站式 Turnkey 解决方案。
根据官方介绍,RK3399Pro 首次采用 CPU+GPU+NPU 硬件结构设计的 AI 芯片,其集成的 NPU(神经网络处理器)融合了 Rockchip 在机器视觉、语音处理、深度学习等领域的多年经验。相较传统芯片,典型深度神经网络 Inception V3、ResNet34、VGG16 等模型在 RK3399Pro 芯片上的运行效果表现出众,获近百倍提升。
RK3399Pro 采用专有 AI 硬件设计, NPU 运算性能高达 2.4TOPs,高性能与低功耗指标均大幅领先:相较同类 NPU 芯片性能领先 150%;相较 GPU 作为 AI 运算单元的大型芯片方案,功耗不到其所需的 1%。
国外 AI 芯片公司:
英伟达(Nvidia)
由于深度学习对计算速度的要求是“暴力”的,英伟达 GPU 芯片可以让大量处理器并行运算,速度比 CPU 快十倍甚至几十倍,因而成为绝大部分人工智能研究者和开发者的必备”核弹“。
国内搞 AI 创业的人几乎全在用英伟达 GPU 和平台,一个小型 AI 创业团队在英伟达芯片上花费几十万元很正常。
作为 PC 时代的绝对霸主,Intel 已经错过了移动互联网时代,在已经到来的 AI 时代,也失掉了先机,但它并没有放弃,而是积极布局,准备逆袭。在云端,收购 Altera 之后推出了基于 FPGA 的专用深度学习加速卡,可以在云端使用;另外,收购 Nervana,目标也是在云端。在移动端,则是收购了 Movidius。下面先对 Nervana 进行介绍,对 Movidius 的介绍放在后面移动端。
芯谋研究总监王笑龙认为:“如果 Nvidia 在个人电脑 GPU 上营收减少,那么 Nvidia 在新市场的开发就会被牵制,所以 Intel 选择和 AMD 合作。”
数据研究机构 Gartner 的研究主管 Alan Priestley 也认为,Intel 和 AMD 的合作将会对 Nvida 产生一些影响,“目前 Intel 和 AMD 联合推出的这款芯片的应用领域也正是 Nvidia GPU 的应用领域。很明显,Intel 处理器已经渗入到这个领域内,并且通过新款芯片,AMD 也会在这一领域内获得立足点。”
Google
Google 在 2016 年宣布独立开发一种名为 TPU 的全新的处理系统。TPU 是专门为机器学习应用而设计的专用芯片。通过降低芯片的计算精度,减少实现每个计算操作所需的晶体管数量,从而能让芯片的每秒运行的操作个数更高,这样经过精细调优的机器学习模型就能在芯片上运行得更快,进而更快地让用户得到更智能的结果。
在 2016 年 3 月打败了李世石和 2017 年 5 月打败了柯杰的的阿尔法狗,就是采用了谷歌的 TPU 系列芯片。
高通
在智能手机芯片占据绝对优势的高通公司,也在人工智能方面积极布局。据高通提供的资料显示,其在人工智能方面已投资了 Clarifai 公司和中国“专注于物联网人工智能服务”的云知声。
而早在 2015 年 CES 上,高通推出了一款搭载骁龙 SoC 的飞行机器人——Snapdragon Cargo。高通认为在工业、农业的监测以及航拍对拍照、摄像以及视频新需求上,公司恰好可以发挥其在计算机视觉领域的能力。此外,高通的额骁龙 820 芯片也被应用于 VR 头盔中。事实上,高通已经在研发能在本地完成深度学习的移动设备芯片。
Nervana Systems
Nervana 创立于 2014 年,位于圣地亚哥的初创公司 Nervana Systems 已经从 20 家不同的投资机构那里获得了 2440 万美元资金,而其中一家是十分受人尊敬的德丰杰风险投资公司(Draper Fisher Jurvetson,DFJ)。
The Nervana Engine(将于 2017 年问世)是一个为深度学习专门定做和优化的 ASIC 芯片。这个方案的实现得益于一项叫做 High Bandwidth Memory 的新型内存技术,同时拥有高容量和高速度,提供 32GB 的片上储存和 8TB 每秒的内存访问速度。该公司目前提供一个人工智能服务“in the cloud”,他们声称这是世界上最快的且目前已被金融服务机构、医疗保健提供者和政府机构所使用的服务,他们的新型芯片将会保证 Nervana 云平台在未来的几年内仍保持最快的速度。
Movidius(被 Intel 收购)
2016 年 9 月,Intel 发表声明收购了 Movidius。Movidius 专注于研发高性能视觉处理芯片。其最新一代的 Myriad2 视觉处理器主要由 SPARC 处理器作为主控制器,加上专门的 DSP 处理器和硬件加速电路來处理专门的视觉和图像信号。这是一款以 DSP 架构为基础的视觉处理器,在视觉相关的应用领域有极高的能耗比,可以将视觉计算普及到几乎所有的嵌入式系统中。
该芯片已被大量应用在 Google 3D 项目 Tango 手机、大疆无人机、FLIR 智能红外摄像机、海康深眸系列摄像机、华睿智能工业相机等产品中。
IBM
IBM 很早以前就发布过 watson,早就投入了很多的实际应用中去。除此之外,还启动了对类人脑芯片的研发,那就是 TrueNorth。
TrueNorth 是 IBM 参与 DARPA 的研究项目 SyNapse 的最新成果。SyNapse 全称是 Systems of Neuromorphic Adaptive Plastic Scalable Electronics(自适应可塑可伸缩电子神经系统,而 SyNapse 正好是突触的意思),其终极目标是开发出打破冯•诺依曼体系的硬件。
ARM
ARM 刚推出全新芯片架构 DynamIQ,通过这项技术,AI 的性能有望在未来三到五年内提升 50 倍。
ARM 的新 CPU 架构将会通过为不同部分配置软件的方式将多个处理核心集聚在一起,这其中包括一个专门为 AI 算法设计的处理器。芯片厂商将可以为新处理器配置最多 8 个核心。同时为了能让主流 AI 在自己的处理器上更好地运行,ARM 还将放出一系列软件库。
CEVA 是专注于 DSP 的 IP 供应商,拥有为数众多的产品线。其中,图像和计算机视觉 DSP 产品 CEVA-XM4 是第一个支持深度学习的可编程 DSP,而其发布的新一代型号 CEVA-XM6,具有更优的性能、更强大的计算能力,以及更低的耗能。
CEVA 指出,智能手机、汽车、安全和商业应用,如无人机、自动化将是主要目标。
MIT/Eyeriss
Eyeriss 事实上是 MIT 的一个项目,还不是一个公司,但是因为获得了大量的媒体报道,故把它单独拿出来进行介绍。从长远来看,如果进展顺利,很可能孵化出一个新的公司。
Eyeriss 是一个高效能的深度卷积神经网络(CNN)加速器硬件,该芯片内建 168 个核心,专门用来部署神经网路(neural network),效能为一般行动 GPU 的 10 倍。其技术关键在于最小化 GPU 核心和记忆体之间交换数据的频率(此运作过程通常会消耗大量的时间与能量):一般 GPU 内的核心通常共享单一记忆体,但 Eyeriss 的每个核心拥有属于自己的记忆体。
目前,Eyeriss 主要定位在人脸识别和语音识别,可应用在智能手机、穿戴式设备、机器人、自动驾驶车与其他物联网应用装置上。
苹果
在 iPhone 8 和 iPhone X 的发布会上,苹果明确表示其中所使用的 A11 处理器集成了一个专用于机器学习的硬件——“神经网络引擎(Neural Engine)”,每秒运算次数最高可达 6000 亿次。这块芯片将能够改进苹果设备在处理需要人工智能的任务时的表现,比如面部识别和语音识别等。
三星
2017 年,华为海思推出了麒麟 970 芯片,据知情人士透露,为了对标华为,三星已经研发了许多种类的人工智能芯片。三星计划在未来三年内自家智能手机中都采用人工智能芯片,并且他们还将为人工智能设备建立新的组件业务。三星还投资了 Graphcore、深鉴科技等人工智能芯片企业。
ManyCore
ManyCore 架构特斯拉 CEO 马斯克在今年的神经信息处理系统大会上,承认特斯拉自动驾驶硬件工程副总裁 Jim Keller 正在领导着一个超五十人的团队在开发自己的 AI 芯片。
Jim Keller 是 2016 年带了一批架构师和高管跳槽到特斯拉的,他在 AMD 和苹果期间,设计出了 K7 、K8 架构和 A4、A5 处理器,被称得上是天才架构师。
微软蛰伏六年,打造出了一个迎接 AI 世代的芯片。那就是 Project Catapult。这个 FPGA 目前已支持微软 Bing,未来它们将会驱动基于深度神经网络——以人类大脑结构为基础建模的人工智能——的新搜索算法,在执行这个人工智能的几个命令时,速度比普通芯片快上几个数量级。
2017 年 7 月,微软表示正在研发用于识别语音和图像的 AI 芯片,未来将被包含在下一代 HoloLens 的全息处理单元(HPU)当中。
KnuEdge
KnuEdge 实际上并不是一个初创公司,它由 NASA 的前任负责人创立,已经在一个隐形模式下运营了 10 年。KnuEdge 最近从隐形的模式中走出,并让全世界知道他们从一个匿名的投资人获取 1 亿美元的投资用来开发一个新的“神经元芯片”。
KUNPATH 提供基于 LambaFabric 的芯片技术,LambaFabric 将会通过与现在市场上的 GPUs、CPUs 和 FPGAs 完全不同的架构进行神经网络的计算。LambdaFabric 本质上是为在高要求的运算环境下向上拓展至 512000 台设备而设计,机架至机架延迟时间只有 400 毫微秒,低功耗的 256 核处理器。
krtkl
创立于 2015 年的 krtkl 致力于创造“一个微小的无线电脑用来创造一些完全不同的东西”。这款开拓板是基于 XilinxZynq SoC,集成了 ARM 处置器和可编程 FPGA。用户甚至可以经过手机上的专用 APP 对其举行编程,供 230 个用户可用的 I/O 接口,应用灵巧兼容很多扩展板卡。
Barefoot Networks
Barefoot Networks 去年 11 月宣布获得 2300 万美元 C 轮融资,由阿里巴巴和腾讯领投。在去年 6 月,Barefoot 还获得了由谷歌和丹华资本等投资的 5700 万美元融资。
Barefoot Networks 开发了世界上第一个可编程芯片,这种名为 Tofino 的芯片比现在市场上任何其他芯片快两倍,以每秒 6.5 兆的速度处理网络数据包。
耐能(Kneron)
耐能人工智能(KneronInc.)成立于 2015 年 11 月,是一家总部位于美国圣地亚哥的人工智能初创企业,在深圳和珠海也设有办公室。耐能人工智能(KneronInc.)的产品特色在于同时具备硬件及软件的人工智能解决方案,可以将复杂的深度学习演算法,放在终端设备里,而且无需连上网络。
耐能(Kneron)于 2016 年推出该公司首款终端设备专用的人工智能芯片,称为神经网络处理器(Neural Processing Unit,NPU),以及自行研发的软件开发工具包「重组式人工智能神经网络」(Reconfigurable Artificial Neural Network),采用算法可以针对不同的需求快速调整功能,以适用不同的人工智能应用。
Graphcore
2017 年 11 月,英国芯片制造商 Graphcore 宣布获得由红杉资本中国基金与红杉资本美国基金共同领投的 5000 万美元 C 轮融资。
graphore 是一家总部位于布里斯托尔的公司,它开发了新一代计算机处理器,可用于训练人工智能( AI)算法。该公司声称,其 IPU ( intelligence processing units)可以将机器智能培训的性能提高 10 倍到 100 倍。这家英国公司计划明年大规模出货,其芯片将用于无人驾驶汽车和云计算。
此外,Facebook 以及 Twitter 和更多低调的初创公司都在研发新的芯片。
阅读全文
43