作者 | 方文

 

不同于手机为代表的消费电子芯片,车规级芯片对使用寿命、安全性、可靠性、质量一致性等方面的要求更严苛。

 

从设计到流片成功,一切顺利的话,才能量产前装,整个过程大概需要3-5年,当初的特斯拉正是用了三年有余。

 

自研芯片最终的目标是追求可扩展性

 

目前,特斯拉正着眼于从头开始构建相关系统,不过,它不仅仅是在研发自己的人工智能芯片,它还在研发一台超级计算机。

 

在去年的AI Day上,特斯拉就已发布Dojo超级计算机,但当时其羽翼未丰,尚只有第一个芯片及训练块,公司仍在推动构建完整的Dojo Exapod。

 

而特斯拉也表示,理论上,Dojo ExaPod将是世界上最快的AI训练超级计算机。

 

从本次研讨会上Talpes的展示来看,每个Dojo ExaPod集成120个训练模块,内置3000个D1芯片,拥有超过100万个训练节点,算力达到1.1EFLOP*(每秒千万亿次浮点运算)。

 

预计这台定制的超级计算机将提高特斯拉使用视频数据训练神经网络的能力,并对特斯拉自动驾驶功能至关重要。

 

 

想完成一系列构建需要自研芯片

 

使得Dojo完成训练AI算法的重任,就是特斯拉自研神经网络训练芯片D1芯片。

 

但在去年特斯拉AIDay上推出的Dojo超级计算机,是基于特斯拉自研的D1芯片。

 

特斯拉D1芯片具备以下特点:

①2D Mesh架构;

②具备向量及矩阵计算加速单元的众核架构;

③存算一体架构(近存计算)。

 

相比于业内其他芯片,同成本下性能提升4倍,同能耗下性能提高1.3倍,占用空间节省5倍。

 

每个DojoExaPod集成120个训练模块,内置3000个D1芯片,拥有超过100万个训练节点,算力达到1.1EFLOP*(每秒千万亿次浮点运算)。

 

 

Dojo AI系统全自研自研专用指令集

 

所谓Dojo,是特斯拉自研的超级计算机,可利用海量视频数据,完成[无人监管]的标注和训练。

 

本质上,Dojo由一个完全定制的架构构建,涵盖了计算、网络、输入/输出(I/O)芯片到指令集架构(ISA)、电源传输、包装和冷却。

 

通常,初创公司都希望为每个系统构建一个或几个芯片的AI芯片。

 

显然,特斯拉专注于更大的规模。

 

更令人兴奋的是,它不仅使用商业上可用的系统,而且还在构建自己的芯片和系统。

 

特斯拉Dojo AI系统开发过程与车载系统类似,特斯拉自己雇佣了研究人员为其研发相关的芯片和系统。

 

 

Dojo AI系统采用分布式架构

 

特斯拉Dojo AI系统采用分布式架构,每个Dojo节点都有自己的CPU、内存和通信接口

 

而每个节点都有1.25MB的SRAM,然后每个节点都连接到一个2D网格。

 

Dojo接口处理器位于2D网格的边缘,它的每个训练块有11GB的SRAM和160GB的共享DRAM。

 

Dojo核心有一个整数单元,它从RISC-V架构中借用了一些指令,并且有一大堆特斯拉自己创建的附加指令。

 

Dojo指令集支持64位标量指令和64 BSIMD指令,它包括处理从本地内存到远程内存传输数据的原语,并支持信号量和屏障约束。

 

这是使内存操作符合指令不仅在D1内核中运行,而且在D1内核的集合中运行。

 

每个Dojo节点都有一个内核,是一台具有CPU专用内存和I/O接口的成熟计算机。

 

D1意味着它在其内核中支持指令级并行性,就像当今大多数芯片一样,它甚至具有多线程设计来驱动更多指令通过该内核。

 

D1处理器架构:每个D1处理器由18x20的D1核心构成。每个D1处理器中有354个D1核心可用。

 

出于良率和处理器核心稳定考虑,D1处理器由台积电制造,采用7nm制造工艺,拥有500亿个晶体管,芯片面积为645mm²。

 

这个尺寸小于英伟达的A100(826mm²)和AMDArcturus(750mm²)。

 

但是每个核心都是一个完整的带矩阵计算能力的CPU,其计算灵活性是远超众核架构的GPU的,这也会带来极高的成本。

 

·D1核心结构:从18x20阵列中每个D1核心的结构上看,每个D1核心是带有向量计算/矩阵计算能力的处理。

 

具有完整的取指、译码、执行部件。处理器运行在2GHz,具有4个8x8x4矩阵乘法计算单元。

 

·D1处理器指令集:以RISC-V架构ISA为基础进行扩展。

 

D1核心具备FP32和FP16这两个标准的计算格式,同时还具备更适合Inference的BFP16格式。

 

为了达到混合精度计算提升性能的目的,D1还采用了用于较低精度和更高吞吐量的8位CFP8格式。

 

·D1训练块架构:每个D1训练模块由5x5的D1芯片阵列排布而成,以二维Mesh结构互连。

 

片上跨内核SRAM达到惊人的11GB,这也算是一个非常典型的近存计算架构了。当然耗电量也达到了15kW的惊人指标。

 

每个训练模块外部边缘的40个I/O芯片达到了36TB/s的聚合带宽,或者10TB/s的横跨带宽。

 

车企对芯片从未像如今这么高涨

 

自动驾驶汽车的制造商开始意识到,在复杂的世界中教汽车自动驾驶这种情况总是在变化,这将需要更多的超级计算。

 

一是因为全球持续了两年的“芯片荒”让主机厂对供应链安全的重视达到了前所未有的高度;

 

二是因为智能化是新能源竞争的必要条件,软件定义汽车时代已经来临。

 

作为第一个从Mobileye封闭商业模式中跳出来的车企,特斯拉最早2016年初就启动了自动驾驶芯片研发项目,并于2019年正式在量产车上批量搭载。

 

在特斯拉的带动下,头部新势力如蔚来、小鹏、理想纷纷跟进。

 

2021年相继宣布了各自的自动驾驶芯片自研计划,理想在三个月前甚至专门为此在绵阳成立了[理想智动]。

 

进入今年,自动驾驶芯片[凌芯01]也进入集成验证阶段,将在明年二季度进行实车测试。

 

结尾:

 

特斯拉在芯片和超算开发方面取得成就后,或将激励更多的车企加入到芯片和超算研发上来,大力发展自主创新能力,提升企业竞争力。

 

部分资料参考:

电子工程世界:《深度解读特斯拉自研芯片架构》、《为自动驾驶「操碎了芯」,特斯拉Dojo超算架构细节首次公开》