在8月底的Hot Chips 34大会上,特斯拉公布了其数据训练用芯片Dojo更进一步的细节,和AMD的消费级显卡RX6900 XT相比算力有差距,而特斯拉的Dojo价格估计至少是AMD RX6900 XT显卡芯片的10倍以上。

 

特斯拉、英伟达和AMD之AI训练芯片对比

 

 
 

AMD具备压倒性绝对优势,不过MI250已对中国禁运。台积电是最大受益者,高端AI芯片被台积电垄断,市场占有率至少在95%以上。英伟达的A100推出比较早,是在2020年初推出的,其余都是2021年推出的。AMD的MI250最晚推出,其时间在2021年11月。

 

 
特斯拉的Dojo完全是内部自用,对外销售的话,性价比太低,不可能有市场。同时其为了达到最高的存储性能,使用了SRAM,但缺点就是容量很低,不到0.5GB。不可能运行大的模型,让其适用范围非常窄小,完全没有考虑市场需求,而AMD和英伟达充分考虑了市场需求。

 

在去年特斯拉推出的整个系统级方案,见下图。

 

 

这个是台积电最昂贵的InFO_SoW技术,每个Dojo包含25颗D1芯片。一个晶圆就是一个系统,就是一个AI训练盒子。台积电原型达到49个,特斯拉的Dojo是25个。台积电的核心优势不是3纳米或2纳米的先进工艺,而是芯片的3D系统级封装,单凭这一项,足以秒杀三星,即便三星量产0.5纳米,没有先进封装的帮助,高性能芯片还是95%在台积电下单。SoW是整体冷盘,不像以前的方案,只有一条线,散热效率大大提升,此外也可以用水冷散热。最高支持1500瓦功率,不过价格极高,从研发完成只有特斯拉一个客户。

 

InFO_SoW 示意图

 

今年特斯拉推出了简化版Dojo,只包含两个芯片,称之为V1 Dojo Interface Processor(下简称V1 Dojo),似乎有意对外销售。

 

 

上面的两个大芯片就是V1 Dojo,这个类似英伟达DPU的概念。

 

 

与2021年的Tile构成完整的系统。

 

具体系统搭配示例

 

 

这个V1 Dojo从外观就可以看出使用了HBM,此外推测V1 Dojo芯片也是三星代工的。

 

 

V1 Dojo应该可以做推理用,但估计特斯拉的第二代FSD即HW4.0的芯片还不会用HBM,太贵了。

 

接下来我们回头看D1的微架构,D1的微架构参考了很早以前IBM的cell SPE.

 

 

2005年推出的IBM Cell 处理器具有八个“协同处理元件”(Synergistic Processing Elements)或 SPE,由一个功能齐全的CPU内核(“电源处理元件”或 PPE:Power Processing Element)控制。Dojo与SPE有很多相似之处。Dojo和SPE都针对矢量处理进行了优化,并且依赖于单独的主机处理器进行工作分配。在Dojo或SPE上运行的代码不能直接访问系统内存。相反,应用程序预计主要在一小部分本地SRAM中工作。此本地SRAM由软件管理,不能用作缓存。如果需要来自主存储器的数据,则必须使用DMA操作将其引入。不过IBM Cell的目标市场是游戏机,有点和GPU竞争的意味,2017年IBM推出TrueNorth真北,当时还有意进军智能汽车领域,不过真北也很快被英伟达的GPU所淹没。

 

Dojo是一个8路解码,4路超线程SMT,因为散热不佳,运行在保守的2 GHz。它有点像GPU,有354核心,但更像CPU,因为其拥有具有CPU风格的pipeline,使其比GPU更能容忍不同的算法和分支代码。Dojo的指令集在标量方面类似于RISC-V,但Tesla的工程师添加了一组自定义向量指令,专注于加速机器学习。

 

8路解码是目前CPU的天花板,这是决定CPU性能的最关键之处。ARM每年挤牙膏式升级就是如此,2012年的A53是2路,同年的高性能版A57是3路,2015年的A72还是3路,2018年的A76是4路,2020年A78还是4路,同年的X1是5路,而服务器版的ARM如英伟达下一代自动驾驶用的Atlan用的ARM波塞冬架构,最高已经有8路。当然扩展解码路数也不是那么简单,整体设计会因此复杂度大幅度增加,面积增加,进而导致成本增加,解决办法就是更先进的制造工艺,这也是ARM的每一代都需要搭配更先进的制造工艺才能行,否则成本大增。

 

 

特斯拉在这里用词含糊不清,8路解码来达到每周期两线程,让人怀疑实际上是4路解码,另外一个线程是虚拟出来的。

 

 

每个核心直接使用1.25MB的SRAM,而不是CPU用的那么复杂的多级缓存设置和多种缓存设置。

 

 

特斯拉采用传统的2D mesh网络做NOC。NOC即片上网络。片上网络有很多种,有星形(Star)连接、环形(Ring)连接和网格(Mesh)连接,2D mesh是成本最低的一种,也是比较早的一种,特斯拉可能是模仿了IBM的真北TrueNorth,真北也是2D mesh,连接了4096核心。国内大多是采用Arteris的NOC,黑芝麻、杰发科技、地平线、芯擎、瑞芯微、国民技术、华为、全志、炬力、展讯都是如此。Arteris曾经是高通的子公司,后独立上市。英特尔在2019年收购了Netspeed,Facebook在2019年收购了Sonics,这两家的NoC使用面远不及高通的Arteris。

 

 

354个核心通过2D mesh连接。

 

 

特斯拉增加了三条指令集,特别针对矢量做了处理。

 

特斯拉自己打造训练数据中心,推测其主要还是为了将特斯拉打造成科技巅峰公司的形象,让特斯拉的科技粉丝越来越多,最终的结果是特斯拉品牌溢价率极高,再普通的产品,加上特斯拉的品牌都是无价之宝。这比花几十亿做广告的效果要好得多。