特斯拉数据训练用芯片Dojo D1与传统巨头相比相去甚远

在8月底的Hot Chips 34大会上，特斯拉公布了其数据训练用芯片Dojo更进一步的细节，和AMD的消费级显卡RX6900 XT相比算力有差距，而特斯拉的Dojo价格估计至少是AMD RX6900 XT显卡芯片的10倍以上。

特斯拉、英伟达和AMD之AI训练芯片对比

AMD具备压倒性绝对优势，不过MI250已对中国禁运。台积电是最大受益者，高端AI芯片被台积电垄断，市场占有率至少在95%以上。英伟达的A100推出比较早，是在2020年初推出的，其余都是2021年推出的。AMD的MI250最晚推出，其时间在2021年11月。

特斯拉的Dojo完全是内部自用，对外销售的话，性价比太低，不可能有市场。同时其为了达到最高的存储性能，使用了SRAM，但缺点就是容量很低，不到0.5GB。不可能运行大的模型，让其适用范围非常窄小，完全没有考虑市场需求，而AMD和英伟达充分考虑了市场需求。

在去年特斯拉推出的整个系统级方案，见下图。

这个是台积电最昂贵的InFO_SoW技术，每个Dojo包含25颗D1芯片。一个晶圆就是一个系统，就是一个AI训练盒子。台积电原型达到49个，特斯拉的Dojo是25个。台积电的核心优势不是3纳米或2纳米的先进工艺，而是芯片的3D系统级封装，单凭这一项，足以秒杀三星，即便三星量产0.5纳米，没有先进封装的帮助，高性能芯片还是95%在台积电下单。SoW是整体冷盘，不像以前的方案，只有一条线，散热效率大大提升，此外也可以用水冷散热。最高支持1500瓦功率，不过价格极高，从研发完成只有特斯拉一个客户。

InFO_SoW 示意图

今年特斯拉推出了简化版Dojo，只包含两个芯片，称之为V1 Dojo Interface Processor（下简称V1 Dojo），似乎有意对外销售。

上面的两个大芯片就是V1 Dojo，这个类似英伟达DPU的概念。

与2021年的Tile构成完整的系统。

具体系统搭配示例

这个V1 Dojo从外观就可以看出使用了HBM，此外推测V1 Dojo芯片也是三星代工的。

V1 Dojo应该可以做推理用，但估计特斯拉的第二代FSD即HW4.0的芯片还不会用HBM，太贵了。

接下来我们回头看D1的微架构，D1的微架构参考了很早以前IBM的cell SPE.

2005年推出的IBM Cell 处理器具有八个“协同处理元件”（Synergistic Processing Elements）或 SPE，由一个功能齐全的CPU内核（“电源处理元件”或 PPE：Power Processing Element）控制。Dojo与SPE有很多相似之处。Dojo和SPE都针对矢量处理进行了优化，并且依赖于单独的主机处理器进行工作分配。在Dojo或SPE上运行的代码不能直接访问系统内存。相反，应用程序预计主要在一小部分本地SRAM中工作。此本地SRAM由软件管理，不能用作缓存。如果需要来自主存储器的数据，则必须使用DMA操作将其引入。不过IBM Cell的目标市场是游戏机，有点和GPU竞争的意味，2017年IBM推出TrueNorth真北，当时还有意进军智能汽车领域，不过真北也很快被英伟达的GPU所淹没。

Dojo是一个8路解码，4路超线程SMT，因为散热不佳，运行在保守的2 GHz。它有点像GPU，有354核心，但更像CPU，因为其拥有具有CPU风格的pipeline，使其比GPU更能容忍不同的算法和分支代码。Dojo的指令集在标量方面类似于RISC-V，但Tesla的工程师添加了一组自定义向量指令，专注于加速机器学习。

8路解码是目前CPU的天花板，这是决定CPU性能的最关键之处。ARM每年挤牙膏式升级就是如此，2012年的A53是2路，同年的高性能版A57是3路，2015年的A72还是3路，2018年的A76是4路，2020年A78还是4路，同年的X1是5路，而服务器版的ARM如英伟达下一代自动驾驶用的Atlan用的ARM波塞冬架构，最高已经有8路。当然扩展解码路数也不是那么简单，整体设计会因此复杂度大幅度增加，面积增加，进而导致成本增加，解决办法就是更先进的制造工艺，这也是ARM的每一代都需要搭配更先进的制造工艺才能行，否则成本大增。

特斯拉在这里用词含糊不清，8路解码来达到每周期两线程，让人怀疑实际上是4路解码，另外一个线程是虚拟出来的。

每个核心直接使用1.25MB的SRAM，而不是CPU用的那么复杂的多级缓存设置和多种缓存设置。

特斯拉采用传统的2D mesh网络做NOC。NOC即片上网络。片上网络有很多种，有星形(Star)连接、环形(Ring)连接和网格(Mesh)连接，2D mesh是成本最低的一种，也是比较早的一种，特斯拉可能是模仿了IBM的真北TrueNorth，真北也是2D mesh，连接了4096核心。国内大多是采用Arteris的NOC，黑芝麻、杰发科技、地平线、芯擎、瑞芯微、国民技术、华为、全志、炬力、展讯都是如此。Arteris曾经是高通的子公司，后独立上市。英特尔在2019年收购了Netspeed，Facebook在2019年收购了Sonics，这两家的NoC使用面远不及高通的Arteris。

354个核心通过2D mesh连接。

特斯拉增加了三条指令集，特别针对矢量做了处理。

特斯拉自己打造训练数据中心，推测其主要还是为了将特斯拉打造成科技巅峰公司的形象，让特斯拉的科技粉丝越来越多，最终的结果是特斯拉品牌溢价率极高，再普通的产品，加上特斯拉的品牌都是无价之宝。这比花几十亿做广告的效果要好得多。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ADG1419BRMZ-REEL7	1	Analog Devices Inc	2.1 Ω On Resistance, ±15 V/+12 V/±5 V, iCMOS SPDT Switch	ECAD模型下载ECAD模型	$4.03	查看
CD4051BMT	1	Texas Instruments	20-V, 8:1, 1-channel analog multiplexer with logic-level conversion 16-SOIC -55 to 125	ECAD模型下载ECAD模型	$2.24	查看
NC7SB3157P6X	1	Fairchild Semiconductor Corporation	SPDT, 1 Func, 1 Channel, CMOS, PDSO6, 1.25 MM, EIAJ SC-88, SC-70, 6 PIN		$0.32	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

ADG1419BRMZ-REEL7

Analog Devices Inc

2.1 Ω On Resistance, ±15 V/+12 V/±5 V, iCMOS SPDT Switch