特斯拉Dojo芯片深度揭秘

特斯拉在AI Day推出Dojo深度学习训练用芯片，更准确地说应该是Dojo深度学习训练系统，让特斯拉粉丝兴奋不已，马斯克大神地位进一步加强。不过大部分人冷眼旁观，特斯拉在第二天的股票市场上弱于大势，微涨1.01%，而第二天的纳斯达克指数涨幅为1.19%，特斯拉粉丝认为应该被拉下神坛的英伟达却大涨5.14%，报208.16，创上市以来最高值，至少投资界没人看好特斯拉的训练芯片。

特斯拉Dojo深度学习训练用首秀，实际应该是台积电InFO_SoW (System-on-Wafer)首秀，台积电于2020年6月底在IEEE上发表论文https://ieeexplore.ieee.org/document/9159219，特斯拉是第二个使用此设计方案的人，第一个是Cerebras，不过Cerebras的产品9月份才会正式推出，所以特斯拉算首秀。

图片来源：互联网

目前最强的训练用处理器是英伟达的A100。性能如下表。

图片来源：互联网

特斯拉Dojo性能如下

图片来源：互联网

TF32是Tensor Float 32的缩写，在深度学习中，其实我们对浮点数的表示范围比较看重，而有效数字不是那么重要。在这个前提下，TF直接就把 FP32 中 23 个分数值截短为 10 bits，而指数位仍为 8 bits，总长度为 19 (=1 + 8 +10) bits。借助 NVIDIA 开发的深度学习库，用户可以无感地使用 TF32 而无需任何额外的操作。底层库会自动地将 FP32 转换为 TF32 进行计算，并将结果再转换为 FP32。

Brain Float 16 格式是 Google 在 TensorFlow 中引入的新数据类型，其可以认为是直接将 FP32 的前16位截取获得的。至于设计思路和上面的 TF32 是一样的，都是深度学习对表示范围敏感而对精度不敏感。但是 Google 更加暴力，直接将分数值砍到只剩下 7 bits。

训练领域对精度要求更高，因此FP64必不可少，特别在医疗（模拟心脏）和气象领域（预测大西洋飓风）以及航天领域，汽车领域主要是图像识别精度要求不高，FP32足够，甚至近期有人提出FP8就够了。FP64精度下的性能参数，特斯拉很聪明地不提供，也可能特斯拉的Dojo就不支持FP64精度。英伟达A100是专业训练芯片，提供最全的精度模式，包括FP32和TF32。局部性能弱于特斯拉Dojo，但差距很小，在最常用的BF16精度下，英伟达是比特斯拉强很多的。通常认为推理的精度至少要INT8，而特斯拉觉得训练精度CFP8就够了。英伟达显然不会支持CFP8。

A100有542亿个晶体管，特斯拉Dojo是500亿个，英伟达A100裸晶面积是826平方毫米，特斯拉是645平方毫米，两者都是7纳米，不过英伟达A100要比特斯拉早上1年多，加上英伟达的GPU安培架构在晶体管密度上天生弱势（多说几句，特斯拉晶圆利用效率最高的是2017年的Volta架构有95%，安培架构只有88%，2012年的开普勒和2016年的帕斯卡都有93%），因此，特斯拉明显占优，这也意味着特斯拉的成本更低。不过功耗方面，英伟达明显占优，PCIe版只有250瓦。

图片来源：互联网

实际这是台积电左右互搏，英伟达使用的是Flip-Chip MCM技术，AMD的CPU也是如此，英伟达自己叫Multi-Instance GPU (MIG) ，A100是最多允许7个，也就是8个芯片级联。特斯拉是InFO_SoW (System-on-Wafer)。InFO_SoW具备压倒性优势，理论性能是Flip-Chip MCM两倍以上。且级联数量可达几十乃至上百个，台积电原型达到49个，特斯拉的Dojo是25个。台积电的核心优势不是3纳米或2纳米的先进工艺，而是芯片的3D系统级封装，单凭这一项，足以秒杀三星，即便三星量产0.5纳米，没有先进封装的帮助，所有高性能芯片还是95%在台积电下单。

对AI来说，存储器对指令和数据的搬运（写入和读出）的时间是运算单元运算所消耗时间的几十倍乃至几百倍。换句话说，很多AI芯片所描述的实际算力会因为存储器的因素降低50%甚至90%。即内存墙问题。提高AI处理器最有效的方法是减小运算单元与存储器之间的物理距离。这也是这15年来高性能芯片封装技术发展的主要目标，这不仅可以提高算力，还能降低功耗减少发热。

众所周知，处理器跟内存之间的距离越短，则处理器的运算延迟越低。而这也是当代的高效能处理器普遍内建三级缓存的原因--缓存的容量越大，则处理器需要从内存搬移数据的机率越低，整个系统的效能与功耗也能因而获得明显改善。图上的线宽5微米是RDL（再分布层） 1-3层情况下的结果，如果RDL4-6层，线宽会增加到15/20微米。

图片来源：互联网

特斯拉Dojo核心层，特斯拉为更好系统整合，没有采用正圆形，而是做了一点修改，类似于八边形。

图片来源：互联网

SoW是整体冷盘，不像以前的方案，只有一条线，散热效率大大提升，此外也可以用水冷散热。

SoW通过了服务器领域温度测试标准。图片来源：互联网

图片来源：互联网

优点多多，成本和良率也很好，可以使用成熟的InFO工艺，KGD芯片。

图片来源：互联网

不加任何散热的情况，12英寸晶圆大小最高支持到7千瓦，特斯拉外加散热器，提高到了15000瓦。

图片来源：互联网

英伟达的A100，使用2代HBM内存，存储带宽只有1.6TB/s。特斯拉则大手笔不计成本，全部采用片上SRAM，带宽达到惊人的4TB/s。特斯拉的垂直模式也比业界常用的平面模式要强很多，功率密度大大提升。说回芯片本身的设计，特斯拉和Cerebras如出一辙，Cerebras比特斯拉还要疯狂，CerebrasWSE2单芯片有2.6万亿晶体管，是特斯拉的50倍，芯片面积达46225平方毫米，拥有85万内核，这么大芯片的良率会非常低，估计不到10%，估计单芯片就要50万美元甚至100万美元以上。当然芯片也是台积电制造的，利润的大部分都归台积电。

图片来源：互联网

Cerebras的稀疏矩阵数据流，汽车图像识别中很大一步矩阵值都是零，大面积的空洞即天空，因此属于标准的稀疏矩阵，而医疗、气象领域则多稠密矩阵。算力方面特斯拉300个D1芯片，即12个Dojo单元算力是108PFlops，每个单元是9PFlops，功率是180千瓦，每瓦PFlops算力是0.6。Cerebras是每个单元（即CS-1服务器）含15个WSE2，算力是23PFlops，功率20千瓦（CS-1是水冷设计），每瓦PFlops算力是1.15。不过价格Cerebras可能是特斯拉的10倍甚至更多。

图片来源：互联网

特斯拉的训练节点矩阵架构，跟Cerebras很近似。

特斯拉的垂直运算系统非常新颖，算是亮点。核心技术还是台积电掌握，芯片设计本身平淡无奇，没有什么亮点。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
VCA824IDGST	1	Texas Instruments	Wideband 420MHz, >40dB Gain Adjust Range, Linear in V/V Variable Gain Amplifier 10-VSSOP -40 to 85	ECAD模型下载ECAD模型	$10.23	查看
A3979SLPTR	1	Allegro MicroSystems LLC	Stepper Motor Controller, 2.5A, BCDMOS, PDSO28, 1.2 MM HEIGHT, EXPOSED PAD, MO-153AET, TSSOP-28	ECAD模型下载ECAD模型	暂无数据	查看
TPS2412PWR	1	Texas Instruments	0.8-V to 16.5-V 1.2A IQ 292-uA Igate source N+1 and OR-ing power rail controller 8-TSSOP -40 to 85	ECAD模型下载ECAD模型	$2.64	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

VCA824IDGST

Texas Instruments

Wideband 420MHz, >40dB Gain Adjust Range, Linear in V/V Variable Gain Amplifier 10-VSSOP -40 to 85