英伟达Orin会不会被禁止，Thor很可能被禁止

“履霜，坚冰至；履霜坚冰，阴始凝也”。驯致其道，至坚冰也。最初A100和H100被禁，有了A800和H800，然后A800和H800也被禁止了，再之后消费级的RTX4090也被禁止了。虽然RTX8090显卡仍可以销售，但RTX4090的芯片被禁止了，换句话说以后RTX4090只有进口的了，几年前如果有人说RTX4090芯片会被禁止，肯定会被嗤之以鼻，不可能，但现在确实发生了。

北京时间2023年10月17日晚间，美国政府公布了《临时最终规则》，对于高性能计算芯片对华出口限制规则进行了升级，该规则将于11月17日生效。10月18日，英伟达（NVIDIA）依照上市公司规则提交了“8-K文件”，对于与其相关的限制政策及影响进行了说明。

美国商务部工业与安全局（BIS）最新公布的《临时最终规则》修订了ECCN 3A090和4A090，并对向中国和国家组D1、D4、D4和D5（包括但不限于沙特阿拉伯、阿拉伯联合酋长国和越南，但不包括以色列）的出口，规定了额外的许可证要求。原始文件有295页，相信大部分人都没仔细看一遍。

根据修订后的ECCN 3A090、4A090新规，对高性能计算芯片做了限制：

增加了“性能密度阈值”的判定，与之相关的是改用“总体处理性能”（TPP，Total ProcessingPerformance）以代替此前传统的算力单位TOPS。在现有新规下，算力大于一定阈值，或算力与性能密度同时分别达到某一阈值，都将触发出口管制。

“总处理性能”TPP的计算方式为2×“MacTOPS”×“操作的位长度”，“性能密度”为“总处理性能”除以“适用的芯片单元（die）面积”。对于美国现有规定而言，“适用的芯片单元面积”以平方毫米为单位。其中，die（晶片）指的是包含一个或多个集成电路（IC）的单块半导体材料。它是在制造过程中从更大的晶圆中切割出来的单个片段。然后通常会将这个晶片封装到芯片载体中。

如果相关芯片设计及销售不用于数据中心，其限制阈值是“总体处理性能”大于等于4800，或总处理性能大于等于1600且“性能密度”达到5.92；如果相关芯片用于数据中心，其“总体处理性能”介于2400至4800之间，且“性能密度”介于1.6至5.92之间，或“总体处理性能”高于1600，且“性能密度”介于3.2至5.92之间，均会触发出口管制。

这里的性能密度PD（Performance Density）指的是TPP指标除以芯片面积(单位：mm²)，这里所指的芯片面积包括逻辑运算芯片所占的所有面积，也包括使用非平面晶体管架构工艺节点制造的逻辑芯片。

美国还表示，将制定一份新的“灰名单”，要求某些不太先进芯片的制造商在向中国、伊朗或其他受到美国武器禁运的国家（D:5国家组）出售芯片时通知政府。

INTRODUCING ORIN

图片来源：英伟达

而Orin最高是275TOPS@INT8，即2*275*8=4400，Orin有多个版本，国内版本一般Orin是254TOPS。

图片来源：英伟达

这是国内最常见的，型号可能是Orin T239，其TPP为2*254*8=4064。最关键的就是Orin的die size了，英伟达未公开过，但英伟达公布过Orin的制造工艺和晶体管数量，从中可以大致推算出其die size。此外，https://twitter.com/SkyJuice60/status/1539489608047955969里说Orin的die size是445平方毫米，4064/445=9.13，显然高于5.92了。不过BIS文件里写明是原始计算模式，像英伟达Orin的GPU，其原始计算模式是FP32，算力仅为5.2TOPS，INT8模式下才167TOPS。所以TPP应该是2*87*8+2*5.2*32=1724.8，那么密度为1724.8/445=3.36，似乎是过关了。不过Orin的die size到底是多大？

Orin采用三星的8纳米LPP工艺，三星在2018年的VLSI大会上对8纳米LPP工艺做了说明，https://fuse.wikichip.org/news/1443/vlsi-2018-samsungs-8nm-8lpp-a-10nm-extension/，为了降低成本，三星的8纳米LPP没有采用EUV光刻机。

图片来源：三星

三星没有明确指出8纳米LPP的晶体管密度是多少，不过给出了UHD的密度是61.18百万晶体管/平方毫米，文章里有一句话“The high-density cell is identical to the HD cell offered for 10LPP which will enjoy the various power and performance optimizations that were done without large modifications. The UHD cell is a brand new standard cell for 8LPP. This new cell is a single diffusion line pitch lower than the 10nm HD cell (or 0.9x reduction in height) which Samsung claims provides roughly 15% logic area scaling compared with the previous 10LPP cell”似乎是说8纳米LPP就是UHD，Orin是170亿晶体管，如果密度是65.18百万晶体管/平方毫米，那么其die size就是17000/65.18=260.8平方毫米，1724.8/260.8=6.61，显然超过了5.92的上限。不过这个密度只是理论值，实际会有打折，大致会有10-20%的折扣，如果是10%的折扣那么性能密度值就是5.95。

英伟达下一代车载SoC即Thor肯定满足第一项。

Thor最大算力是2000TOPS@INT8，即2*2000*8=16000，远超TPP规定的4800的阈值。但Thor的细节还不为人知，应该接近英伟达的H100，应该还是近似Orin的配置，一半算力由CUDA核提供，一半由TENSOR提供，无论如何也会超过4000，更何况其是台积电5nm或4nm工艺，晶体管密度至少是1.24亿个/平方毫米，肯定会超过5.92上限。

高通的SA8650据说是100TOPS@INT8算力，TPP就是1600，且SA8650是台积电4nm工艺，4LPE晶体管密度是1.36亿个/平方毫米，远超三星的8纳米。肯定会超过5.92上限，不过这很好解决，将AI频率略微降低一点就可以低于1600。

短期内，Orin应该没有问题，或者处在灰色地带；Thor也可以更改设计，降低算力或采用比较落后的制造工艺，后者可能导致成本大涨，甚至无法实现，单一芯片光刻面积一般无法超过880平方毫米。

如果Thor被禁止，如何取得1000TOPS以上算力，很多人会提起多个Orin级联。

不过没那么简单，4个Orin级联就是4倍算力，实际远远做不到。

图片来源：英伟达

这是英伟达的DGX-H100拓扑，连接了8张H100卡。

要想8张H100就算力翻倍，需要复杂的网络拓扑，包括英伟达的独门武器NVLink，还需要PCIe交换机。NVLink是显卡之间点对点连接，连接CPU还需要PCIe交换机。

PCIe与NVLINK的对比

来源：公开资料整理

PCIe与NVLINK实际两者是一样的技术，NVLINK的物理层与PCIe一致，但NVLINK无需考虑各个厂家之间的互联互通，所以不断增加lane数量。所以x18的NVLink 3.0，数据速率25 Gbit/s，双工50Gbit/s，总带宽就是25×8×2×18 = 7200Gbit/s = 900 GB/s。PCIe是单通道两对差分线，一对发送一对接收。PCIe 5.0信号速率32GT/s，128/130b，x16单向带宽就是32×128/130×16 = 504 Gbit/s = 63 GB/s。理论上，对于实现全双工的PCIe设备，可以提供126GB/s的双向带宽。单单从信号线路数量来说，x16的PCIe和x2的NVLink是相同的，都是32对差分线。x2的NVLink 3.0双向带宽是100 GB/s，比PCIe 5.0 x16的126 GB/s要低。NVLink牺牲了功耗换来了高带宽。

除非Orin能用上NVLink，否则做不到4个级联就增加4倍算力。不过，Orin自然是不支持NVLink，只能退而求其次用PCIe，Orin有4代PCIe接口，16 lane，也就是最高32GB/s带宽，和NVLink高达900GB/s的带宽比差距巨大。然而，即使是PCIe交换机也有一个麻烦，那就是PCIe交换机价格很高，64lane的PCIe交换机大约350美元。这样4个Orin通过PCIe级联，大概能有2-2.5倍的算力。当然也可以用便宜的以太网交换机，不过带宽通常只有1.25GB/s，用这样的以太网交换机连接4个Orin，实际效果估计算力增加很少，因为AI计算极度消耗带宽。

要解决问题，还是得靠自己，不能把命运放在别人手中。

免责说明：本文观点和数据仅供参考，和实际情况可能存在偏差。本文不构成投资建议，文中所有观点、数据仅代表笔者立场，不具有任何指导、投资和决策意见。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
P82B715TD,118	1	NXP Semiconductors	P82B715 - I2C-bus extender SOIC 8-Pin	ECAD模型下载ECAD模型	$4.97	查看
TMS320F28335PGFA	1	Texas Instruments	C2000™ 32-bit MCU with 150 MIPS, FPU, 512 KB flash, EMIF, 12b ADC 176-LQFP -40 to 85	ECAD模型下载ECAD模型	$29.61	查看
ATMEGA64A-AUR	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 64TQFP	ECAD模型下载ECAD模型	$5.79	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

P82B715TD,118

NXP Semiconductors

P82B715 - I2C-bus extender SOIC 8-Pin