加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

英伟达Drive Thor之Blackwell架构分析,算力缩水一半

03/25 10:55
1876
阅读需 10 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

2024年英伟达GTC大会上,英伟达宣布了Drive Thor获得一系列客户采纳,包括比亚迪、小鹏和广汽埃安Hyper,不过没有极氪的名字,有点意外,极氪所在的吉利集团子公司芯擎则在3月20号的亿咖通Tech Day上布了与英伟达Orin对标的AD1000芯片,极氪很有可能不会使用Thor了。毫无意外,Drive Thor也采用了跟英伟达最新GPU B100/B200/GB200的Blackwell架构。

今天我们来着重看一下最新的Blackwell架构,大部分专业人士和投资者对新的Blackwell架构没有多少好感,发布新产品后,英伟达股价有所下跌,平心而论,Blackwell的确乏善可陈。

此外,英伟达也更改了对Thor算力的描述,https://nvidianews.nvidia.com/news/nvidia-drive-powers-next-generation-transportation,明确指出是1000TOPS,而在2022年9月的新闻稿里,https://nvidianews.nvidia.com/news/nvidia-unveils-drive-thor-centralized-car-computer-unifying-cluster-infotainment-automated-driving-and-parking-in-a-single-cost-saving-system明确指出是2000TOPS,当然这个没有点明模型精度,或许2000TOPS是FP4精度。Thor应该和Orin一样有多个版本,顶配算力1000TOPS,低配可能是500TOPS。

北京时间3月19日,采用英伟达新一代GPU架构Blackwell的首款产品B100和B200正式发布,同时发布的还有GB200系统以及售价可能超过500万美元的GB200 NVL72服务器

简单地说就是将两颗H100放在了一起,就像苹果的M1系列一样。

苹果的M1Max可以持续扩展出多个产品,英伟达的B100也是如此,两者用的技术都一样,都是MCM。

英伟达三代GPU旗舰对比。

GB200的GPU部分,差不多等于拼凑了4个B100,性能是10000FLOPS@FP8,单个B100的性能是3500FLOPS@FP8。尽管有最新的高达1.8TB/s的NVLink加持,性能也只是勉强3倍。而通常车载网络是1GB/s,远低于NVLink,4个Orin级联顶多能算1.05倍也就是267TOPS的算力。

三款Blackwell架构产品的性能对比,B100可能是B200的降频版,会在2024年推出,而B200要等到2025年才能推出,和H100的单GPU die相比,B100和B200都是双GPU die,H100使用台积电N4工艺,800亿个晶体管,die size是814平方毫米,B100和B200都是使用台积电4NP工艺,die size可能是880平方毫米,晶体管密度提高,同时die size也大了,最终是1040亿晶体管。B100的性能是3500TFLOPS,H100 SXM5型是3958TFLOPS,性能没有提升,反而下降了,当然和性能稍差的H100 PCIe版相比大约提高了474TOFLOPS,但是H100 PCIe的TDP功耗只有300瓦,而B100是700瓦。和H100相比,B100提升不多,甚至没有提升。

2017年6月英伟达发表论文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM设计,直到7年后才付诸产品。

图片来源:NVIDIA

MCM-GPU设计基本就是现在比较火爆的Chiplet设计,但是英伟达一直未将MCM付诸实际设计中。英伟达一直坚持Monolithic单一光刻设计,这是因为die与die之间通讯带宽永远无法和monolithic内部的通讯带宽比,换句话说Chiplet不适合高AI算力场合,在纯CPU领域是Chiplet的最佳应用领域。

图片来源:NVIDIA

英伟达2017年论文提及的MCM-GPU架构如上图,英伟达在MCM-GPU架构里主要引入了L1.5缓存,它介于L1缓存和L2缓存之间,XBAR是Crossbar,英伟达的解释是XBAR负责将数据包从给定的源单元传输到特定的目标单元。有点像交换或路由。GPM就是GPU模块。

英伟达再次提到了芯片物理限制,因为光掩膜的限制,芯片的面积无法超过880(也有说是850)平方毫米,这是物理极限,除非光刻机领域出现革命性革新。同时芯片面积越大,良率就越低,成本就越高,这是Chiplet产生的根本原因,不过英伟达对Chiplet不屑一顾。英伟达一直坚持Monolithic单一光刻设计,这是因为Chiplet的die与die之间通讯带宽永远无法和monolithic内部的通讯带宽相提并论。

很多人引用这张图,芯片Die 尺寸750平方毫米的良率只有35.7%,50平方毫米是94.2%,实际没有这么夸张。英伟达的A100的die尺寸高达826平方毫米,H100的die尺寸也有814平方毫米,远超750平方毫米。但是英伟达依靠CUDA建立的护城河,产品具有极高溢价,不在乎成本高昂,英伟达有能力将成本转嫁到下游客户头上。

NVIDIA的H100利润率达到90%。同时也给出了估算的H100的成本构成,NVIDIA向台积电下订单,用 N4工艺制造 GPU 芯片,平均每颗成本 155 美元。NVIDIA从 SK 海力士(未来可能有三星、美光)采购六颗 HBM3芯片,成本大概 2000 美元。台积电生产出来的 GPU 和NVIDIA采购的 HBM3 芯片,一起送到台积电 CoWoS 封装产线,以性能折损最小的方式加工成 H100,成本大约 723 美元 。

B100的HBM是192GB的HBM3E,成本大概5000美元,die size加倍,制造和封装成本增加超过一倍,大概是2000美元,B100和B200的成本大约7000美元,英伟达一贯90%的利润率,B100售价大概7万美元,B200大概8万美元。

Thor的CPU部分可能会与英伟达Grace一样,使用ARM Neoverse的V2架构,核心数肯定不需要72颗,12或16核心足够了。Thor肯定无法使用昂贵的HBM,最多可能是GDDR6存储。顶配Thor的售价估计在1000美元左右,低配估计600美元,英伟达可能是考虑成本因素,才将算力缩水了一半。

英伟达是不是有些江郎才尽了?

免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
MKL02Z32CAF4R 1 Freescale Semiconductor Kinetis L 32-bit MCU, ARM Cortex-M0+ core, 32KB Flash, 48MHz, WL-CSP 20

ECAD模型

下载ECAD模型
$2.7 查看
MKL02Z16VFG4 1 NXP Semiconductors RISC MICROCONTROLLER
$2.9 查看
AT89C51CC03CA-SLSUM 1 Microchip Technology Inc IC MCU 8BIT 64KB FLASH 44PLCC

ECAD模型

下载ECAD模型
$7.71 查看
英伟达

英伟达

为这个时代的达芬奇和爱因斯坦们提供超强计算性能。我们开创性地开发出一种超强计算形式,深受全世界对计算机有超高要求的用户的青睐,包括科学家、设计师、艺术家和游戏玩家。对于他们而言,我们的创造几乎可媲美时间机器。基于对更优质 3D 图形永无止境的需求以及当下庞大的游戏市场,NVIDIA 已在这个虚拟现实、高性能计算和人工智能的交叉口,将 GPU 发展为计算机大脑。

为这个时代的达芬奇和爱因斯坦们提供超强计算性能。我们开创性地开发出一种超强计算形式,深受全世界对计算机有超高要求的用户的青睐,包括科学家、设计师、艺术家和游戏玩家。对于他们而言,我们的创造几乎可媲美时间机器。基于对更优质 3D 图形永无止境的需求以及当下庞大的游戏市场,NVIDIA 已在这个虚拟现实、高性能计算和人工智能的交叉口,将 GPU 发展为计算机大脑。收起

查看更多

相关推荐

电子产业图谱

佐思汽车研究:致力于汽车、TMT、新能源(特别是新能源汽车、智能汽车、车联网)领域的产业研究、专项调研、战略规划和投资咨询服务。