透过GTC2022看Hopper H100的进化和NVIDIA的雄心

最近国内的GPU/NPU新闻比较多，每家公司都在对标NVIDIA的某个型号，看多了这类信息，让人不免产生即将赶上甚至于超越的幻觉。所以想通过GTC2022的演讲，和大家分享一下NVIDIA拥有的“全栈技术能力”。

计算硬件的超级进化

新一代GPU架构Hopper架构，在过去的数年里NVIDIA其他架构依次有Pascal、Volta、Ampere。也可以看出，每次架构的迭代周期一般是2年左右，实际上x86,arm这种CPU的架构迭代速度也大概是2年。计算硬件架构的升级迭代在某些方面带来了成倍的性能提升，例如：Hopper DPX指令集在Dynamic Programing方面带来了40X的速度提升；NVIDIA在Hopper架构中引入新一代流式多处理器的FP8张量核心(Tensor Core)，用来加速AI训练和推理；Hopper Transformer引擎能更好实现动态混合精度的处理（Dynamic Mixed-Precision Processing）；Hopper中引入了新的线程块集群机制，可实现跨单元进行协同计算。H100中的线程块集群可在同一GPC内的大量并发运行，对较大的模型具有更好的加速能力。

此时老黄掏出了采用Hopper架构的H100，号称有史以来最大的代际飞跃，性能碾压老前辈A100！集成了800亿个晶体管（没概念吗？苹果M1 MAX 570亿个晶体管）。note: 这可不是给游戏玩家用的，这是给高性能云计算用的。

Grace-Hopper单一超级芯片组

Grace CPU（左一）是NVIDIA去年发布的，合共144个Arm v9架构（Neoverse N2）CPU内核，缓存容量为396MB。Grace-Hopper将Grace CPU和Hopper H100通过NVLink直接进行芯片互连，速度达到900GB/s（注：Apple的M1 Ultra 是将两颗M1 Max互连）。

为了展示NVLink的超级性能，黄教主给出了如下各种情况。国内也经常说chiplet超级晶粒封装，然而芯片之间的高速互联技术并不是“简单的胶水”！

DGX H100是一台借助NVLink连接，由八块H100组成的一个巨型GPU。

DGX POD组成的 1 EFLOPS巨兽

NVIDIA EOS，这是英伟达正在构建的地球上性能最强的AI超级计算机。

软件与生态雄心

如今的NVIDIA似乎确实进化成一家由软件驱动的硬件公司了。如下摘录了几句黄教主的名言：

“具备CUDA库的NVIDIA SDK是加速计算的核心和灵魂”

“NVIDIA SDK将我们与科学领域的新挑战和业界新机遇紧密相连”

NVIDIA SDK不完全统计如下：

名称	简要
NVIDIA Aerial	NVIDIA Aerial SDK Build and Deploy GPU-Accelerated 5G Virtual Radio Access Networks (vRAN) NVIDIA Aerial™ is an application framework for building high-performance。
NVIDIA cuOpt	AI-Accelerated solvers for route optimization。能够优化多代理、多约束的路线规划。
NVIDIA cuQuantum	一个在GPU加速系统上模拟量子电路的开发平台。
NVIDIA Modulus	用于开发Physics-ML模型的AI框架。
NVIDIA MONAI	与伦敦国王学院(King’s College London)合作，面向医疗研究领域的AI框架。
FLARE	用于联邦学习的AI SDK。
MORPHEUS‍‍	‍‍NVIDIA Morpheus用于网络安全的整套能够实时检测和预防安全威胁的加速AI技术。
RIVA 2.0	SDK for speech AI
MAXINE	SDK for AI Video conferencing
MERLIN	AI Framework for Hyperfscale recommender system。
Memo Megatron	AI Framwork for training large language models
TRITON	Open-Source Hyperscale Inference Server
...	...

NVIDIA对应用场景的理解深度以及技术布局的前瞻性，在这个维度上我们的认知差距有多远？

用户难道会使用着NVIDIA SDK，而用着另外一家公司的的GPU卡吗？

元宇宙的基建霸主？

谁定义元宇宙世界的接口？

谁将是元宇宙基建的巨头？

结束语

对于高性能计算行业，我们有许多疑问：

技术层面，我们是否仍停留在谈制程、谈封装、谈面积，谈硬件对标x？

商业实践，我们是否仍停留在只是个买芯片/板卡/服务器的传统认知？

生态层面，我们是否仍停留在兼容CUDA，然后以为其他逻辑自然通？

竞争层面，我们是否仍停留在只是高举国产自主可控旗帜？

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
DSPIC33EP512MU810-I/PF	1	Microchip Technology Inc	16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP100, 14 X 14 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100		$9.69	查看
CP2102N-A02-GQFN24R	1	Silicon Laboratories Inc	USB Bus Controller, CMOS, QFN-24	ECAD模型下载ECAD模型	$2.59	查看
MK64FN1M0VLL12R	1	NXP Semiconductors	FLASH, 120MHz, RISC MICROCONTROLLER, PQFP100		暂无数据	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

DSPIC33EP512MU810-I/PF

Microchip Technology Inc

16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP100, 14 X 14 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100