NVIDIA 宣布推出 Hopper 架构，掀起新一代加速计算浪潮

为推动 AI 数据中心的新一轮发展，NVIDIA 于今日宣布推出采用 NVIDIA Hopper™ 架构的新一代加速计算平台。与上一代产品相比，该平台实现了数量级的性能飞跃。

这一全新架构以美国计算机领域的先驱科学家 Grace Hopper 的名字命名，将取代两年前推出的 NVIDIA Ampere 架构。

NVIDIA 同时发布其首款基于 Hopper 架构的 GPU — NVIDIA H100。该款 GPU 集成了 800 亿个晶体管。H100 是全球范围内最大的性能出众的加速器，拥有革命性的 Transformer 引擎和高度可扩展的 NVIDIA NVLink® 互连技术等突破性功能，可推动庞大的 AI 语言模型、深度推荐系统、基因组学和复杂数字孪生的发展。

NVIDIA 创始人兼 CEO 黄仁勋表示： “数据中心正在转变成‘AI 工厂’。它们处理大量数据，以实现智能。NVIDIA H100 是全球 AI 基础设施的引擎，让企业能够利用其实现自身 AI 业务的加速。”

H100 技术突破

H100 NVIDIA GPU 为加速大规模 AI 和 HPC 设定了新的标准，带来了六项突破性创新：

世界最先进的芯片 —— H100 由 800 亿个晶体管构建而成，这些晶体管采用了专为 NVIDIA 加速计算需求设计的尖端的 TSMC 4N 工艺，因而能够显著提升 AI、HPC、显存带宽、互连和通信的速度，并能够实现近 5TB/s 的外部互联带宽。H100 是首款支持 PCIe 5.0 的 GPU，也是首款采用 HBM3 的 GPU，可实现 3TB/s 的显存带宽。20个 H100 GPU 便可承托相当于全球互联网的流量，使其能够帮助客户推出先进的推荐系统以及实时运行数据推理的大型语言模型。

新的 Transformer 引擎 —— Transformer 现在已成为自然语言处理的标准模型方案，也是深度学习模型领域最重要的模型之一。H100 加速器的 Transformer 引擎旨在不影响精度的情况下，将这些网络的速度提升至上一代的六倍。

第二代安全多实例 GPU —— MIG 技术支持将单个 GPU 分为七个更小且完全独立的实例，以处理不同类型的作业。与上一代产品相比，在云环境中 Hopper 架构通过为每个 GPU 实例提供安全的多租户配置，将 MIG 的部分能力扩展了 7 倍。

机密计算 —— H100 是全球首款具有机密计算功能的加速器，可保护 AI 模型和正在处理的客户数据。客户还可以将机密计算应用于医疗健康和金融服务等隐私敏感型行业的联邦学习，也可以应用于共享云基础设施。

第 4 代 NVIDIA NVLink —— 为加速大型 AI 模型，NVLink 结合全新的外接 NVLink Switch，可将 NVLink 扩展为服务器间的互联网络，最多可以连接多达 256 个 H100 GPU，相较于上一代采用 NVIDIA HDR Quantum InfiniBand网络，带宽高出9倍。

DPX 指令 —— 新的 DPX 指令可加速动态规划，适用于包括路径优化和基因组学在内的一系列算法，与 CPU 和上一代 GPU 相比，其速度提升分别可达 40 倍和 7 倍。Floyd-Warshall 算法与 Smith-Waterman 算法也在其加速之列，前者可以在动态仓库环境中为自主机器人车队寻找最优线路，而后者可用于 DNA 和蛋白质分类与折叠的序列比对。

H100 的多项技术创新相结合，进一步扩大了 NVIDIA在 AI 推理和训练的领导地位，利用大规模 AI 模型实现了实时沉浸式应用。H100 将支持聊天机器人使用功能超强大的monolithic Transformer 语言模型 Megatron 530B，吞吐量比上一代产品高出 30 倍，同时满足实时对话式 AI 所需的次秒级延迟。利用 H100，研究人员和开发者能够训练庞大的模型，如包含 3950 亿个参数的混合专家模型，训练速度加速高达9倍，将训练时间从几周缩短到几天。

NVIDIA H100 的广泛采用

NVIDIA H100 可部署于各种数据中心，包括内部私有云、云、混合云和边缘数据中心。这款产品预计于今年晚些时候全面发售，届时企业可从全球各大云服务提供商和计算机制造商处购买，或者直接从 NVIDIA 官方渠道购买。

NVIDIA 的第四代 DGX™ 系统 DGX H100 配备 8 块 H100 GPU，以全新的 FP8 精度提供 32 Petaflop 的 AI 性能，并支持扩展，能够满足大型语言模型、推荐系统、医疗健康研究和气候科学的海量计算需求。

DGX H100 系统中的每块 GPU 都通过第四代 NVLink 连接，可提供 900GB/s 的带宽，与上一代相比，速度提升了 1.5 倍。NVSwitch™ 支持所有八块 H100 GPU 通过 NVLink 全互联。新一代 NVIDIA DGX SuperPOD™ 超级计算机可通过外部 NVLink Switch 互联，最多可连接 32 个 DGX H100 节点。

Hopper 已在行业内获得各大云服务提供商的广泛支持，包括阿里云、AWS、百度智能云、Google Cloud、Microsoft Azure、Oracle Cloud、腾讯云和火山引擎，这些云服务商均计划推出基于 H100 的实例。

全球领先的系统制造商，包括源讯、BOXX Technologies、思科、戴尔科技、富士通、技嘉、新华三、慧与 (HPE)、浪潮、联想、宁畅和超微预计推出各种采用 H100 加速器的服务器。

规模各异的 NVIDIA H100

H100 将提供 SXM 和 PCIe 两种规格，可满足各种服务器设计需求。此外，NVIDIA还会推出融合加速器，耦合 H100 GPU 与 NVIDIA ConnectX®-7 400Gb/s InfiniBand 和以太网智能网卡。

NVIDIA H100 SXM 提供 4 GPU 和 8 GPU 配置的 HGX™ H100 服务器主板，可助力企业将应用扩展至一台服务器和多台服务器中的多个 GPU。基于 HGX H100 的服务器可为 AI 训练和推理以及数据分析和 HPC 应用提供更高的应用性能。

H100 PCIe 通过 NVLink 连接两块 GPU，相较于 PCIe 5.0，可提供 7 倍以上的带宽，为主流企业级服务器上运行的应用带来卓越的性能。PCIe规格便于集成到现有的数据中心基础设施中。

H100 CNX 是一款全新的融合加速器。这款加速器将 H100 与 ConnectX-7 智能网卡相结合，可为 I/O 密集型应用（如企业级数据中心内的多节点 AI 训练和边缘 5G 信号处理）提供强劲性能。

NVIDIA Hopper 架构 GPU 还可与 NVIDIA Grace™ CPU 通过 NVLink-C2C 互联，与 PCIe 5.0 相比，可将 CPU 和 GPU 之间的通信速度提高 7 倍以上。这一组合，即Grace Hopper 超级芯片，可用于大规模 HPC 和 AI 应用。

NVIDIA 软件支持

H100 NVIDIA GPU 由功能强大的软件工具提供支持，可助力开发者和企业构建并加速 AI、HPC 等一系列应用。其中包括用于语音、推荐系统和超大规模推理等工作负载的 NVIDIA AI 软件套件的重大更新。

NVIDIA 还发布了 60 多个针对 CUDA-X™ 的一系列库、工具和技术的更新，以加速量子计算和 6G 研究、网络安全、基因组学和药物研发等领域的研究进展。

供货信息

NVIDIA H100 将自第三季度起开始供货。

观看 NVIDIA 创始人兼首席执行官黄仁勋的 GTC 2022 主题演讲，进一步了解NVIDIA Hopper 和 H100。免费注册 GTC 2022，与NVIDIA和行业领导者共襄盛会。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
STM32F429NIH6	1	STMicroelectronics	High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator, FMC with SDRAM, TFT	ECAD模型下载ECAD模型	$15.65	查看
MK70FN1M0VMJ12R	1	Freescale Semiconductor	32-BIT, FLASH, 120MHz, RISC MICROCONTROLLER, PBGA256, 17 X 17 MM, MAPBGA-256		暂无数据	查看
PIC32MX795F512L-80I/PF	1	Microchip Technology Inc	32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 14 X 14 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100	ECAD模型下载ECAD模型	$10.4	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

STM32F429NIH6

STMicroelectronics

High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator, FMC with SDRAM, TFT