芯基建狂魔英伟达，为超大规模生成式AI数据中心而战

英伟达在COMPUTEX上再次展现了“芯基建狂魔”的硬核实力。

集成了256 个 GH200 芯片的 DGX GH200 、提供1 exaflop性能的超级计算机把基建实力拉满。作为AI超算，DGX GH200的技术亮点主要体现在大内存技术、互连技术NVLink、以及针对Transformer大模型的加速优化。英伟达这款产品，也让业界看到了AI大算力系统的升级方向。

首先要说的是144TB共享内存空间的AI超级计算机，这个内存空间由256个Grace Hopper超级芯片提供，相比于单个NVIDIA DGX A100 320 GB系统，NVIDIA DGX GH200提供了近500倍的内存，形成了一个巨大的数据中心级GPU。超大的内容容量，显然是为了支持更大模型的训练。

这种通过GPU内存的代际跃进，显著提高了AI和HPC应用的性能。许多主流的AI和HPC工作负载可以完全驻留在单个NVIDIA DGX H100的聚合GPU内存中。根据官方给出的对比结果，对于这些工作负载，DGX H100是最高效的解决方案。其他工作负载，如深度学习推荐模型（DLRM）和大数据分析工作负载，使用DGX GH200可以实现4倍到7倍的加速。

其次是超算系统的“黏合剂”，也就是用于互连的NVLink技术。对于大规模的AI扩展，NVLink技术必不可少的。GH200超级芯片使用了NVIDIA NVLink-C2C芯片进行互连，将Grace CPU与H100 Tensor Core GPU整合在一起，从而不再需要传统的CPU至GPU PCIe连接。与最新的PCIe技术相比，这将GPU和CPU之间的带宽提高了7倍，将互连功耗减少了5倍以上，并为DGX GH200超级计算机提供了一个600GB的Hopper架构GPU构建模块。

DGX GH200也是第一款将Grace Hopper超级芯片与NVIDIA NVLink Switch System配对使用的超级计算机，这种新的互连方式，能够使DGX GH200系统中的所有GPU作为一个整体协同运行。

在不影响性能的前提下，上一代系统只能通过NVLink把8个GPU整合成一个GPU。DGX GH200架构相比上一代将NVLink带宽提升了48倍以上，实现在单个GPU上通过简单编程即可提供大型AI超级计算机的能力，由此也体现出了互连技术对于未来超大算力的AI的重要性。

正是通过NVLink互连技术、NVLink Switch System，才能使256个GH200超级芯片相连，使它们能够作为单个GPU运行。

第三是针对Transformer计算的优化，GH200新的 Transformer 引擎与Hopper FP8 张量核心相结合，在大型NLP模型上提供比A100服务器高达9倍的AI训练速度和30倍的AI推理速度。

此外在软件方面，DGX GH200超级计算机包含的NVIDIA软件，可为最大的AI和数据分析工作负载提供一个交钥匙式全栈解决方案。NVIDIA Base Command软件提供AI工作流程管理、企业级集群管理和多个加速计算、存储和网络基础设施的库，以及为运行AI工作负载而优化的系统软件。

还有NVIDIA AI Enterprise，即NVIDIA AI平台的软件层。它提供100多个框架、预训练模型和开发工具，以简化生成式AI、计算机视觉、语音AI等生产AI的开发和部署。

从核心的超级芯片芯片、到互连技术再到算法引擎的优化、以及配套软件的升级，英伟达此次推出的E级AI超算系统再次带给业界惊喜，也清晰展现了软硬件全新升级的优化方向。目前，谷歌云、Meta和微软是首批有望接入DGX GH200来探索其用于生成式AI工作负载的能力的公司。NVIDIA还打算将DGX GH200设计作为蓝图提供给云服务提供商和其他超大规模企业，以便他们能够进一步根据他们自己的基础设施进行定制。

另据透露，基于DGX GH200，英伟达正在打造自己的AI超级计算机NVIDIA Helios，以支持研发团队的工作。NVIDIA Helios超级计算机将配备四个DGX GH200系统，每个都将通过NVIDIA Quantum-2 InfiniBand网络互连，以提高训练大型AI模型的数据吞吐量。Helios将包含1024个Grace Hopper超级芯片，预计将于今年年底上线。

网络定义数据中心的时代到来

黄仁勋指出，目前主要有两种类型的数据中心。一种是用于超规模的，有各种不同类型的应用程序、工作负载、租户数量非常多，工作量非常异构、工作负载是松散耦合的；另一种则像是超级计算数据中心/AI超算计算机，工作负载紧密耦合，租户数量少，但需要在非常大的计算问题上实现高吞吐量，在整个超级计算机上运行一个工作负载的成本非常昂贵，以至于无法承受网络中的任何损失。

而以太网是基于TCP的通信协议，它很有弹性，每当出现丢失数据包丢失时，它都会重新传输。这也正是当今互联网诞生的原因，它几乎可以从任何地方互连组件，如果它需要太多的协调，这个庞大的网络是不可能实现的。他表示，随着AI的普及，要使世界上任何数据中心都能承载AI工作负载，就必须端到端地了解数据中心，从交换机到软件到任何可能的瓶颈，必须通过自适应路由来协调流量，这样才能处理拥塞控制，避免某个区域的流量过于饱和，从而导致数据包丢失，而这是高吞吐量工作负载所根本负担不起的丢包问题。

基于上述判断，黄仁勋认为，现在的数据中心实则是由计算机网络定义了数据中心的功能。英伟达推出的NVIDIA Spectrum-X 加速网络平台，可以说为新一代AI工作负载扫清障碍。可以提高基于以太网 AI 云的性能与效率，助力数据中心满足超大规模生成式AI工作负载需求。

NVIDIA Spectrum-X是基于网络创新的新成果而构建的，将 NVIDIA Spectrum-4以太网交换机与 NVIDIA BlueField-3 DPU紧密结合，取得了1.7倍的整体AI性能和能效提升，同时可在多租户环境中提供一致、可预测的性能。Spectrum-X 还提供 NVIDIA 加速软件和软件开发套件（SDK），使开发人员能够构建软件定义的云原生AI应用。

首次将高性能计算能力引入以太网市场，英伟达将带来这两大改变：第一，自适应路由基本上是根据通过数据中心的流量来判断，根据交换机的哪个端口过度拥塞，由BlueField-3 DPU发送到另一个端口，另一个端口的BlueField-3 DPU再将数据发送给CPU，这期间无需任何的CPU干预。第二，拥塞控制。某些端口可能会变得严重拥塞，在这种情况下，交换机会根据看到的网络的执行情况，与发送器进行通信（比如提示：不要立即发送更多数据，因为正在拥塞），实际上，拥塞控制的网络基本上需要一个系统来实现，该系统包括软件、与所有端点一起工作的交换机，以全面管理数据中心的拥塞或流量和吞吐量。

这种端到端的功能交付，可以减少基于Transformer的大规模生成式AI模型的运行时间，助力网络工程师、AI数据科学家和云服务商及时取得更好的结果，并更快做出明智的决策。全球头部超大规模云服务商、领先的云创新企业正在采用 NVIDIA Spectrum-X。

据介绍，NVIDIA Spectrum-X 网络平台具有高度的通用性，可用于各种 AI 应用，它采用完全标准的以太网，能够与现有的以太网堆栈实现互通。

作为 NVIDIA Spectrum-X 参考设计的蓝图和测试平台，NVIDIA 正在构建一台超大规模生成式 AI 超级计算机，命名为 Israel-1。它将被部署在 NVIDIA 以色列数据中心，由基于 NVIDIA HGX平台的戴尔 PowerEdge XE9680 服务器， BlueField-3 DPU 和 Spectrum-4 交换机等打造而成。

为系统制造商提供模块化架构，满足多样化加速需求

为了满足全球数据中心多样化的加速计算需求，英伟达还发布了NVIDIA MGX服务器规范，意在为系统制造商提供了一个模块化参考架构，快速、经济高效地制造100多种服务器机型，适配广泛的AI、高性能计算和元宇宙应用。

基于MGX，制造商以一个为加速计算优化的服务器机箱作为基础系统架构入手，然后选择适合自己的GPU、DPU和CPU。不同的设计可以满足特定的工作负载，如HPC、数据科学、大型语言模型、边缘计算、图形和视频、企业AI以及设计与模拟。AI训练和5G等多种任务可以在一台机器上处理，而且可以升级到未来多代硬件。MGX还可以集成到云和企业数据中心。

MGX提供不同的规格尺寸，并兼容当前和未来多代NVIDIA硬件，包括：

机箱：1U、2U、4U（风冷或液冷）
GPU：完整的NVIDIA GPU产品组合，包括最新的H100、L40、L4
CPU：NVIDIA Grace CPU超级芯片、GH200 Grace Hopper超级芯片、X86 CPU
网络产品：NVIDIA BlueField-3 DPU、ConnectX®-7网卡

据了解，ASRock Rack、ASUS、GIGABYTE、Pegatron、QCT和Supermicro将采用MGX，它可将开发成本削减四分之三，并将开发时间缩短三分之二至仅6个月。

写在最后

在当天的主题演讲中，黄仁勋回溯了从上世纪六十年代到如今的计算变迁。他提到，1964年，IBM推出了360系统，AT&T向世界展示了第一款通过铜线和双绞线编码、压缩流传输图片的手机，时至今日，视频流大约占据了互联网每天65%的流量。

芯基建狂魔英伟达，为超大规模生成式AI数据中心而战

网络定义数据中心的时代到来

为系统制造商提供模块化架构，满足多样化加速需求

写在最后

相关推荐