钢铁一直以来都是工业化的象征。而在 AI 时代,NVIDIA DGX A100 则将成为现代数据中心的基石。

 

如今,众多企业所面临的最大的挑战和机遇,其根源都在于数据。DGX A100 作为当今全球最先进的 AI 系统,能够帮助企业机构以前所未有的速度解决复杂问题,同时为跨分析、训练和推理的 AI 计算力交付带来强大的弹性和灵活性。

 

去年,NVIDIA 基于多台 DGX 系统组合构建了 DGX SuperPOD,该超计算机以远低于一般超级计算机的成本和能耗跻身性能世界前 20 之列。

 

如今,NVIDIA 揭开了第二代 SuperPOD 的帷幕。该产品不但具有创纪录的性能,而且能够在短短三周内完成部署。它的出现使得构建世界一流 AI 超级计算集群所需的时间不再需要花费漫长的数个月。

 

SuperPOD 基于 NVIDIA DGX A100 系统和 NVIDIA Mellanox 网络架构构建,其证明了可以凭借单个平台将全球最复杂语言理解模型的处理时间从数周缩短至一个小时之内。

 

 

重新定义基础设施扩展

无论你是需要一个超级计算集群解决复杂繁重的问题,还是需要一个性能卓越的数据中心来实现研究人员和开发者们的资源访问民主化,AI 都是提供重要保障的基础设施。

 

在传统的搭建流程中,一项关键性的工作就是要预先规划好你需要将你的基础设施扩展到多大的规模,然后开始构建网络架构,直至达到最终目标。虽然这种方法能够实现增长,但会产生大量前期成本。

 

NVIDIA Mellanox 技术让我们能够重新定义数据中心,其所拥有的架构能以最快的速度并行处理解决那些最复杂的问题。DGX A100 配备具有 200Gbps HDR InfiniBand 的全新 Mellanox ConnectX-6 VPI 网络适配器,每个系统有多达 9 个接口。我们可以凭借 Mellanox 的交换功能更轻松地将多个系统互连在一起,以至最终达到 SuperPOD 的规模。

 

借助于 DGX SuperPOD 和 DGX A100,NVIDIA 所提出的 AI 网络架构帮助用户实现了“按自身业务增长需求购买”模式,这使得业务增长变得更轻松,同时也最大程度地减少了其对运营的影响。

 

而且,该网络架构极具灵活性与可扩展性。NVIDIA 已将 SuperPOD 模块化,成为每组配置有 20 台 DGX A100 系统的可扩展组。每个扩展组均由使用 Mellanox HDR InfiniBand 的二层胖树(two-tiered fat-tree)交换网络拓扑提供支持,提供完整的对分宽带,且没有过载(oversubscription)。在添加第三个交换层后,用户可以在 NVIDIA 的扩展参考设计中使用 DragonFly+或胖树拓扑将其扩展至数千个节点。

 

凭借这种新的拓展单位,企业机构的增长速度将会更加趋向于线性增长,并且每次增加这一个这种 20 系统模块时所产生的支出也将变得更少。

 

通过 SuperPOD 扩展 DGX SATURNV

从研发和自动驾驶汽车系统开发到游戏和机器人技术,DGX SATURNV 为 NVIDIA 最重要的工作提供了支持。而且 SATURNV 并非一个一成不变的系统,它会随着业务需求的增加而不断扩展。因此它也成为了 NVIDIA 全新 SuperPOD 设计的理想试验场。

 

在发布 DGX A100 之前,NVIDIA 的工程师们部署了最新 SuperPOD,实现了 700 petaflops 的 AI 性能。 此扩展包含:

 

  • 140 台 DGX A100 系统

 

  • 1,120 个 NVIDIA A100 GPU

 

  • 170 个 Mellanox Quantum 200G InfiniBand 交换机

 

  • 15 千米光缆

 

  • 4PB 高性能存储


此次扩展,在存储基础设施方面,NVIDIA 与 DDN 展开了合作。作为 NVIDIA DGX POD 的合作伙伴之一,DDN 正在帮助 NVIDIA 实现 AI 基础设施产品所需的性能和规模。SuperPOD 让 NVIDIA 能够使用 DDN 技术,从而帮助其最先进的系统处理那些交给它的高难度任务。

 

最佳扩展架构

并非所有 AI 项目都需要 DGX SuperPOD。 但每个希望在其业务中应用 AI 技术的企业机构都可以运用 DGX A100 或 DGX POD 的性能、敏捷性和可扩展性。

 

具有前瞻性的企业机构关注于保持客户的忠诚度、降低成本并拉开与竞争对手的距离。而 AI 在所有这些方面有着独特的优势。

 

但如今 AI 技术创新发展迅速,而且模型和数据集的规模也都在呈指数级增长。企业需要合适的架构,使其在现在和将来都能够应对最大的 AI 挑战,而不至于在中途“夭折”。