本周举行的全球超算大会 SC20 上,全球最快超级计算机 TOP500 榜单发布。

 

日本的超级计算机富岳(Fugaku)蝉联第一,亚军和季军分别为美国 Summit 和 Sierra,中国的神威·太湖之光位列第 4,天河 2A 位列第 6 位。排名第 5 的是 Selene,由 6 月时的排名第 7 上升两位,AMD EPYC 处理器作为超算界横空出世的黑马,联合 NVIDIA 今年最新发布的 A100,共同助推了 Selene 的地位提升。
 


 
NVIDIA 在 SC20 上,再次刷新了自己最强大 GPU 产品线,并带领今年 4 月完成收购的 Mellanox,共同亮相超算届。

 

NVIDIA 在发布会上表示,TOP500 榜单中近 70%的机器(包括前 10 名中的 8 台)均采用其技术。此外,还有一个很重要的趋势就是,在大幅增长的数据量和模型尺寸驱动下,AI 与高性能计算(HPC)在加快融合。

 

这一转变是意义深刻的。自 1964 年 Seymour Cray 的 CDC 6600 问世以来,HPC 的重大变化一直集中在利用体积更大、性能更强的计算机进行计算密集型模拟和建模。而现在,将 AI 融入 HPC,并扩展至传统超算中心之外是正在进行中的重大变革。这意味着,这些世界上最快的超级计算机不仅比以往任何时候都快,而且变得更聪明,并且支持更多种类的工作负载。


强核问世:发布最强 GPU A100 80GB
 

HPC 和 AI 研究都越来越需要构建更大的模型,而这需要比以往更大的内存容量和更高的带宽。NVIDIA 在 SC20 上发布的 A100 80GB GPU,采用 HBM2e 技术,内存比六个月前推出的前代产品提升一倍,提供每秒超过 2TB 的内存带宽,使研究人员能够更快地加速其应用,处理更大规模的模型和数据集。

 

A100 80GB GPU 将成为需要大量数据存储空间应用的理想选择。据介绍,DLRM 等推荐系统模型为 AI 训练提供了涵盖数十亿用户和产品信息的海量表单。A100 80GB 可实现高达 3 倍加速,使企业可以重新快速训练这些模型,从而提供更加精确的推荐。

 

A100 80GB GPU 预计将于本季度发货,可用于 DGX A100 和 DGX Station A100 系统。系统提供商如:源讯、戴尔科技、富士通、技嘉科技、慧与、浪潮、联想等,预计将于 2021 年上半年,提供基于 HGX A100 集成底板的系统,该集成底板搭载 4-8 个 A100 80GB GPU。

 

一体式 AI 数据中心:千万亿级集成型 AI 工作组服务器


同时,NVIDIA 还发布了千万亿级工作组服务器 DGX Station A100 ,比上一代 DGX Station 提速 4 倍以上。作为开创性的第二代人工智能系统,DGX Station A100 可加速满足位于全球各地的公司办公室、研究机构、实验室或家庭办公室等对于机器学习和数据科学工作负载的需求。例如对于 BERT Large AI 训练,其性能提高近 3 倍。

 

据 NVIDIA 副总裁兼 DGX 系统总经理 Charlie Boyle 介绍,DGX Station A100 将 AI 从数据中心引入可以在任何地方接入的服务器级系统。作为服务器级的系统,DGX Station A100 无需配备数据中心级电源或散热系统,却具有与 DGX A100 数据中心系统相同的远程管理功能。DGX Station A100 配备四组 80GB 或 40GB A100 Tensor Core GPU,研究人员可结合自身工作负载或预算来进行选择。

 

NVIDIA Mellanox InfiniBand 护航百亿亿次 AI 超级计算

 

收购 Mellanox 后,英伟达进一步增强了构建超算系统的可扩展性。除了 GPU 升级,NVIDIA Mellanox 400G InfiniBand 产品也一同推出。第七代 Mellanox InfiniBand NDR 400Gb/s 产品提供超低延迟,并在上一代产品的基础上实现了数据吞吐量翻倍,同时增加了新的 NVIDIA 网络计算引擎,实现了额外的加速。


NVIDIA 网络高级副总裁 Gilad Shainer 表示,AI 客户的最重要的工作就是处理日益复杂的应用程序,这需要更快速、更智能、更具扩展性的网络。NVIDIA Mellanox 400G InfiniBand 的海量吞吐量和智能加速引擎使 HPC、AI 和超大规模云基础设施能够以更低的成本和复杂性,实现更高的性能。

 

Mellanox InfiniBand 的发布,代表了面向 AI 超级计算的业界最强大的网络解决方案。Mellanox NDR 400G InfiniBand 交换机,可提供 3 倍的端口密度和 32 倍的 AI 加速能力。此外,它还将框式交换机系统的聚合双向吞吐量提高了 5 倍,达到 1.64 petabits/s,从而使用户能够以更少的交换机,运行更大的工作负载。

 

持续攻克超算三座山头

 

NVIDIA 在超算届的故事起源于一块小小芯片和智能网络技术,现在已经成为数据中心规模的平台在科学领域的渗透和壮大。GPU 加速器已经在高性能计算和超级计算领域成为主流,这也印证了英伟达若干年前试图摆脱对游戏市场的依赖,专注于芯片技术、高性能计算这一路线的正确性。

 

面对超级计算机的三座山头:节点算力、互连网络、功耗散热控制,包括 NVIDIA 在内的核心芯片厂商一直在努力,为解决人工智能与机器学习日益增长的工作负载,以及科研领域最具挑战性和复杂的问题,超级计算机需配备经过优化的处理器,提供领先的吞吐量、应用程序时延和功耗。

 

此次,NVIDIA 在速度、智能、功耗方面都有新的记录诞生:以传统超级计算性能基准(即以被称为 FP64 的双精度浮点格式进行运算的速度)衡量,NVIDIA 技术为全球最快的集群提速,为榜单排名前十中的八台机器助力;以作为 AI 性能基准的混合精度标准 HPL-AI 进行衡量,采用 NVIDIA 技术的机器在榜单上均排名靠前,比如美国橡树岭国家实验室的 Summit 超级计算机(0.55 百亿亿次级)和 NVIDIA Selene(0.25 百亿亿次级);功耗方面,NVIDIA DGX SuperPOD 系统在 Green500 最高效超级计算机榜单上排名第一,以每瓦 26.2 gigaflops 创造了新的功效世界纪录。

 

时代在变迁,超级计算机不只是要变得更快,还要更智能。