NVIDIA DGX和戴尔、富士通、技嘉、浪潮、联想、宁畅和超微等公司所提供的各种搭载NVIDIA技术的系统在最新MLPerf基准测试中取得了出色成绩。

 

 

根据今天发布的最新MLPerf结果,NVIDIA合作伙伴提供的GPU加速系统实现了全球最快的AI模型训练速度。

 

在这一行业基准测试中,七家公司对至少十几款市售系统进行了测试,其中大部分为NVIDIA认证系统。除NVIDIA之外,戴尔、富士通、技嘉、浪潮、联想、宁畅、超微也参与了本轮测试,使用NVIDIA A100 Tensor Core GPU实现了业内领先的神经网络训练结果。

 

在最新一轮的基准测试中,只有NVIDIA及其合作伙伴运行了所有八类工作负载,占所有提交的四分之三以上,而且取得了非常优秀的成绩。

 

与去年的分数相比,NVIDIA在性能上提高了多达3.5倍。而对于需要最高性能的大规模工作,NVIDIA创纪录地调集了4096个GPU的资源,超越了所有其他参与者。

 

MLPerf的重要性

这是NVIDIA生态系统第四次参加MLPerf的训练测试,再次展示最优异的成绩。MLPerf是一个成立于2018年5月的行业基准测试组织。

 

MLPerf能够帮助用户做出明智的采购决策。它得到了包括阿里巴巴、Arm、百度、谷歌、英特尔和NVIDIA在内的几十家行业领导者的支持,测试透明且客观。

 

该基准测试基于当今最常用的AI工作负载和场景,涵盖计算机视觉、自然语言处理、推荐系统、强化学习等。且训练基准测试所关注的也是用户最关心的问题,即训练一个全新AI模型所需的时间。

 

速度 + 灵活性 = 生产力

客户的基础设施投资回报最终取决于其生产力,这就需要在运行各种AI工作负载时都能做到速度与灵活性兼备。因此,用户需要通过灵活、强大的系统,让各种AI模型能够快速投入生产,加速上市时间,并最大程度地提高宝贵的数据科学团队生产力。

 

在最新一轮MLPerf基准测试结果中,NVIDIA AI平台在最短的时间内完成了模型训练,在商用提交类别的所有八项基准测试中都创下了性能纪录。

 

基于 NVIDIA DGX SuperPOD 的Selene在商用系统类别的所有八项测试中均创下纪录。

 

NVIDIA在Selene上进行了大规模测试。根据最新全球TOP 500榜单,Selene是全球最快的商用AI超级计算机。这台超级计算机与榜单上的其他十几台系统均基于NVIDIA DGX SuperPOD架构。

 

对于AI,最艰巨的挑战在于扩展到大型集群的能力,而这正是NVIDIA的核心优势之一。 


在芯片对比中,NVIDIA及其合作伙伴在最新商用系统测试的所有八项基准测试中都创造了纪录。

 

A100 GPU在商用系统类别的所有八项测试中均创下纪录。
 

总体而言,从下图所示的结果能够看出,NVIDIA在两年半的时间内将性能提高了多达6.5倍,充分证明了包括GPU、系统和软件在内的全栈式NVIDIA平台的实力。

 

NVIDIA AI 通过全栈的改进,持续带动性能提升。


广阔的生态系统提供最高的价值,最优的选择

这些MLPerf结果展现了众多全新的创新系统上各种基于NVIDIA 技术的 AI平台的性能。这些系统涵盖范围广泛——从入门级边缘服务器,到可容纳数千个GPU的AI超级计算机。

 

包括参与最新基准测试的七家合作伙伴在内,共有二十多家云服务供应商和OEM厂商的产品或采用了NVIDIA A100 GPU,或计划为在线实例、服务器采用NVIDIA A100 GPU,包括近40款NVIDIA认证系统。

 

我们的生态系统为客户提供各种部署模型选择,提供业内最高的性价比——从按分钟出租的实例,到本地服务器和托管服务。

 

MLPerf测试结果显示出NVIDIA的性能在持续提升,而这有赖于成熟且不断完善的软件平台,以助力团队快速采用不断改进的系统。

 

NVIDIA是如何做到的

这是NVIDIA A100 GPU第二次参与MLPerf测试。速度的提升来自于GPU、系统、网络和AI软件方面的进步,这会在另一篇文章中有详述。

 

例如,NVIDIA工程师找到了一种使用CUDA Graphs启动完整神经网络模型的方法。CUDA Graphs是一个涵盖NVIDIA CUDA操作及其依赖项的软件包。它消除了过去的测试中,AI模型由大量独立的内核组成而导致的CPU瓶颈。

 

此外,在大规模测试中使用的是NVIDIA SHARP。该软件能够在网络交换机内整合多项通信工作,从而减少网络流量和等待CPU的时间。

 

CUDA Graphs和SHARP的结合,使数据中心能够使用有史以来最多的GPU进行训练。在诸如自然语言处理等很多领域,随着AI模型参数增加到数十亿的量级,这样的组合恰能提供所需的强大能力。

 

最新A100 GPU上的内存带宽增加了近30%,达到2TB/s以上,这也带来了其他许多方面的提升。


 
客户重视MLPerf

各行业的AI用户都认为这些基准测试十分有用。

 

瑞典查尔姆斯大学的一位发言人表示:“MLPerf基准测试是多个AI平台之间透明、公平的对比,能够展示其在不同真实应用场景中的实际性能。”该大学的研究领域包括纳米技术、气候研究等。


这些基准测试可帮助用户找到能够达到全球一些先进大厂要求的AI产品。例如全球领先的芯片制造企业台积电使用机器学习来改善光学邻近修正(OPC)和蚀刻模拟。

 

台积电OPC部门总监Peng Danping表示:“为充分实现机器学习在模型训练和推理方面的潜力,我们正在与NVIDIA工程团队合作,将我们的Maxwell模拟和逆向光刻技术引擎移植到GPU上,并实现了显著的速度提升。MLPerf基准测试是我们决策流程中的一个重要环节。”


 
带动医学和制造业发展

这些基准测试也有助于研究人员挑战AI极限,从而完善医疗服务。

 

德国癌症研究中心DKFZ医学影像计算负责人Klaus Maier-Hein表示:“我们与NVIDIA开展了密切的合作,将3DUNet等创新技术引入医疗市场。作为行业标准的MLPerf基准测试提供了相关的性能数据,能够帮助IT机构和开发者找到合适的解决方案,以加速特定项目和应用。”

 

全球研究和制造领域领导者三星也参考MLPerf基准测试,使用AI来提高产品性能和制造效率。


三星电子的一位发言人表示:“我们必须拥有最强大的计算平台,才能将这些AI技术进步转化为产品。MLPerf基准测试简化了我们的选择流程,为我们提供了一种公开、直接的评估方法,让我们能够对各家平台供应商进行统一标准的评估。”


 
如何获得这些结果和工

NVIDIA在最新测试中所使用的所有软件都可以从MLPerf资源库中获得,因此任何人都可以重现NVIDIA的基准测试结果。NVIDIA会陆续将这些代码添加到NVIDIA的深度学习框架和容器中,用户可在NVIDIA的GPU应用软件中心NGC上获得这些框架和容器。

 

其作为全栈式AI平台的一部分,已在最新行业基准测试中得到了验证,并可通过多家合作伙伴获取,助力客户应对当今的实际AI工作任务。