加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

NVIDIA在MLPerf测试中将推理带到新高度

2023/04/07
3461
阅读需 9 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

在最新MLPerf基准测试中,NVIDIA H100和L4 GPU将生成式AI和所有其他工作负载带到了新的水平,Jetson AGX Orin则在性能和效率方面都有所提升。

作为独立的第三方基准测试,MLPerf仍是衡量AI性能的权威标准。自MLPerf诞生以来,NVIDIA的AI平台在训练和推理这两个方面一直展现出领先优势,包括最新发布的MLPerf Inference 3.0基准测试。

NVIDIA创始人兼首席执行官黄仁勋表示:“三年前我们推出A100时,AI世界由计算机视觉主导。如今,生成式AI已经到来。”

“这正是我们打造Hopper的原因,其通过Transformer 引擎专为GPT进行了优化。最新的MLPerf 3.0凸显了Hopper的性能比A100高出4倍。”

“下一阶段的生成式AI需要高能效的新的AI基础设施,以训练大型语言模型。客户正在大规模采用Hopper,以构建由数万颗通过NVIDIA NVLink和InfiniBand连接的Hopper GPU组成的AI基础设施。”

“业界正努力推动安全、可信的生成式AI取得新的进展。而Hopper正在推动这项重要的工作。”

最新MLPerf结果显示,NVIDIA将从云到边缘的AI推理性能和效率带到了一个新的水平。

具体而言,在DGX H100系统中运行的NVIDIA H100 Tensor Core GPU在每项AI推理测试(即在生产中运行神经网络)中均展现出最高的性能。得益于软件优化,该GPU在9月首次亮相时就实现了高达54%的性能提升。

针对医疗领域,H100 GPU在3D-UNet(MLPerf医学影像基准测试)中的性能相比9月提高了31%。

在Transformer引擎的加持下,基于Hopper架构的H100 GPU在BERT上的表现十分优异。BERT是一个基于transformer的大型语言模型,它为如今已经得到广泛应用的生成式AI奠定了基础。

生成式AI使用户可以快速创建文本、图像、3D模型等。从初创公司到云服务提供商,企业都在迅速采用这一能力,以实现新的业务模式和加速现有业务。

数亿人现在正在使用ChatGPT(同样是一个transformer模型)等生成式AI工具,以期得到即时响应。

在这个AI的iPhone时刻,推理性能至关重要。深度学习的部署几乎无处不在,这推动了从工厂车间到在线推荐系统等对推理性能的无尽需求。

L4 GPU精彩亮相

NVIDIA L4 Tensor Core GPU在本次MLPerf测试中首次亮相,其速度是上一代T4 GPU的3倍以上。这些加速器具有扁平的外形,可在几乎所有的服务器中提供高吞吐量和低延迟。

L4 GPU运行了所有MLPerf工作负载。凭借对关键的FP8格式的支持,其在对性能要求很高的BERT模型上取得了非常惊人的结果。

除了出色的AI性能外,L4 GPU的图像解码速度快了10倍,视频处理速度快了3.2倍,同时图形和实时渲染性能提高了4倍以上。

这些加速器两周前在GTC上发布并已通过各大系统制造商和云服务提供商提供。L4 GPU是NVIDIA在GTC上发布的AI推理平台产品组合中的最新成员。

软件和网络在系统测试中大放异彩

NVIDIA的全栈式AI平台在一项全新MLPerf测试中展现了其领先优势。

被称之为网络划分(network-division)的基准测试将数据传输至一个远程推理服务器。它反映了企业用户将数据存储在企业防火墙后面、在云上运行AI作业的热门场景。

在BERT测试中,远程NVIDIA DGX A100系统提供高达96%的最大本地性能,其性能下降的原因之一是因为它们需要等待CPU完成部分任务。在单纯依靠GPU进行处理的ResNet-50计算机视觉测试中,它们达到了100%的性能。

这两个结果在很大程度上要归功于NVIDIA Quantum Infiniband网络、NVIDIA ConnectX SmartNIC以及NVIDIA GPUDirect等软件。

Orin在边缘的性能提升3.2倍
另外,相较于一年前的结果,NVIDIA Jetson AGX Orin模块化系统的能效提高了63%,性能提高了81%。Jetson AGX Orin可在需要AI的狭小空间内以低功率进行推理,包括在由电池供电的系统上。

专为需要更小模块、更低功耗的应用而开发的Jetson Orin NX 16G在本次基准测试中首次亮相便大放异彩。其性能是上一代Jetson Xavier NX处理器的3.2倍。

广泛的NVIDIA AI生态

MLPerf结果显示,NVIDIA AI得到了业内最广泛的机器学习生态系统的支持。

在这一轮测试中,有十家公司在NVIDIA平台上提交了结果,包括华硕、戴尔科技、技嘉、新华三、联想、宁畅、超微和超聚变等系统制造商和微软Azure云服务。

他们所提交的结果表明,无论是在云端还是在自己的数据中心运行的服务器中,用户都可以通过NVIDIA AI获得出色的性能。

NVIDIA的众多合作伙伴也参与了MLPerf,因为他们知道这是一个帮助客户评估AI平台和厂商的很有价值的工具。最新一轮结果表明,他们今天所提供的性能将随着NVIDIA平台的发展而不断提升。

用户需要的是“多面手”

NVIDIA AI是唯一能够在数据中心和边缘计算中运行所有MLPerf推理工作负载和场景的平台。其全面的性能和效率让用户能够成为真正的赢家。

用户在实际应用中通常会采用许多不同类型的神经网络,这些网络往往需要实时提供答案。

例如,一个AI应用可能需要先理解用户的语音请求,对图像进行分类、提出建议,然后以人声作为语音来回答用户。每个步骤都需要用到不同类型的AI模型。

MLPerf基准测试涵盖了这些以及其他流行的AI工作负载,所以这些测试能够确保IT决策者获得可靠且可以灵活部署的性能。

用户可以根据MLPerf的结果做出明智的购买决定,因为这些测试是透明的、客观的。该基准测试得到了包括Arm、百度、Facebook AI、谷歌、哈佛大学、英特尔、微软、斯坦福大学和多伦多大学在内的广泛支持。

可以使用的软件

NVIDIA AI平台的软件层NVIDIA AI Enterprise确保用户能够从他们的基础设施投资中获得最佳的性能以及在企业数据中心运行AI所需的企业级支持、安全性和可靠性。

这些测试所使用的所有软件都可以从MLPerf库中获得,因此任何人都可以获得这些领先的结果。

各项优化措施不断地被整合到NGC(NVIDIA的GPU加速软件目录)上的容器中。本轮测试中提交的每项工作均使用了该目录中的NVIDIA TensorRT优化AI推理性能。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
AT89C51CC03UA-SLSUM 1 Atmel Corporation Microcontroller, 8-Bit, FLASH, 8051 CPU, 60MHz, CMOS, PQCC44, GREEN, PLASTIC, LCC-44

ECAD模型

下载ECAD模型
$8.45 查看
MK10DX64VLH7 1 Freescale Semiconductor Kinetis K 32-bit MCU, ARM Cortex-M4 core, 64KB Flash, 72MHz, QFP 64
$6.77 查看
MCF52259CAG80 1 Freescale Semiconductor 32-BIT, FLASH, 80MHz, RISC MICROCONTROLLER, PQFP144, 20 X 20 MM, ROHS COMPLIANT, LQFP-144

ECAD模型

下载ECAD模型
$17.28 查看
英伟达

英伟达

为这个时代的达芬奇和爱因斯坦们提供超强计算性能。我们开创性地开发出一种超强计算形式,深受全世界对计算机有超高要求的用户的青睐,包括科学家、设计师、艺术家和游戏玩家。对于他们而言,我们的创造几乎可媲美时间机器。基于对更优质 3D 图形永无止境的需求以及当下庞大的游戏市场,NVIDIA 已在这个虚拟现实、高性能计算和人工智能的交叉口,将 GPU 发展为计算机大脑。

为这个时代的达芬奇和爱因斯坦们提供超强计算性能。我们开创性地开发出一种超强计算形式,深受全世界对计算机有超高要求的用户的青睐,包括科学家、设计师、艺术家和游戏玩家。对于他们而言,我们的创造几乎可媲美时间机器。基于对更优质 3D 图形永无止境的需求以及当下庞大的游戏市场,NVIDIA 已在这个虚拟现实、高性能计算和人工智能的交叉口,将 GPU 发展为计算机大脑。收起

查看更多

相关推荐

电子产业图谱