NVIDIA 于今日发布 NVIDIA A100 80GB GPU,这一创新将支持 NVIDIA HGX AI 超级计算平台。该 GPU 内存比上一代提升一倍,能够为研究人员和工程师们提供空前的速度和性能,助力实现新一轮 AI 和科学技术突破。

 

全新 A100 采用 HBM2e 技术,可将 A100 40GB GPU 的高带宽内存增加一倍至 80GB,提供每秒超过 2TB 的内存带宽。这使得数据可以快速传输到全球最快的数据中心 GPU A100 上,使研究人员能够更快地加速其应用,处理最大规模的模型和数据集。

 

 

NVIDIA 应用深度学习研究副总裁 Bryan Catanzaro 表示:“若想获得 HPC 和 AI 的最新研究成果,则需要构建最大的模型,而这需要比以往更大的内存容量和更高的带宽。A100 80GB GPU 所提供的内存是六个月前推出的前代产品的两倍,突破了每秒 2TB 的限制,使研究人员可以应对全球科学及大数据方面最严峻的挑战。”

 

用于 NVIDIA DGXTM A100 和 NVIDIA DGX StationTM A100 系统的 NVIDIA A100 80GB GPU 也于今日发布,预计将于本季度发货。

 

领先的系统提供商源讯、戴尔科技、富士通、技嘉科技、慧与、浪潮、联想、云达科技、超微预计将于 2021 年上半年,提供基于 HGX A100 集成底板的系统,该集成底板搭载 4-8 个 A100 80GB GPU。

 

满足大流量数据工作负载需求

A100 80GB 版本基于 A100 40GB 的多样化功能,成为需要大量数据存储空间的各类应用的理想选择。

 

DLRM 等推荐系统模型为 AI 训练提供了涵盖数十亿用户和产品信息的海量表单。A100 80GB 可实现高达 3 倍加速,使企业可以重新快速训练这些模型,从而提供更加精确的推荐。

 

HGX 服务器中搭载的 A100 80GB 还可训练具有更多参数的最大模型,如 GPT-2。GPT-2 是具有超常生成文本能力的自然语言处理模型。这就消除了对数据或模型并行架构的需求,因为实现并行架构需要花费大量时间,而且跨多个节点运行缓慢。

 

凭借其多实例 GPU(MIG)技术,A100 可分割为多达 7 个 GPU 实例,每个实例具有 10GB 内存。该技术是一种安全的硬件隔离方法,在处理各类较小的工作负载时,可实现 GPU 最佳利用率。对于如 RNN-T 等自动语言识别模型的 AI 推理,单个 A100 80GB MIG 实例可处理更大规模的批量数据,将生产中的推理吞吐量提高 1.25 倍。

 

在 TB 级零售大数据分析基准上,A100 80GB 将其性能提高了 2 倍,使其成为可对最大规模数据集进行快速分析的理想平台。随着数据的动态更新,企业可以实时做出关键决策。

 

对于科学应用,A100 80GB 可为天气预报和量子化学等领域提供巨大的加速。材料模拟软件 Quantum Espresso 采用单节点 A100 80GB 实现了近 2 倍的吞吐量提升。

 

RIKEN 计算科学中心负责人 Satoshi Matsuoka 表示:“快速、充足的内存带宽和容量对实现高性能超级计算应用来说至关重要。具有 80GB HBM2e GPU 内存的 NVIDIA A100 提供 2TB/s 的全球最快带宽,可帮助我们大幅提高应用性能。”

 

A100 80GB 的关键特性

A100 80GB 具备 NVIDIA Ampere 架构突破性特性:

  • 第三代 Tensor Core 核心:通过全新 TF32,将上一代 Volta 架构的 AI 吞吐量提高多达 20 倍。通过 FP64,将 HPC 性能提高多达 2.5 倍。通过 INT8,将 AI 推理性能提高多达 20 倍,并且支持 BF16 数据格式。

 

  • 更大、更快的 HBM2e GPU 内存:使内存容量增加一倍,在业内率先实现 2TB/s 以上的内存带宽。

 

  • MIG 技术:将单个独立实例的内存增加一倍,可最多提供七个 MIG,每个实例具备 10GB 内存。

 

  • 结构化稀疏:将推理稀疏模型的速度提高 2 倍。

 

  • 第三代 NVLink 和 NVSwitch,相较于上一代互连技术,可使 GPU 之间的带宽增加至原来的两倍,将数据密集型工作负载的 GPU 数据传输速度提高至每秒 600 gigabytes。

 

NVIDIA HGX AI 超级计算平台 

A100 80GB GPU 是 NVIDIA HGX AI 超级计算平台的关键组件。该平台将 NVIDIA GPU、NVIDIA NVLink® 、NVIDIA InfiniBand 网络以及全面优化的 NVIDIA AI 和 HPC 软件堆栈的全部功能整合在一起,以提供最优越的应用性能。该平台使研究人员和科学家能够将 HPC、数据分析和深度学习计算技术结合起来,共同推动科学进步。