只有智能可以被更大规模地生产、应用,我们触手可及的一切才真正步入智能时代。

 

从AI加速计算兴盛以来,可以说,没有一家AI芯片公司不想干掉英伟达,或者说,没有一家芯片公司不想做出比英伟达GPU性能更高的产品。在各类PPT上,英伟达被“吊打”,甚至发布仅两年的A100有时也被证明,运算效率不能和一些专用AI芯片相比。

 

黄仁勋感到危机了吗?在刚刚结束的GTC22上,黄仁勋透露了一个数字:过去十年,英伟达加速计算在AI领域实现了百万倍加速。

 

AI工厂造AI

 

在加速计算领域深耕的英伟达,从成立以来,就致力于针对不同的应用领域提供加速计算,例如计算机图形、图像处理、科学计算、物理模拟等等。为了提供针对特定领域的加速计算,黄仁勋谈到,英伟达必须成为一家全栈公司,必须深入理解应用,必须以不同的方式思考软件和系统,必须以不同的方式思考芯片架构。

 

对于“百万倍加速”背后的能力,黄仁勋表示,加速计算需要硬件、系统软件、平台软件和应用等全栈专业知识,也正是全栈方法产生的复合效应,使得英伟达实现了百万倍的加速。当深度学习的应用浪潮来临之时,一举站上加速计算之巅。

 

关于未来的智能愿景,黄仁勋期望,“以工业规模创造智能,并将其融入真实和虚拟世界。这将革新价值万亿美元的行业,并有望解决‘我们这个时代的重大挑战’。”

 

像工业产线上批量生产制造一样,智能也能以“工业规模创造”?在这个构想中,数据中心变成了“AI工厂”,“数据”就是生产原材料。海量且持续的数据输入进来,用以训练和完善AI模型,然后智能输出——这就是制造智能并运营大型AI的未来“工厂”。


20块GPU可承载全球互联网流量?

 

如果要将数据中心变为AI工厂,基础设施势必面临着更大的性能挑战和系统设计挑战。

 

黄仁勋的第一个大动作是推出了最新Hopper架构的H100 GPU,采用台积电尖端的4N工艺,“塞进了”800 亿晶体管,大规模训练性能是A100的9倍,大型语言模型推理吞吐量是A100的30倍。H100 是首款支持 PCIe 5.0 的 GPU,也是首款采用 HBM3 的 GPU,可实现 3TB/s 的显存带宽。外加Transformer 引擎和NVLink互连技术等突破性功能,可应用于庞大的AI语言模型、深度推荐系统、基因组学和复杂数字孪生的发展。
 

 

一个数据可以直观感受到这个GPU猛兽的彪悍性能:20个H100 GPU便可承托相当于全球互联网的流量,使其能够帮助客户推出先进的推荐系统以及实时运行数据推理的大型语言模型。

 

过去六年,通过Pascal、Volta、Ampere以及最新的Hopper架构,英伟达相继开发了使用FP32、TF32、FP16的产品,并在H100中增加了对FP8的支持。在AI处理方面,Hopper H100 FP8的4 PetaFLOPS性能是Ampere A100 FP16的6倍。

 

此外,H100搭载了新的Transformer引擎,将新的Tensor Core与能使用FP8和FP16数字格式的软件结合,在不影响精度的情况下,可以将网络速度提升至上一代的六倍。
 

 

值得强调的还有机密计算功能,这是GPU首次在硬件层面实现机密计算,可保护 AI 模型和正在处理的客户数据。

 

“通常,敏感数据处于静态和在网络中传输时会进行加密,但在使用期间却不受保护。”黄仁勋假设了一个场景,若一家公司具有价值数百万美元的AI模型,而在使用期间不受保护,则该公司将面临巨大的数据风险。他声称,Hopper机密计算能够保护正在使用的数据和应用,能够保护所有者的AI模型和算法的机密性以及完整性。此外,软件开发者和服务提供商可在共享或远程基础架构上分发和部署宝贵的专有AI模型,在保护其知识产权的同时扩展业务模式。

 

通过MIG 技术,可以将单个 GPU 分为七个更小且完全独立的实例,以处理不同类型的作业。每个Hopper实例都支持在受信任执行环境中进行机密计算。有了基于硬件的强大安全性,用户可以在云上运行应用程序,并保证未经授权的实体无法查看或使用应用程序代码和数据,从而保护了数据的机密性计算。

 

也正是多项前沿技术的结合,赋予了H100 GPU更强大的性能,也进一步扩大了英伟达在AI推理和训练方面的领导地位。在最新的第四代 DGX 系统 DGX H100 中,配备有8块H100 GPU,以全新的 FP8 精度提供 32 Petaflop 的 AI 性能,并支持扩展,能够满足大型语言模型、推荐系统、医疗健康研究和气候科学的海量计算需求。 

 


黄仁勋介绍,英伟达正在打造首个Hopper AI工厂EOS,它将艳惊四座——速度是275PetaFLOPS,比A100驱动的美国速度最快的科学计算机Summit还快1.4倍。在AI方面, EOS的AI处理速度是18.4ExaFLOPS,比全球最大的超级计算机——日本的Fugaku快4倍。


为AI而生的异构平台

 

去年GTC大会上,英伟达推出了它的首款数据中心CPU——基于Arm架构的Grace,根据黄仁勋当时的介绍,这是一颗高度专用型CPU处理器,主要面向大型数据密集型HPC和AI应用。

 

据黄仁勋的最新介绍,Grace进展飞速,有望明年供货。不止于此,他还宣布推出了首款面向 AI 基础设施和高性能计算的基于 Arm Neoverse的数据中心专属 CPU,是当今领先服务器芯片内存带宽和能效的两倍。

 

Grace CPU 超级芯片由两个 CPU 芯片组成,它们之间通过NVLink-C2C互连在一起,能够在单个socket中容纳 144 个 CPU核心。在 SPECrate®2017_int_base 基准测试中,其模拟性能达到业界领先的 740 分,根据 NVIDIA 实验室使用同类编译器估算,这一结果较当前DGX A100搭载的双CPU高出1.5 倍以上。 

 

 

此外,通过将Grace与Hopper集成,英伟达还推出了超级芯片Grace-Hopper,它将与基于Hopper架构的GPU一同应用于大型HPC和AI 应用。

 

不论是Grace CPU,还是Grace-Hopper,都用到了MCM (多芯片封装模块)技术,这一原本多应用于CPU的技术,已经开始向GPU渗透。其实不只MCM,先进封装技术正在将芯片推向极致的异构集成,将越来越小的IP和越来越小的区块集合在一起,已经成为重要的发展趋势。

 

Grace CPU 超级芯片和 Grace Hopper 超级芯片预计将于 2023 年上半年开始供货。黄仁勋还给出了Grace和Hopper不同排列组合能够打造的超级芯片方案:2个Grace CPU、1个Grace+1个Hopper、1个Grace+2个Hopper、2个Grace+2个Hopper、2个Grace+4个Hopper、2个Grace+8个Hopper等。

 

这两块芯片传递出了一个明确信号,就是英伟达打造自身异构计算平台的坚定决心。这些技术将帮助英伟达进一步打造开发更快、更灵活、更多元的AI基础架构平台,从而应对不同的计算需求。


异构生态布局的关键——NVLink互连

 

如果说推出最新架构的GPU、打造最先进超级芯片只是英伟达自身的异构平台进展,那么下面这一互连技术,则是英伟达放眼整个生态“你中有我,我中有你”异构布局的关键。

 

NVIDIA NVLink-C2C是一种超快速的芯片到芯片、裸片到裸片的互连技术,将支持定制裸片与NVIDIA GPU、CPU、DPU、NIC 和 SoC 之间实现一致的互连,助力数据中心打造新一代的系统级集成。

 

而不论是Grace-Hopper还是Grace超级芯片,关键驱动技术之一就是内存一致性芯片之间的NVLink互连。

 

其实在英伟达宣布NVLink-C2C之前,业界已经非常期待并关注它在互连方面的路线和规划。特别是英特尔、AMD、Arm、高通、台积电等已经联合成立了Chiplet标准联盟,推出通用Chiplet的高速互联标准UCIe。在UCIe的框架下,互联接口标准得到统一,各类不同工艺、不同功能的Chiplet芯片,有望通过2D、2.5D、3D等各种封装方式整合在一起,多种形态的处理引擎将共同组成超大规模的复杂芯片系统。

 

在GTC22采访中,笔者就该问题询问了黄仁勋的立场和看法,他也坦诚分享了他的观点:第一喜欢PCIe,英伟达非常依赖于PCIe,可以说没有PCIe就没有英伟达,还是会尽可能多地使用PCIe;第二喜欢UCIe,就像PCIe一样,它更节能、速度更快,之后会逐渐体现出优势,他预测五年内这些好处会逐渐显现。

 

 

至于英伟达的NVlink互连技术,黄仁勋表示,它的优势在于直连能力。UCIe不能直接接入芯片,它仍然是一个外设接口,而NVlink的优势在于可以直接连接,几乎就像直接连接到大脑一样。一定程度上,这会导致它的组装比较复杂,合作伙伴和客户必须非常了解NVlink。不过,一旦他们能做好这一点,就可以充分利用芯片内部的所有资源,就像这些资源都在同一个芯片上一样。

 

根据黄仁勋的解释,虽然集成更为复杂一些,但是NVLink延迟更低、带宽更高、能效更高。在未来的方案设计中,英伟达会尽可能多地使用PCIe,也将尽可能多地使用UCIe,但是对于必须直连到芯片的功能,为了更好地利用内存和所有处理器,他推荐使用NVLink。

 

这一解答既表明了英伟达并不打算自我排除在在UCIe联盟之外,同时也展现出了对自身NVLink互连技术的绝对信心。借助先进的封装技术,NVLink-C2C 互连链路的能效最多可比英伟达芯片上的 PCIe Gen 5 高出 25 倍,面积效率高出 90 倍,可实现每秒 900 GB 乃至更高的一致互联带宽。

 

黄仁勋强调,除NVLink-C2C 之外,英伟达也将支持UCIe。与英伟达芯片集成的定制芯片,既可以使用 UCIe 标准,也可以使用 NVLink-C2C,后者经过优化,延迟更低、带宽更高、能效更高。他虽然没有正面回答是否会致力于推动NVLink-C2C成为一项行业标准,从而形成大的行业生态,但是根据英伟达目前在GPU领域的绝对地位和软硬件布局,确实有望形成规模较大的应用生态。

 

写在最后

 

今年对英伟达是关键的一年,年初收购Arm以黯然放手而告终,下一个百万倍加速的目标已提上日程。如何筑牢加速计算基础设施架构的根基?英伟达在GTC22上拼劲全力,完成了一次本垒打。

 

当然,除了本文着墨较多的硬件方案,软件始终是其未来强化的重点。基于这些年的布局,英伟达不仅在硬件上有CPU、GPU、DPU,还有软件层面的CUDA和DOCA。加速计算的繁荣正是始于CUDA的完善,通过CUDA,开发人员可以获取创建GPU加速的高性能应用;而DOCA,则可以协助开发者进一步对未来数据中心的基础设施进行编程。

 

正如黄仁勋在采访中所说,“如果我们做得不好,市场就会选择别人的解决方案。这就是竞争规则,这不会改变。我们思考的是如何打造下一个伟大的事物?我们如何创造人工智能能力?如何让每个人都能享受它?”他强调,一直以来,英伟达从来不仅仅依赖于一件事,如果非要说是哪一件事,那就是全栈创新。英伟达不仅仅是一家芯片公司,而是一家全栈计算公司。