用“AI核弹”饱和攻击的英伟达，如何赢下AI计算新赛场？

在 2012 年的 ImageNet 挑战赛（ILSVRC）上，深度卷积神经网络 AlexNet 横空出世，在图像分类识别领域实现了质的飞跃，被认为是 AI 时代的标志性事件，代表着深度学习时代的正式开端。

在此之前，深度学习“如何出圈”的一大挑战，就是深度神经网络训练面临算力不足的难题。而让 AlexNet 实现算力突破的关键，就在于当时研究者使用了英伟达的 GPU。

GPU 一战成名，成为伴随 AI 技术一同进化的基础设施。英伟达也同时抓住了 AI 计算的新增长机遇。随着 AI 算力要求的爆炸式增长，英伟达 GPU 产品系列也经历了多轮的升级。

现在，英伟达的 GPU 家族又迎来一次 “史上最大”的性能升级。而此次升级距离上一次发布“地表最强 AI 芯片”Tesla V100 已经过去三年。

三年蛰伏，一鸣惊人。

（NVIDIA A100 GPU）

英伟达首次推出第 8 代安培 GPU 架构，以及首款基于安培架构的 NVIDIA A100 GPU，采用 7nm 工艺，在和上一代 Volta 架构 V100 GPU 几乎相同面积的晶圆上放置了超过 540 亿个晶体管，晶体管数量增长了 2.5 倍，但尺寸却仅大了 1.3%，而在 AI 训练和推理算力上，均较上一代 Volta 架构提升 20 倍，HPC 性能提升到上一代的 2.5 倍。

A100 GPU 的独特之处在于，作为一个端到端机器学习加速器，第一次在一个平台上面统一了 AI 训练和推理，同时也将作为数据分析、科学计算和云图形设计等通用工作负载的加速器。简单来说 A100 GPU 就是为数据中心而生的。

在 A100 GPU 的基础上，英伟达同时发布了全球最强 AI 和 HPC 服务器平台——HGX A100，全球最先进的 AI 系统——DGX A100 系统，以及由 140 个 DGX A100 系统组成的 DGX SuperPOD 集群。此外，还有涉及智能网卡、边缘 AI 服务器、自动驾驶平台合作以及一系列软件层面的平台型产品的发布。

可以说，英伟达这次不是放出一颗“核弹”，而是一个“核弹集群”，还是饱和攻击的那种。英伟达从云端到边缘再到端侧，从硬件到软件再到开源生态，几乎建立起一个坚不可摧的 AI 计算的壁垒，同时也将 AI 芯片的竞争带上了一个小玩家难以企及的高度。

英伟达的 AI 服务器芯片业务正在发生哪些新变化？A100 GPU 的发布，对于 AI 服务器芯片市场有哪些影响，以及对于云计算市场带来哪些变化？这成为我们在“看热闹”之余，要重点探讨的几个问题。

AI 服务器芯片：英伟达 AI 计算增长新极点

众所周知，游戏、数据中心、专业视觉化以及自动驾驶等新兴业务是英伟达的四大核心业务板块。其中，游戏业务虽仍然是营收的支柱板块，但是受到 PC 游戏市场趋于饱和并向移动端转移的影响，独显业务的比重正在逐步缩小；专业视觉化业务一直为英伟达贡献着稳定营收，但受其他业务增长的影响，业务占比也在持续下滑；自动驾驶等新兴业务板块，目前只占整体应收的很小部分，且增速有限，但可以看作是英伟达未来的长线市场。

（Nvidia: Sequential Revenue Change）

最明显的则是英特尔在数据中心业务板块的增长。近几年中其营收大部分时间处于高速增长状态，且营收占比逐步靠近游戏业务。

根据英伟达最新的 2020 财年 Q4 财报数据显示，”游戏“收入高达 14.9 亿美元，约占总营收的 47%；而增长强劲的数据中心板块，AI 服务器芯片的营收达到 9.68 亿美元，同比增长了 42.6%，，逼近 10 亿美元大关，远远超出市场预期的 8.29 亿美元。

整体上，随着全球数据中心，特别是超大型数据中心，对 AI 芯片需求的加速扩张，英伟达的 AI 服务器芯片也迎来了高速增长，正在跃升为英伟达最具有市场拓展潜力的业务分支。

从业务增长的前景上看，英伟达推出 A100 GPU 服务器芯片以及 AI 系统集群，所要把守住的正是在当前数据中心中 AI 服务器市场的霸主地位。

那么，英伟达正在如何构建这一 AI 服务器芯片的产品体系呢？

一般来说，对于深度神经网络算法模型，其模型框架的训练需要涉及非常庞大的数据计算，但运算方法要求又相对简单，所以需要在云端进行大量高并行、高效率和高数据传输的运算。因此相较于擅长复杂逻辑运算、但核心数较少的 CPU，拥有多个计算单元的 GPU 更适合于进行深度神经网络的训练任务。

这是英伟达的 GPU 在全球云端 AI 服务器芯片市场，尤其是训练端，赢得市场先机的根本原因。与此同时，英伟达针对一系列 AI 服务开发的完备的 TESLA GPU 产品线以及成功布局针对 GPU 的“CUDA”开发平台，才是英伟达在 AI 服务器芯片市场一家独大的主要原因。

从 2016 年推出第一个专为深度学习优化的 Pascal GPU，到 2017 年又推出性能相比 Pascal 提升 5 倍的新 GPU 架构 Volta，再到现在推出比 Volta 性能高 20 倍的 Ampere（安培）架构，英伟达在数据中心的 GPU 产品一直成功实现高速且稳定的性能提升。

此外，英伟达推出了神经网络推理加速器 TensorRT，可以为深度学习应用提供低延迟、高吞吐率的部署推理加速，兼容目前几乎所有主流的深度学习框架，使其能够满足超大数据中心从 AI 训练到部署推理的完整的 AI 构建。

而在去年 3 月，英伟达宣布以 68 亿美金收购了以色列网络通信芯片公司 Mellanox。通过对 Mellanox 的加速网络平台的整合，英伟达可以解决通过智能网络结构连接大量快速计算节点，以形成巨大的数据中心规模计算引擎的整体架构。

就在发布 A100 GPU 的同时，英伟达也基于 Mellanox 技术，推出全球第一款高度安全、高效的 25G/50G 以太智能网卡 SmartNIC，将广泛应用于大型云计算数据中心，大幅优化网络及存储的工作负载，实现 AI 计算的更高安全性和网络连接效能。

当然，收购 Mellanox 的意义不止于此，除了解决高性能的网络连接和算力输出问题，英伟达还将也拥有 GPU、SoC、NPU 面向不同细分领域的三大处理器，这意味着英伟达已基本具备了独立打造 AI 数据中心的能力。

整体上，随着云端数据中心正在从传统的数据存储向着进行深度学习、高性能计算（HPC）和大数据分析的方向演变，英伟达也将在其中扮演着更加重要的 AI 计算服务商的角色。

跨越英伟达的坚壁高墙，AI 计算竞赛加剧

当然，云端 AI 服务器芯片市场还远未到格局已定的地步，反而在 2019 年迎来最激烈的竞争态势。

英伟达的 GPU 产品，因其高耗能和高价格一直制约着云计算数据中心的 AI 算力的成本。从服务器芯片市场的另一位大佬英特尔，到 AMD、高通，云计算服务商亚马逊、谷歌、阿里、华为以及众多新兴的 AI 芯片创业公司，都在积极投入云端 AI 服务器芯片的研发，寻求替代 GPU 的解决方案。可见天下苦“GPU”久矣。

在 2019 年，相比英伟达的略显沉寂，其他各家则纷纷推出了自己的 AI 服务器芯片产品。比如去年上半年，英特尔、亚马逊、Facebook 以及高通都陆续推出或宣布推出自己的专用 AI 服务器芯片，试图在 AI 推理运算上实现对 GPU 和 FPGA 的替代。年中，我国的主要云端 AI 厂商也集体发力，寒武纪在 6 月宣布推出第二代云端 AI 芯片思云 270；8 月，华为正式发布算力最强的 AI 处理器 Ascend910 及全场景 AI 计算框架 MindSpore；9 月，阿里推出当时号称全球最强的 AI 推理芯片含光 800，基本都在对标英伟达的 T4 系列产品。

在所有 AI 芯片的竞争者中，作为第二名的英特尔显然是最想挑战英伟达的霸主位置，也是最有可能挑战英伟达的代表。

作为通用服务器芯片的传统巨头，英特尔最有可能的策略就是把 GPU 和 AI 都融入到自己的 CISC 指令集和 CPU 生态中，也就是把 CPU 和 GPU 部署在一起，云服务商们只需购买一家的产品，就能更好地发挥 AI 计算的效能。

在 All IN AI 的英特尔那里，他们是如何来构建这一 AI 计算策略的？

英特尔最先补足的就是 AI 硬件平台版图，而收购则是最快的方案。2015 年，英特尔先是天价收购了 FPGA 的制造商 Altera，一年后又收购了 Nervana，为全新一代 AI 加速器芯片组奠定了基础。

去年 12 月，英特尔再次花掉 20 亿美元高价收购了成立仅 3 年的以色列数据中心 AI 芯片制造商 Habana Labs。与英伟达收购 Mellanox 一样异曲同工，通过收购 Habana，英特尔也将补足数据中心场景下的通信和 AI 两种能力。

受到这一收购的激励，英特尔宣布停止去年 8 月才发布的用于 AI 训练的 Nervana NNP-T，转而专注于推进 Habana Labs 的 Gaudi 和 Goya 处理器产品，以对标英伟达的 tesla V100 和推理芯片 T4。此外，一款基于 Xe 架构的 GPU 也将在今年中旬面世。

在软件层面，为应对异构计算带来的挑战，英伟达在去年 11 月发布了 OneAPI 公开发行版。不管是 CPU、GPU、FPGA 还是加速器，OneAPI 都尝试最大程度来简化和统一这些跨 SVMS 架构的创新，以释放硬件性能。

尽管英特尔以“全力以赴”的姿态投入到 AI 计算当中，通过四处出手收编了涵盖 GPU、FPGA 到 ASIC 的 AI 芯片产品阵列，并建立了广泛适用的软硬件生态。但是在挑战英伟达的通用 GPU 产品上面，仍然还有一定距离。

首先，英特尔通过 CPU 适用于 AI 计算的策略一直未能得到主要云计算厂商的青睐，大多数厂商仍然乐于选择 CPU+GPU 或 FPGA 的方案来部署其 AI 训练的硬件方案。而 GPU 仍然是英伟达的主场，V100 和 T4 仍然是当下数据中心主流的通用 GPU 和推理加速器。

其次，英特尔在 AI 芯片的布局才刚刚发力，受到 Nervana AI 芯片一再延迟的影响，Habana 产品才刚刚开始进行整合，这将使得英特尔短期内难以挑战英伟达的 AI 服务器芯片的市场份额。

而现在英伟达最新的安培架构的 A100 GPU 以及 AI 系统集群的发布，更是给英特尔以及市场其他竞争对手一场饱和攻击。尽管说，长期来看云计算厂商和 AI 服务器芯片厂商开发的定制芯片会侵蚀一部分 GPU 的份额，而如今都要先跨越英伟达 A100 所搭起的 AI 计算的坚壁与高墙。

AI 计算升级，带来数据中心全新布局方案

我们先看数据中心本身的变化。受到 AI 相关应用需求和场景的爆发式增长，中小型数据中心无法承受如此巨量的“AI 计算之痛”，市场对超大型数据中心的需求越发强烈。

第一，以亚马逊 AWS、微软 Azure、阿里、谷歌为代表的公有云巨头，正在占据超大型数据中心的主要市场份额。一方面，超大型数据中心将带来更多的服务器及配套硬件的增长；另一方面，AI 算法的复杂度增加和 AI 处理任务的持续增长，又需要服务器的配置以及结构得到持续升级。

在一些视觉识别为主的 AI 企业，建立一个超算中心就需要部署上万块 GPU，对于那些 TOP 级云服务商的云计算数据中心，为支持深度学习训练任务，所需要的 GPU 量级也将是海量级别。

第二，云服务厂商都在推出自研的芯片，来缓解因为价格昂贵和数据量巨大而带来的 GPU 计算成本飙升的问题。这些厂商推出的大多是推理芯片，以节省 GPU 的通用算力。但这些推理芯片只在通用性上面的不足，造成其很难突破自研自用的局面。

那么,英伟达的 A100 GPU 芯片的发布，对云计算数据中心带来哪些新的变化呢？或者说为 AI 服务器芯片的对手们设立了怎样的门槛呢？

首先，作为采用全新的安培架构的 A100 GPU，支持每秒 1.5TB 的缓冲带宽处理，支持 TF32 运算和 FP64 双精度运算，分别带来高达 20 倍 FP32 的 AI 计算性能和 HPC 应用 2.5 倍的性能提升。此外还包括 MIG 新架构、NVLink 3.0 以及 AI 运算结构的稀疏性等特性，这些使得 A100 加速卡不仅可用于 AI 训练和 AI 推理，还可以用于科学仿真、AI 对话、基因组与高性能数据分析、地震建模及财务计算等多种通用计算能力。而这一解决方案有可能缓解很多云服务厂商在推理上面的计算压力，也对其他厂商的推理芯片带来一定的竞争压力。

其次，英伟达发布的第三代的 DGX A100 的 AI 系统在提高吞吐量同时，大幅降低数据中心的成本。由于 A100 内置了新的弹性计算技术，可以分布式的方式进行灵活拆分，多实例 GPU 能力允许每个 A100 GPU 被分割成多达七个独立的实例来推断任务，同时也可以将多个 A100 作为一个巨型 GPU 运行，以完成更大的训练任务。

（“The more you buy，the more money you save！”）

用黄仁勋举的例子来说，一个典型的 AI 数据中心有 50 个 DGX-1 系统用于 AI 训练，600 个 CPU 系统用于 AI 推理，需用 25 个机架，消耗 630kW 功率，成本逾 1100 万美元；而完成同样的工作，一个由 5 个 DGX A100 系统组成的机架，达到相同的性能要求，只用 1 个机架，消耗 28kW 功率，花费约 100 万美元。

也就是说，DGX A100 系统用一个机架，就能以 1/10 的成本、1/20 的功率、1/25 的空间取代一整个 AI 数据中心。

总体而言，英伟达用一套性能惊人又极具创新性的 AI 计算架构与 AI 服务器芯片硬件，带来了 AI 数据中心计算平台的全新升级。英伟达的野心将不再只是提供性能升级的 GPU 硬件产品，而是要重新定义数据中心的 AI 计算的规则，将数据中心视作基本的计算单元。

实际来讲，一个 DGX A100 GPU 系统的单价就要 20 万美元，对于要为了 AI 训练而采购成千上万块企业级 GPU 的云计算厂商来说，可想而知成本将有多高。现在，也只有全球主要的云计算厂商、IT 巨头以及政府、实验室为 DGX A100 下了初始订单。

对于其他竞争对手而言，英伟达这次在 AI 服务器芯片及 AI 数据中心计算平台铸就的坚壁高墙，似乎在短期内难以逾越。同时，也会成为未来几年，AI 服务器芯片厂商努力去对标的性能标准。当然，对英伟达 A100 的挑战，也自然就此开始。至于是英特尔、AMD 还是 AWS、谷歌，我们拭目以待。

器件型号	数量	器件厂商	器件描述	参考价格	更多信息
NC7SZ125M5X	1	Texas Instruments	LVC/LCX/Z SERIES, 1-BIT DRIVER, TRUE OUTPUT, PDSO5, PLASTIC, SOT-23, 5 PIN	$0.37	查看
NC7SZ126M5X	1	Texas Instruments	LVC/LCX/Z SERIES, 1-BIT DRIVER, TRUE OUTPUT, PDSO5, PLASTIC, SOT-23, 5 PIN	$0.43	查看
NC7SZ157P6X	1	Fairchild Semiconductor Corporation	Multiplexer, LVC/LCX/Z Series, 1-Func, 2 Line Input, 1 Line Output, True Output, CMOS, PDSO6, 1.25 MM, EIAJ, SC-70, SC-88, 6 PIN	$0.39	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

NC7SZ125M5X

Texas Instruments

LVC/LCX/Z SERIES, 1-BIT DRIVER, TRUE OUTPUT, PDSO5, PLASTIC, SOT-23, 5 PIN