今年年初时,不止一位专业分析师认为 2020 年,会有更多的 AI 芯片公司开始出货,出货量也会增加,英伟达将面临前所未有的挑战,它在 AI 训练芯片的主导地位仍然安全,但是却很难主导推理芯片市场,尤其是在数据中心之外。

 

多个 AI 芯片公司在觊觎英伟达的地位。首先发力的有 ASIC,与通用 AI 芯片相比,它们所需的功耗更低;还有可编程器件,Xilinx 和 Intel 都在开发相关的加速芯片;此外还有若干种新型 xPU 在虎视眈眈,还有 Graphcore、燧原、壁仞……这些国内外风头正劲的“后浪”,手握雄厚资金和先进技术高调入场。

 

不过就在 5 月,疫情期间宅家的老黄出了一记重拳,从自家烤箱端出了英伟达史上最彪悍的 GPU——NVIDIA A100,既可做训练也可做推理,性能提高 20 倍。

最新发布的 A100 实力吊打了自家前代产品 Telsa V100,进行 BERT 模型训练性能提升了 6 倍,BERT 模型推理性能提升了 7 倍。

不过,自己左拳打右拳还不够,走上公开竞技场跑个分才有公信力。

 

今年 7 月,MLPerf 基准联盟公布的最新一轮 MLPerf 0.7 Training 基准测试数据显示,英伟达在图像分类、NLP、推荐系统等八项测试中都名类前茅,超越了 V100,以及 ASIC 芯片的典型代表,如谷歌 TPUv3、华为昇腾 Ascend。

不仅是训练速度创下纪录,英伟达还是唯一一家在所有测试中均采用市售商用产品的公司,其他大多数提交使用的要么是预览类别(preview category),要么使用的是研究类别的产品,预计这些产品上市最快也需几个月之后。

 

这也表明,在可预见的一段时间内,英伟达 GPU 将继续引领 AI 加速训练市场,并有望在 2020 年及今后进一步增长。各种非 GPU 技术(包括 CPU、ASIC、FPGA 和神经网络处理单元),虽然也在性能、成本、能效等方面不断提升优势,但在商用落地方面仍需继续努力。


A100 GPU 问鼎 AI 推理新高峰,比 CPU 快 237 倍

 

就在北京时间 10 月 22 日凌晨 1 点,最新发布的今年第二轮的 MLPerf 推理测试(MLPerf 0.7 Inference)中,英伟达打破 AI 推理性能记录,创下了数据中心与边缘计算系统全部六个应用领域的记录。

 

此次测试中,计算机视觉测试从最初的两项扩展到四项,涵盖了 AI 应用增长最快的领域,包括:推荐系统、自然语言理解、语音识别和医疗影像。

NVIDIA 凭借 A100 进一步扩大了在 MLPerf 基准测试中的领先优势,凭借其第三代 Tensor Core 核心和多实例 GPU 技术,A100 在 ResNet-50 测试中的领先优势在进一步放大。

 

在今年的上一轮测试中,它以 30 倍比 6 倍的成绩击败 CPU。而在此次 MLPerf Inference 0.7 基准测试中,新增了针对数据中心推理性能的推荐系统测试。A100 比最先进的 CPU 快 237 倍,可以说问鼎 AI 推理性能的新高峰。

这意味着,一套 DGX A100 系统可以提供相当于近 1000 台双插槽 CPU 服务器的性能,能为用户的 AI 推荐系统模型从研发走向生产的过程,提供极高的成本效益。

这里也要说一下同时参与测试的 Intel 代号为 Cooper Lake 的 CPU,这是 6 月刚刚发布的第三代至强(Xeon)可扩展服务器处理器,就在今年 3 月份,Intel 确认他们砍掉了该平台的单路和双路型号,只会推出 4 路~8 路的平台。作为 Cascade Lake 的后续产品,Cooper Lake 加入了对 bfloat16 这种数据类型的支持,这是一种很适合机器学习使用的数据类型。当然,Cooper Lake 不仅仅是支持 bfloat16 这么简单,Intel 还加入了新的扩展指令集,加大了数据吞吐量。

 

此外还有 Xilinx 的 U250,这是建立在 Xilinx 16nm UltraScale 架构之上、面向数据中心的一款加速器卡,2018 年已量产,能够为重要工作负载(包括机器学习推理、视频转码和数据库搜索与分析)提供比 CPU 更高的性能。U250 发布时有过相关的性能比较,就机器学习而言,实时推断吞吐量比当时的高端 CPU 高出 20 倍,相对于高端 GPU 等固定功能的加速器,能使 2 毫秒以下的低时延应用性能提升 4 倍以上。其总体优势在于能适应不断变化的加速要求和算法标准,在不改变硬件的情况下,加速工作负载,并降低总体拥有成本。

 

在此次评测中,Xilinx U250 仅参与了使用 ResNet-50 进行图像分类这项测试,Intel Cooper Lake 则参与了医疗影像、图像分类、物体识别、推荐系统这几项。英伟达的 A100 和 T4 则跑完全部测试,并在同一测试中,NVIDIA T4 GPU 的性能比 CPU 高出 28 倍。


英伟达 AI 推理业务拓展迅速

 

各个行业机构将 AI 研究转化为日常运营中的生产力:金融机构使用对话式 AI 更快速地回答客户问题,零售商们使用 AI 保证货架库存充足,医疗机构使用 AI 分析数百万张医疗影像……这些都是 AI 推理能够贡献力量的应用领域。

 

英伟达加速计算产品管理高级总监 Paresh Kharya 在面向包括<与非网>在内的全球媒体及分析机构的在线会议中表示,就在 MLPerf 最新的 AI 推理测试结果出炉之际,英伟达的 AI 推理业务也已得到迅速扩展。五年前,只有少数领先的高科技公司使用 GPU 进行推理。现在,企业可通过云和数据中心基础设施供应商来使用英伟达的 AI 平台。

 

越来越多的横跨多个行业的企业(如汽车、云、机器人、医疗保健、零售、金融服务和制造业等领域)开始使用英伟达 GPU 进行 AI 推理,其中包括美国运通、宝马、福特、GE 医疗、微软、三星和丰田等。

 

英伟达的 AI 推理在今年达成了一个重要的里程碑。

 

在过去一年中,NVIDIA GPU 在公有云上总共交付了超过 100 次 AI 推理性能,首次超过了云上 CPU 的推理。根据英伟达官方介绍,基于 GPU 的总体云端 AI 推理计算能力,每两年约增长 10 倍。

 

“按照这个趋势,在几年之后英伟达 GPU 将会承载超过 90%的全球 AI 推理算力。任何 AI 的应用和服务现在都可以基于英伟达芯片”,黄仁勋在前不久的 GTC 大会上说道。

还有一个趋势值得关注。上月底,数据中心解决方案提供商 VMware 宣布,将在 VMware 数据中心管理软件中首次使用英伟达的 AI 芯片,VMware 的软件可以通过将物理机切成“虚拟机”来帮助企业在数据中心服务器中获得更多能力,将更多应用程序打包到每台物理机上,来提升数据中心效率。

 

这一合作其实也反映了数据中心格局的变迁。过去多年来,VMware 的数据中心管理软件大部分基于 Intel 的芯片,虚拟化技术能力仅限于 Intel 和 AMD 芯片,但英伟达打破了这种固化格局,成为首个使用虚拟化技术出售 AI 芯片的企业。

 

如果将英伟达的芯片市场分为训练和推理两部分,今年最新推出的 A100,则寄予了英伟达希望“以一打二”——替代训练和推理两部分芯片能力的野心。

 

通常,训练需要非常强大的算力,推理则仅需部分算力即可。A100 就有这样的新技能,它采用了一种全新技术:多实例 GPU-MIG,能够将单个 GPU 分割为多达七个独立的 GPU,为不同规模的工作提供不同的计算力。简单来说,这能够帮助更多数据中心拥有者获得芯片中所有可能的计算能力,以确保数据中心的计算能力时刻被充分利用而不会闲置,以此实现利用率和投资回报率的最大化。

 

虚拟化技术的推行正是源于软件开发者的认识——功能强大但价格昂贵的服务器提供的计算能力通常远远低于服务器所具有的完整的计算能力,因此如果能够将物理机切分成较小的“虚拟机”,开发人员就能在上面添加更多软件,更能物尽其用。


AI 推理难在哪里?

 

尽管应用在不断扩大,不过,Paresh Kharya 仍然指出了 AI 推理的难度。

 

新的 AI 用例在不断扩展,新的神经网络(如生成性对抗网络)也在不断为新的用例而产生,并且模型正在呈指数级增长,最强大的 AI 语言模型甚至包含了数十亿个参数,这些模型需要在云端、企业数据中心和网络边缘运行。这意味着运行它们的系统必须是高度可编程的,在多个维度上都能出色地执行。

 

黄仁勋将这种复杂性概括为一个词:PLASTER(Programmability, Latency, Accuracy, Size of model, Throughput, Energy efficiency and Rate of learning),也就是说,AI 推理要求在可编程性、延迟性、准确性、模型大小、吞吐量、能耗和学习速率等方面拥有综合的卓越性能。

 

正是为了实现各个维度上的先进性,英伟达注重发展端到端的 AI 平台。像 A100 这样先进的加速产品,市场才刚刚起步,交付应用离不开完整的软件堆栈。

 

这也是为什么,英伟达作为一家硬件公司,却与软件服务公司的边界越来越模糊。

 

软件以各种预先训练好的模型开始运行 AI 推理,用户可以通过迁移学习工具包针对某些特定应用和数据集优化这些模型。NVIDIA TensorRT 优化训练模型进行推理,NVIDIA Triton 推理服务器提供了一个优化的环境来运行这些支持多个 GPU 和框架的 AI 模型。

 

最终,所有这些元素都运行在 CUDA-X AI 之上,这是一套基于主流加速计算平台的成熟软件库,可以部署到多种设备内的 NVIDIA GPU 上,其中包括台式机、工作站、服务器、云计算和 IoT 设备。


写在最后

 

驾驭 AI 是一个复杂挑战,英伟达的全局思路或许可以简单概括为:端到端,训练推理一体,软件全栈。

 

最后再插一个话题,在前不久的 Arm DevSummit 上,黄仁勋与 Arm CEO 的对谈中,再次强调了对于 Arm 商业模式和生态网络的有意保护和培育。

在推动收购 Arm 的同时,英伟达也宣布了支持 Arm 架构的三大战略:提供更多对 Arm 架构的 GPU、网络、存储和安全的支持,实现更完整的加速平台;与合作伙伴开发覆盖从端侧到 HPC 所有平台的设备;接入英伟达 AI 和 RTX 技术到 Arm 架构,而此前这些支持仅限于 x86。

 

收购 Arm 难道只是看中了它的 IP 吗?似乎更大的一盘棋,在于把英伟达的 AI 能力铺设到 Arm 的生态之中,最终实现他所说的端到端的 AI 宏图。你品。