加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    •  
    • 在可预见的未来 GPU 仍将主导 AI 芯片市场
    •  
    • 算力为王的时代,传统服务器加速升级换代
    • 不只是芯片,隐性“技能”越来越重要
    • 推荐系统、NLP、强化学习——深度学习继续驱动 AI 纵深发展
    • 写在最后
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

AI最新趋势是什么?我从MLPerf基准测试中读出这些

2020/07/30
294
阅读需 14 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

MLPerf 是用于测试 ML(Machine Learning)硬件软件以及服务的训练和推理性能的公开基准,该行业基准测试组织自 2018 年 5 月成立以来,得到了亚马逊、百度、Facebook、谷歌、哈佛大学、英特尔、微软和斯坦福大学等支持,一直在跟随 AI 的发展步伐持续演进。

日前,MLPerf 基准联盟公布了最新一轮 MLPerf 0.7 Training 基准测试数据,测试内容及结果对于 AI 下一阶段的算力趋势、应用趋势都具有一定的指引性。

 

在可预见的未来 GPU 仍将主导 AI 芯片市场

作为 AI 芯片领域一个重要的基准测试,MLPerf 主要包括训练和推理两方面的性能测试。根据最新发布的 MLPerf 基准测试结果,英伟达在全球市售商用产品中 AI 训练性能创下纪录,A100 GPU 和 DGX SuperPOD 系统当选全球 AI 训练领域速度最快的市售商用产品。

AI 芯片已经成为人工智能的主要竞争领域,各种 AI 加速器不断孕育而生,GPU 也面临着在激烈的竞争中生存和发展。而今年 5 月英伟达发布的首款基于其 Ampere 架构的 GPU A100,为追赶者又设置了新的标杆。相比于前代产品,A100 性能提升了 20 倍,一发布就是全面投产并已向全球客户交付的状态。

尽管业界都期待能有新的芯片类型能与 GPU 抗衡,但根据最新公布的 MLPerf 0.7 Training 测试数据来看,英伟达在图像分类、NLP、推荐系统等八项测试中都超越了自家的 V100,以及 ASIC 芯片的典型代表(如谷歌 TPUv3、华为昇腾 Ascend)而名列前茅。

 NVIDIA Ampere 架构在市售商用加速器的全部八项测试中领先

英伟达加速计算产品管理高级总监 Paresh Kharya 在面向包括<与非网>在内的全球媒体的电话会议中表示,不仅是训练速度创下纪录,与此同时,英伟达是唯一一家在所有测试中均采用市售商用产品的公司,其他大多数提交使用的要么是预览类别(preview category),要么使用的是研究类别的产品,预计这些产品上市最快也需几个月之后。

这也表明,在可预见的未来,英伟达 GPU 将继续引领 AI 加速训练市场,并有望在 2020 年及今后进一步增长。各种非 GPU 技术(包括 CPU、ASIC、FPGA 和神经网络处理单元),虽然也在性能、成本、能效等方面不断提升优势,但在商用落地方面仍需继续努力。

 

算力为王的时代,传统服务器加速升级换代

A100 的商用速度也比以往任何 NVIDIA GPU 更快。A100 在发布之初用于 NVIDIA 的第三代 DGX 系统,而正式发布仅六周后,就登陆了 Google Cloud。还有 AWS、百度云、微软 Azure 和腾讯云等全球领先的云提供商,以及 Dell Technologies、HPE、浪潮和超微等数十家主要服务器制造商,均采用了 A100。

这也从另一个侧面反映出——云计算和 AI 的强大趋势正在推动数据中心设计的结构性转变,传统服务器正在被高效的加速计算基础架构所颠覆。

另外要指出的是,英伟达是在 Selene 上运行了系统的 MLPerf 测试,它是基于 DGX SuperPOD 的内部集群,而 DGX SuperPOD 是针对大规模 GPU 集群的公共参考架构,可在数周内完成部署。在针对大规模计算性能的 MLPerf 基准测试中,DGX SuperPOD 系统内置了超过 2000 个 A100,并通过 HDR InfiniBand 实现了多个 DGX A100 系统互联。最终在性能上开创了 8 项全新里程碑,共打破 16 条纪录。

 
NVIDIA DGX SuperPOD 系统为大规模 AI 训练树立全新里程碑

在 GPU 服务器市场,8 卡 GPU 服务器和英伟达的 V100 加速卡一度是采购热点,占据了约 30%以上的份额。以 A100 目前的商用速度来看,它可能会以超出预期的速度更快被市场所接纳。在算力为王的 AI 时代,谁会拒绝一款算力倍增的 AI 服务器呢?

浪潮就在 A100 发布时同步推出了 5 款 AI 服务器,可支持 8 到 16 颗 NVIDIA A100 Tensor Core GPU。笔者曾与浪潮方面探讨过未来的产品主流,据其说法,从过往三年 AI 服务器的发展历程来看,算力需求的线性增长在倒逼 AI 服务器的升级换代。由于 AI 算力的需求一直保持着 50%的行业增速,在一些头部行业的增速甚至超过 100%,因此未来 V100 的 AI 服务器很可能会升级为 A100 的八卡服务器。

而随着数据的爆炸增长与深度神经网络日趋复杂,单机或小型服务器已经无法满足算力需求,未来将有大量的 AI 应用和服务被放在云端,AI 算力需求正在逐步迈入高峰期,更多更高性能的 AI 服务器将在线下场景落地,而 GPU 服务器依然是市场上的绝对主力。

不只是芯片,隐性“技能”越来越重要

测试结果显示,相较于首轮 MLPerf 训练测试中使用的基于 V100 GPU 的系统,如今的 DGX A100 系统能够以相同的吞吐率,实现高达 4 倍的性能提升。而得益于最新的软件优化,基于 NVIDIA V100 的 DGX-1 系统也能够实现 2 倍的性能提升。

大约一年半的时间,英伟达整个 AI 平台就取得了如此优异的成绩。这些既是硬件架构升级所带来的跃进,也是英伟达跨处理器、网络、软件和系统的 AI 平台的发展结果。
 

英伟达全栈创新带来的 AI 性能提升

特别是软件,正在为 AI 的战略发展铺平道路。所有的 AI 公司都将越来越认识到,软件的重要性。以 GPU 深度学习为代表的技术已经点燃了现代人工智能的热情,同时也带动了 CUDA 软件生态的繁荣和开发者数量的迅猛增长。

应用框架也是这位 GPU 霸主的布局重点之一,包括:用于对话式 AI 的 Jarvis、用于推荐系统的 Merlin、面向汽车行业的 NVIDIA DRIVE、面向医疗健康市场的 Clara、面向机器人技术市场的 Isaac,以及面向零售 / 智能城市市场的 Metropolis。这些应用框架简化了企业级 AI 的开发和部署,降低了 GPU 在各个领域的应用门槛。

当然,大规模加速计算特别是超大规模集群的部署是一个庞大的系统工程,正如 Paresh Kharya 所说,存储、网络、软件等,都是重要因素,而这些系统的顺利运转,部分也得益于广泛的生态系统对于 NVIDIA GPU 和 DGX 的支持。在该轮 MLPerf 基准测试中,生态系统也交出了一份满意答卷。在提交结果的九家公司中,除英伟达还有六家公司提交了基于 NVIDIA GPU 的测试结果,其中包括三家云服务提供商(阿里云、谷歌云和腾讯云)和三家服务器制造商(戴尔、富士通和浪潮)。

推荐系统、NLP、强化学习——深度学习继续驱动 AI 纵深发展

与上一版相比,最新的 MLPerf 基准测试包含两项新的测试(推荐系统、NLP),还有一项经过大幅修订的测试(强化学习),这些都覆盖了深度学习的最新进展。过去几年,AI 取得了巨大进展,从图象识别、图象分类到识别不同的物体等,甚至能够识别图象中的每一个像素。这背后,深度学习的驱动力量是巨大的。

推荐系统是日益普及的一项 AI 任务,已经成为互联网的重要引擎。不论是电商平台还是社交媒体,如何将合适的内容、合适的产品在合适的时间推送给用户?推荐系统至关重要。而这背后的两大挑战:一是模型的复杂度,因为需要处理的数据量是海量的,为了提升推荐的相关度,必须要对所有参数来进行建模;二是需要做出实时的计算,最快提供推荐结果。这两大挑战无疑都指向了算力,需要以非常快的速度完成计算。而 GPU 有指令集优势、全可编程、并且是软件定义的,架构向前兼容,整个硬件架构可以随着软件不断更新,而且是在软件库就可以直接更新。阿里巴巴在去年“双十一”期间创造了 380 亿美元的销售纪录,其推荐系统使用了英伟达 GPU,使每秒查询量达到了 CPU 的 100 倍以上。

而对话式 AI 自身也成为了业界关注的焦点,推动从金融到医疗健康等行业的业务发展,使他们能够构建和部署更快、更智能的会话式 AI 服务,实现更自然的 AI 人机交互。在本轮基准测试中,对使用 BERT 的对话式 AI 进行了测试(BERT 是现有最复杂的神经网络模型之一)。

最后,强化学习测试中使用了 Mini-go 和全尺寸 19x19 围棋棋盘。该测试是本轮最复杂的测试,内容涵盖从游戏到训练的多项操作。

事实上,在今年 GTC 黄仁勋的演讲中,就包括了对于交互式语音应用(多任务)和推荐系统解决方案(大规模稀疏化数据的处理)等方向的演示,引发了业界对于 AI 下一步应用热点的预测。加之 MLPerf 此次的测试内容更新,更进一步展示了这些热点方向。

写在最后

在很长一段时间内,业界都在讨论是否有必要设立 AI 基准。MLPerf 的推动者之一吴恩达曾表示:“AI 正在改变多个行业,但是为了发挥它最大的潜能,我们仍需要更快的硬件和软件。”

行业中的支持者也认为,标准的缺失限制了 AI 的应用,他们希望基准的确立能帮助 AI 开发者创造出更好的产品,让使用者充分了解所需产品。这也正是 MLPerf 的目标,希望用可复制的、公平可靠的基准测量方法来推动机器学习行业和研究的发展,产品之间的对比还可以促进供应商和学者之间的竞争。

当然,基准测试自身也面临着变革需求:例如要测规模变化的庞大的 AI 系统,从几块、几十到几千上万块加速卡,如何对它们进行客观测试?面对集群计算机,测试程序如何做到规模可变的?凡此种种,都是面临的挑战。

不管怎样,在 AI 性能基准测试这个领域目前已经有很多探索,比如 MLPerf、小米的 mobile AI bench、百度的 Deepbench、中国人工智能产业发展联盟的 AIIA DNN Benchmark 等。其中,MLPerf 作为国际上大家比较认可的机器学习的标准,已经做出了一定的表率。这些积极探索也正在驱动前沿大规模计算的迅猛发展。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
AIUR-02H-102K 1 Abracon Corporation IND 1000uH 0.22A 1300mΩ

ECAD模型

下载ECAD模型
$1 查看
BAV99-7-F 1 Diodes Incorporated Rectifier Diode, 2 Element, 0.3A, 75V V(RRM), Silicon, GREEN, PLASTIC PACKAGE-3

ECAD模型

下载ECAD模型
$0.14 查看
CS60-16IO1R 1 IXYS Corporation THYRISTOR PHASE 1600V ISOPLUS247
暂无数据 查看

相关推荐

电子产业图谱

与非网资深行业分析师。主要关注人工智能、智能消费电子等领域。电子科技领域专业媒体十余载,善于纵深洞悉行业趋势。欢迎交流~