BERT 的训练时间实现创纪录的 53 分钟,推理时间缩短至 2 毫秒,

 

使得 Microsoft 等公司能够在大型应用程序中采用先进的语言理解技术

 

NVIDIA 日前宣布在语言理解方面取得了突破性成果,令企业能够以更加自然的方式,使用实时会话 AI 与客户进行互动。

 

BERT 是当前最先的 AI 语言模型之一,NVIDIA 借助其 AI 平台率先将 BERT 的训练时间控制在一小时之内,并以仅比 2 毫秒多一点的时间完成了 AI 推理。这种具有突破性的性能水平能够让开发者将先进的语言理解技术应用于大型应用程序之上,为全球数亿消费者提供服务。

 

早期采用 NVIDIA 性能提升技术的公司中包括 Microsoft,平安科技以及全球范围内一些最具创新性的初创公司。借助于 NVIDIA 平台,这些公司为客户开发了高度直观、响应即时且基于语言的服务。

 

有限的会话 AI 服务已经存在多年。但由于此前无法实现超大型 AI 模型的实时部署,聊天机器人、智能个人助理和搜索引擎的理解能力很难达到与人类相当的水平。然而,NVIDIA 通过在其 AI 平台中添加关键性的优化功能,将此问题迎刃而解,在 AI 训练和推理方面都创造了新的速度纪录,并构建了迄今为止同类型中最大的语言模型。

 

NVIDIA 深度学习应用研究副总裁 Bryan Catanzaro 表示:“对于适用于自然语言的 AI 而言,大型语言模型正在为其带来革新。它们正在帮助我们解决那些最为棘手的语言问题,让我们距离实现真正的会话 AI 更进了一步。NVIDIA 所取得的突破性工作成果加速了这些模型的创建,让企业能够打造全新的高质量服务,以前所未有的方式服务客户,为其带来愉快的客户体验。”

 

最快的训练速度、最短的推理时间和最大的模型规模

 

预计未来几年,基于自然语言理解的 AI 服务将呈指数级增长。根据 Juniper Research 的研究表明,在未来 4 年中,仅数字语音助手的数量就将有望从 25 亿攀升到 80 亿。此外,据 Gartner 预计,到 2021 年,15% 的客服互动都将完全通过 AI 完成,相比于 2017 年,将增长 4 倍。

 

在引领这个新时代的过程中,NVIDIA 对其 AI 平台进行了多项关键性优化,从而创造了三项新的自然语言理解性能记录:

 

●      最快的训练速度:BERT(Bidirectional Encoder Representations from Transformers)是世界上最先进的 AI 语言模型之一。NVIDIA 使用搭载了 92 台 NVIDIA DGX-2H™ 系统的 NVIDIA DGX SuperPOD™运行该模型的大型版本,凭借 1,472 个 NVIDIA V100 GPU 的强大性能,NVIDIA 将 BERT-Large 的典型训练时间从几天缩短至仅仅 53 分钟。此外,NVIDIA 还在单独一台 NVIDIA DGX-2 系统上执行了 BERT-Large 模型的训练任务,用时也仅为 2.8 天,这充分体现了 NVIDIA GPU 在会话 AI 方面的可扩展性。

 

●      最短的推理时间:借助于运行了 NVIDIA TensorRT™ 的 NVIDIA T4 GPU,NVIDIA 执行 BERT-Base SQuAD 数据集的推理任务,用时仅为 2.2 毫秒,远低于许多实时应用程序所需的 10 毫秒处理阈值,与使用高度优化的 CPU 代码时所测得的 40 多毫秒相比,有着显著改进。

 

●      最大的模型规模:开发者们对于更大模型的需求正在日益增长,NVIDIA 研究团队基于 Transformer 构建并训练了世界上最大的语言模型, Transformer 是 BERT 的技术构件,也正被越来越多的其他自然语言 AI 模型所使用。NVIDIA 定制的模型包含 83 亿个参数,是 BERT-Large 的 24 倍。

 

生态系统的采用情况

全球数以百计的开发者都已使用 NVIDIA 的 AI 平台,来推进他们自己的语言理解研究并创建新的服务。

 

Microsoft Bing 正在利用其 Azure AI 平台和 NVIDIA 技术的强大功能来运行 BERT,并使搜索结果更为准确。

 

Microsoft Bing 部门项目经理 Rangan Majumder 说:“Microsoft Bing 依靠最先进的 AI 模型和计算平台,为我们的客户提供最好的全球搜索体验。通过与 NVIDIA 密切合作,Bing 使用 NVIDIA GPU(Azure AI 基础设施的一部分)进一步优化了热门自然语言模型 BERT 的推理功能,从而大幅提升了 Bing 于去年部署的排名搜索的搜索质量。与基于 CPU 的平台相比,使用 Azure NVIDIA GPU 进行推理,延迟降低了一半,吞吐量提升了 5 倍,这使得 Bing 能够为全球所有客户提供更加专业、更具成本效益且更实时的搜索体验。”

 

在中国,基于 GPU 加速的 BERT 已经陆续在搜索引擎、广告系统、内容推荐、智能客服等实际应用中发挥重要作用。

 

平安集团 -- 世界 500 强第 29 位,金融机构第 4 位 -- 旗下平安科技,覆盖金融、医疗、汽车、房产、智慧城市五大生态圈,其人工智能解决方案服务超过 5 亿用户。目前平安科技已经将基于 Occam 平台训练加速的 BERT 部署到在线客服问答系统上,未来会在更多的应用场景中使用。

 

平安集团首席科学家肖京博士表示,“平安科技率先采用先进 AutoML 技术打造一键式开发 Occam 平台,在 NVIDIA 研发的 Fast Transformer 的助力下,Occam 以零算法基础和少量数据即可实现训练高精度机器学习模型为核心,结合 SaaS、PaaS 与微服务架构的思想,为各行各业提出适应性的解决方案。区别于其他的 AutoML 平台,Occam 平台更具精准高效的自动模型训练能力,在保证模型精度的情况下,能够缩短模型训练的研发周期;同时在训练模型的推理能力上更胜一筹,因此在最具挑战的自然语言处理技术领域,平安科技凭借 Occam 平台能够独占鳌头,为营销、运营、风控、决策、服务、预测等各种智能场景业务提供支持。”

 

“我们用了 NVIDIA 最新的 Faster Transformer 改造的 PA-Occam-BERT。实现了在 NVIDIA GPU 上相较 CPU 系统,10 倍以上的延迟提升,和 20 倍以上吞吐提升,正因如此,平安科技能够以最短的时间,最低的成本训练出最精准、最具推理能力的 PA-Occam-BERT 模型,在 Stanford DAWNBench  SQuAD 2.0 问答推理延迟竞赛中获得冠军,这一成绩让我们有信心未来在更多业务线上部署基于 GPU 的 PA-Occam-BERT,实现技术的快速落地。” 平安科技副总工程师、Occam 平台技术总监王健宗博士表示。

 

NVIDIA 初创加速计划中也有多家初创公司(例如: Clinc、Passage AI 和 Recordsure 等)正在使用 NVIDIA 的 AI 平台为银行、汽车制造商、零售商、医疗服务提供商、旅行社和酒店等客户构建先进的会话 AI 服务。

 

Clinc 已通过客户名册,使全球 3000 多万人可以使用 NVIDIA GPU 支持的会话 AI 解决方案。这些客户包括领先的汽车制造商、医疗健康组织和一些全球顶级金融机构,例如: Barclays、USAA 和土耳其最大的银行 Isbank。

 

Clinc 首席执行官 Jason Mars 说:“Clinc 领先的 AI 平台能够理解复杂的问题,并将其转化为功能强大、切实可行的洞察,以服务于这些全球领先的品牌。借助 NVIDIA AI 平台提供的突破性性能,我们能够突破会话 AI 的界限并提供革命性服务,让我们的客户能够借助于先进的技术,以更强大、更有意义的方式与客户进行互动。”

 

目前提供的优化

NVIDIA 已为开发者提供了多项用于实现会话 AI 突破的软件优化:

 

·       使用 PyTorch 的 NVIDIA GitHub BERT 训练代码*

 

·       适用于 TensorFlow 的 NGC 模型脚本和检查点

 

·       GitHub 上 TensorRT 经过优化的 BERT 样本

 

·       速度更快的 Transformer:C++ API、TensorRT 插件和 TensorFlow OP

 

·       MXNet Gluon-NLP,带面向 BERT 的 AMP 支持(训练和推理)

 

·       AI Hub 上 TensorRT 经过优化的 BERT Jupyter Notebook

 

·       Megatron-LM:用于训练大型 Transformer 模型的 PyTorch 代码

 

*NVIDIA 所采用的 BERT 是热门存储库 Hugging Face 中的一个优化版本