智能音箱让我们看到了语音交互带来的可能性,而随着高质量、实时的人机对话技术的发展,我们与智能设备、应用程序的交互方式将会被彻底颠覆。不论是智能音箱、语音助手、智能客服,还是未来在智能家居、智能汽车、机器人、工业物联网设备等领域,一个更为广阔的蓝海市场正在开启。

 

更为智能的人机交互的重要基础是什么?正是对话式AI,这也是为什么它成为近年来科技巨头、AI厂商、互联网厂商的必争之地。IDC数据显示,在中国市场,对话式AI市场规模预计在2023年达到约18.6亿美元,2019-2023年的年均复合增长率(CAGR)为34.0%。

 


对话式AI奔向蓝海的关键是什么?

 

对话式AI是AI领域的集大成者,融合了语音识别、语义理解、自然语言处理、语音合成等多种解决方案,能够为开发者提供具备识别、理解及反馈能力的开放式平台的技术,使机器与人能够进行自然对话。

 

正如开篇所说,高质量的、实时的对话是通往未来的关键,不够智能、延时太长的“智障”产品是无法忍受的。这也恰好是语音交互当前的瓶颈所在,智能音箱作为首个进入寻常人家的智能语音硬件载体,完成了智能语音助手的消费者认知和用户交互习惯培养,但距离真正智能的人机对话还有很长的路要走。

 

一次完整的人机对话大致可以分为四步:将用户语音转换为文本,理解文本含义,搜索符合语境的最佳应答,最后使用文本转语音工具提供应答。举个例子,比如用户说了一句英文,希望机器能够翻译成中文。机器首先需要把口语转化成文字,也就是进行语音内容的抽取;然后再把它放到一个语音模型中,找出各词汇之间的关系,理解文本的含义;一旦机器理解了意思之后,需要在语言模型中找出合适的语言;最后才能给出一个完整的回答。

 


 
这仅是在特定语境下的一次简单对话。如果真要让机器达到人类的语言交流程度,在任何语境下,不论是内涵笑话,还是特定文化背景中的“梗”或文字游戏,都能极为巧妙地进行交谈,对机器无疑是极大的挑战——它要在极短的时间内完成极为复杂的计算,才能达到上述效果。

 

这就涉及到需要很多模型同时发挥作用、多种多样的神经网络提供支持,而且这些模型都很庞大且复杂。这就带来了另一个问题:模型越大,用户提问与 AI 应答之间的延迟就越长。如果延时超出300ms阈值,对话要么不自然,要么已经失去了回答的意义。

 

这也是目前为止,对话式AI的两难。在开发语言处理神经网络以支持实时语音应用程序的过程中,开发人员被迫面临着一种权衡:要实现快速响应,必须牺牲响应质量;要追求智能响应,则不可避免会减慢速度。


魔杖选择了巫师,还是巫师定义了魔杖?

 

如果说对话式AI是改变智能语音应用的魔杖,那么,如何将它的效果发挥到最大还要看巫师的能力。运行超大模型和通过丰富的软件、库加速训练优化模型是英伟达的长板,这些长板在对话式AI领域形成合力。

 

美国当地时间2月25日,英伟达Jarvis应用框架公测版正式发布。这对开发人员来说是一个重大进展,可以借助英伟达GPU加速的完整的软件堆栈和工具,在运行大型且复杂的 AI 模型与更好的实时性方面得到兼顾。

 

发展对话式AI来源于黄仁勋对这一市场的基本判断,他在发布Jarvis时说过,“随着应用程序具备了通过感知细微差别和上下文来理解和交流的能力,对话式AI将成为未来许多行业的关键核心,能够帮助医疗、金融服务、教育和零售行业以快速和准确的方式提供自动化的支持服务。”

 

对于企业来说,为了给客户提供个性化的交互体验,他们需要使用针对自身产品和客户需求的数据训练其语言应用。但是,从头开始构建一项服务需要深厚的AI专业知识、大量数据和计算资源来训练模型,以及能够使用新数据对模型进行定期更新的软件。如果能够提供一定的预训练模型、以及端到端的深度学习方案则有助于解决这些难题。

 

为了打造这支魔杖,英伟达已经蓄力多年。近年来,我们陆陆续续看到它在这方面的进展:训练出世界上最大的语言模型、加速GPU在语言理解性能方面的提升、帮助AI从业者创建大型语言模型、开源相关代码……

 

最新宣布的Jarvis公测版就是这些创新的集大成者,它是一个全面的框架,包含使用最新深度学习模型的ASR、NLU、TTS和计算机视觉的GPU优化服务。
 

 

英伟达对话式AI高级工程总监Janathan Cohen介绍,Jarvis包括用于构建对话式AI系统整个生命周期的端到端工具包,以及在DGX SuperPOD上已经训练了超过10万小时的预训练模型。定制化服务也是一大特色:通过Transfer Learning Toolkit(TLT)可实现“零代码”的再训练,降低了企业的应用壁垒;同时,基于PyTorch的开源工具包NeMo,使得企业能够基于自己的数据对这些模型进行微调,还可使用TensorRT进行推理优化,通过NGC(NVIDIA GPU优化的软件目录)上的Helm图表,在云和边缘的不同服务器上高效部署模型,为更大规模的对话式AI做好准备。

 

Janathan Cohen表示,构建对话式AI系统和应用程序并不是一件容易的事情,如果是为数据中心量身定制一个组件来满足企业的需要就更难了。因为针对特定领域应用程序的部署,通常需要几个周期的重新训练、微调和模型部署,直到模型满足要求为止。为了解决这些问题,英伟达目前可以提供的支持主要包括三方面:通过迁移学习工具包来加速AI模型的训练和微调;Jarvis简化了模型的部署和推理;通过英伟达GPU优化的软件目录集合了所有预训练的对话式AI模型,便于企业用户进一步微调或部署。

 

Jarvis目前可提供三种服务,语音识别(Speech Recognition)、语音合成(Speech Synthesis)和自然语言理解(NLU)。据了解,语音和语言组件已发布,下一步会增加计算机视觉和其他模态的组件。

 

多模态的融合将是对话式AI未来的主要方向,将自动语音识别的关键元素与实体和意图相结合,才能够满足新用例对高吞吐量和低延迟的需求。对于视觉类应用,Jarvis 具有用于人员检测和跟踪、手势、唇部活动、注视、以及身体姿势检测的模块。通过并行处理的方式,能够实时处理多个数据流,提供更自然的交互。


虚拟语音助理市场高速增长

 

虚拟语音助理是对话式AI目前应用最为成熟的领域之一,不论是自动客服还是数字助理,这一市场正在高速增长中。

 

IBM商业价值研究院 (IBV) 与牛津经济研究院在疫情爆发之初合作开展了一项全球调研,99%的受访企业表示,通过使用虚拟客服技术降低了每次联系的成本,据估算每处理一次对话可节省 5.50 美元的成本,客户满意度因此提高了12%,客服满意度提高了9%,收入增长了3%。再根据IDC预计,全球范围内,自动客户服务代理和数字助理等对话式AI用例的支出投入,将从2019年的58亿美元增长至2023年的138亿美元,复合年增长率将达24%。

 

英伟达认为,企业部署虚拟语音助理对开发人员来说,挑战主要源于两方面:一是高质量的虚拟助理与最终用户体验直接相关,需要能够准确理解各种语言、方言和专业术语,并完成多轮对话。二是高性能和可扩展性是严格质量要求的一部分。当虚拟助理部署到数亿并发用户的规模时,作为性能权衡的一部分,控制大规模的延迟成了一项额外的工程挑战。而Jarvis有望帮助企业解决这些难题,更为容易地部署和开发特定功能,这在英伟达的客户中已经呈现出了初步的“雪球效应”: 

 

Voca是东芝、AT&T等全球领先公司的AI虚拟代理公司,Voca公司联合创始人兼首席技术官Alan Bekker表示:“低延迟对于呼叫中心至关重要。我们的虚拟代理能够在一秒内完成收听、理解并作出最准确的响应。现在,虚拟代理能够成功处理70-80%的呼叫,其中包括一般性的客户服务请求、付款交易和技术支持等。”

 

Kensho部署了可扩展的机器学习和分析系统,Kensho AI研究主管Georg Kucsko表示:“使用英伟达深度学习技术推进端到端自动语音识别技术,与不使用AI的传统方法训练新模型相比,在转录金融行业专业术语时的准确度得到了明显提高,无需几天,只需几分钟就能为客户提供及时信息。”

 

Scribe开发了针对金融行业和商业的语音识别解决方案。基于英伟达的对话式AI平台技术,在处理财报会议和类似财务音频方面的准确度,相较于其它的商业解决方案高出了20%。

 

平安科技作为Jarvis early access计划的早期合作伙伴,已经通过使用聊天机器人来处理每天数百万条的客户查询。通过预训练的模型NeMo和使用Jarvis优化的ASR,系统的精确度提高了5%。


结语

 

对话式AI正在连接一切。畅想一个未来:当你在和智能音箱谈论天气时,不仅仅是问“今天多少度?”当你说“我好热”,你的智能音箱会回答:“已经为您把空调调低2度”。它不止听懂了你的话、理解了你的意图,还能执行你所期望的操作。

 

长远来看,对话式AI其实就是为构建更有人情味的AI系统打基础。