什么样的语音项目,能拿“中国 AI 最高奖”?

 

不久前,中国唯一国家级的人工智能科技奖——吴文俊人工智能科学技术奖,公布了最新一届的获奖名单。

 

 

而在人工智能自然科学奖的 5 个一等奖中,唯一一项语音相关的奖项,花落上海交通大学。这也是语音领域的研究成果第一次获得吴文俊人工智能科学技术奖的一等奖。

 

获奖人分别为:

钱彦旻,上海交通大学计算机科学与工程系副教授、思必驰上海交通大学智能人机交互联合实验室副主任;

 

俞凯,上交大计算机系教授、思必驰首席科学家;

 

谭天,上交大博士毕业、思必驰语音技术研发工程师;

 

刘媛,上交大硕士毕业。

 

不过稍微熟悉产业的盆友也知道,这个团队除了“上海交大”的底色,还都有独角兽思必驰的影子。

 

团队获奖所凭借的技术成果,叫“鲁棒语音信号模式分析与识别的深度结构化建模理论与方法”。

 

这到底是一项怎样的新技术?

 

斩获”AI 最高奖”的语音技术

在语音分析与识别中,传统的用深度学习建模方式,主要是堆叠神经网络层数和神经元单元,或通过增加数据来提高性能。

 

但这种方式的一个缺点,就是往往不具备可解释性。

 

而钱彦旻团队的工作,便是将结构化的方法引入到模型设计和优化中,通过引入结构赋予神经网络更强的物理含义和参数解释,并利用人脑的听觉相关机理来指导这种结构的设计。这就会让其更具备可解释性,使得语音模型的优化目标更高效,最终提升语音信号分析与识别系统在各个场景下的鲁棒性。

 

进一步而言,主要分为三个主攻方向,分别是从信道、环境和人来做的差异化工作。

 

在“信道”和“环境”方面,二者的研究往往是相伴相随,钱彦旻团队的研究集中在了对它们的表示与感知。

 

例如 2016 年和 2018 年发表在顶刊 IEEE TASLP 上的 Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition 和 Adaptive Very Deep Convolutional Residual Network for Noise Robust Speech Recognition,便让语音识别在噪声环境下的也具有较好的鲁棒性。

 

 

钱彦旻团队首先在 2016 年的研究证明了极深卷积神经网络(VDCNN),具有优越的自主抗噪鲁棒性。

 

 

然后在 2018 年,在以上这项研究基础上,提出了一种更先进的模型,称为极深卷积残差网络 (VDCRN),并通过感知自适应技术,使得模型可以对环境变化做自动的调整。

 

 

简单来说,这个模型结合了批处理归一化和残差学习,比刚才提到的 VDCNN 具有更强的鲁棒性。

 

而这项研究的重点集中在了因子感知训练(FAT)和聚类自适应训练(CAT)上。

 

对于 FAT 来说,团队探索了一个统一的框架,如上图所示。

 

至于 CAT 方面,则是提出了两种方案来构建规范模型,如下图所示。

 

 

最后,为了在嘈杂场景下获得最佳的系统性能,还提出了一个完整的多系统融合框架。

 

实验结果表明,新的 VDCRN 具有更强的鲁棒性,对该模型的自适应能进一步显著降低单词错误率。

 

 

特别是在 Aurora4 上,仅通过改进声学建模,就达到了 5.67%的新里程碑。

 

 

人,在语音识别过程中,也是一个非常重要的因素之一。

 

换言之 ,如何将一段语音中的人和人之间的区别,通过参数化的表示,在数学层面上展现出来。

 

在这方面,钱彦旻团队也做了相应的工作,早在 2015 年便发表了题为 Deep feature for text-dependent speaker verification 的研究。

 

值得注意的是,这项研究在 2019 年获得了语音领域权威期刊 Speech Communication 的最优论文奖。

 

 

这项研究为了让深度学习模型更好地融入到“说话人”的验证过程中,提出了从深度学习模型中提取更有说话人鉴别能力的新方法。

 

与传统的短时谱特征(例如 MFCC、PLP)不同的是,钱彦旻团队采用了各种深度模型隐含层的输出作为深度特征,进行文本相关“说话人”验证。

 

具体而言,一共包括四种类型的深度模型:

 

深度受限玻尔兹曼机(deep RBM)

 

语音判别深度神经网络(speech-discriminant DNN)

 

说话人判别深度神经网络(speaker-discriminant  DNN)

 

多任务联合学习深度神经网络(multi-task joint-learned DNN)

 

 

一旦深度特征被提取出来,它们可以在 GMM-UBM 框架或示性向量(如,i-vector)框架内使用。

 

与此同时,团队还提出了“联合线性判别分析”和“概率线性判别分析”,作为基于示性向量深度特征的有效后端分类器。

 

实验结果表明,无论是直接应用于 GMM-UBM 系统,还是作为示性向量使用,基于所提出的结构化深度模型的新表示特征方法与传统基线相比,都能获得显著的性能提升。

 

 

当然,好的技术不能仅仅停留在实验室中的“结果数据”,更应该有落地,应当服务于人。

 

如此技术,能给我们带来什么?

这个拿了“AI 最高奖”的语音团队,除了在学术界取得了成功之外,其实也是有实实在在的技术落地。

 

团队成员的获奖成果均来自于他们在思必驰上海交大智能人机交互联合实验室中的校企联合研究工作,钱彦旻在联合实验室担任副主任一职。

 

在量子位与钱彦旻交流过程中,他表示:

 

因为上交大与思必驰有联合实验室,所以会做学校研究到产业的成果应用转化。

 

这就使得我们在定义科学问题、研究方向的时候,会更加务实。

 

具体而言,实验室会根据产品在现实生活中遇到问题,提炼出真实需要去解决的研究方向和问题。

 

例如,在 2019 年 1 月 23 日晚,中央电视台《经典咏流传》第二季节目中,出现了一款“读诗成曲”的在线互动小工具。

 

用户只需要朗读一段诗词,就可以听到用自己声音演唱的经典诗词唱段。

 

这一技术采用的正是联合实验室提供的个性化歌声合成算法。

 

 

当然也有更加贴近生活的案例,例如车载系统。

 

作为思必驰重要合作伙伴,小鹏汽车 P7 进行了 “全场景语音”功能的升级。

 

 

采用思必驰全链路语音交互技术,语音操控即可进行导航、拨打电话、音乐播放、控制空调及语音聊天,全双工语音交互,一次唤醒多轮对话,支持语义打断,打造“持续倾听 连续指令”的自由交互方式。

 

我们所熟知的像长城哈弗系列、北汽 X7、荣威 RX5MAX 等多款车型,也均在各自不同的智能系统中,采用了来自思必驰的语音技术。据悉,目前思必驰已与北汽、一汽、上汽、五菱、东风等企业建立了合作。

 

更加贴近生活的智能家居方面 ,我们正在使用的各种产品中,也均有思必驰语音技术的身影。

 

海信 S7F 社交电视走进客厅生活。

 

 

该产品采用了思必驰 TH1520 芯片作为 AI 语音交互专用协处理器,配合思必驰线性四麦阵列前端信号处理算法及思必驰语音识别(ASR)、语音合成(TTS)等技术,实现语音交互。

 

在语音芯片等领域,思必驰的语音技术也有布局。

 

这也印证了钱彦旻在总结“基础原始创新实力、前沿创新能力”时的表述:

 

思必驰深耕于人机交互技术的研发,提供更加人性化的非配合式端到端人机对话式交互系统。

 

在鲁棒高效精准的语音识别与转写、个性化的语音合成和表达、精细化的富语言信息的分析与提取、场景上下文感知的对话交互、多模态的感知 / 识别 / 对话、声学场景的分析等方面,都有深入的探索和先进算法的落地。

 

目前,基于人机对话式交互系统,思必驰已经在智能车载前装 / 后装、智能家居、智能电子 / 穿戴、智慧政务 / 办公、智慧金融等领域进行了深入布局,并得到了广泛的应用。

 

不难看出,思必驰上海交通大学智能人机交互联合实验室,拥有的不仅是中国“AI 最高奖”语音方面的硬实力,更是将这种能力交付到了实际生活当中。

 

但无论是哪一方面的成就,背后都离不开团队成员对语音技术的热爱与坚持。

 

从懵懂入局,到深耕语音十余载

钱彦旻,便是让团队走向中国 AI 语音技术巅峰的领军人物之一。

 

 

钱彦旻是上海交通大学计算机科学与工程系副教授、博士生导师,同时也是思必驰上海交通大学智能人机交互联合实验室的副主任。

 

博士毕业于清华大学,之后曾在英国剑桥大学工程系 MIL 机器智能实验室深造,做博士后研究,回国后在上海交通大学计算机系任副教授。目前在语音技术领域已经发表学术论文 150 余篇,并多次获得最优论文奖励。

 

与此同时,他还是全球最流行的语音识别开源工具包 Kaldi 13 位创始人之一。

 

但在量子位与钱彦旻的交流过程中却发现,钱彦旻在语音技术上的造诣与成就,并非一开始的兴趣使然。

 

而关于钱彦旻与语音技术的故事,要从 2007 年开始讲起。

 

那时的他刚刚开启博士生涯,至于专业方向的选择,则是由其在清华的导师刘加教授推荐。

 

也就是在这时,便与语音技术有了初次的邂逅。

 

而刚入局的钱彦旻,用他自己的话说便是“瞎折腾”,博士在读 2 年后,才慢慢地做到了独立探索和深入研究。

 

也形成了适合自己的一套研究方法,可以对于一个语音技术的“点”,由浅入深,做比较深入、全面的研究。

 

在博士毕业之后,也就是在上海交通大学和英国剑桥大学期间,对于钱彦旻个人来讲,是在语音技术多个领域中快速深入推进研究的一个阶段。从博士期间专攻语音识别一个方向,扩展到了语音分类、抗噪、感知、声纹、多模态等语音技术的多个方面。

 

也就是在与语音技术一点一滴的接触过程当中,钱彦旻从一个“懵懂”的状态,逐步转变到了“热爱”。

 

于是,从 2007 年算起,这一入局,便深耕了 13 年之久。

 

在此过程中,除了刘教授之外,钱彦旻还提到了另外一个对他意义非凡的人,他便是 Kaldi 之父——Daniel Povey。

 

 

Daniel 在钱彦旻读博士期间给予了非常大的帮助,细到会帮钱彦旻看到代码,指导他“将某个参数从 1.0 调到 2.0 试试”这种程度。

 

甚至 Daniel 邀请钱彦旻出国一起参加 Kaldi 的开发,都是自掏腰包,极其慷慨的“包吃住”,为的就是共同专研探讨语音技术。

 

用钱彦旻的话来说:

 

他做人做事风格,人格的魅力,对科学的专注态度,也帮助我更加明确了研究后期的一些方向,坚定了自己的理想,也给予了我做这个方向的勇气和决心。

 

而作为此次获得“AI 最高奖”的语音团队,站在 2021 年的开始,钱彦旻也对语音技术将有的一个趋势做了预测。

 

他认为深度学习在语音技术上的可解释学习还是不够,在这个过程当中具体都做了哪些事情还是不够清晰。

 

而这也是钱彦旻团队能够获得此次奖项的主要原因,他们的研究让模型设计更具有物理含义,所达到的性能也更优。

 

钱彦旻也谦虚地表示,他们的工作也只是对该方向的一个贡献,还需要科研人员持续、不断地深入研究。

 

参考论文:

Yanmin Qian, Mengxiao Bi, Tian Tan, Kai Yu. Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 12, 2263-2276, 2016.

 

Tian Tan, Yanmin Qian, Hu Hu, Ying Zhou, Wen Ding, Kai Yu. Adaptive Very Deep Convolutional Residual Network for Noise Robust Speech Recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 8, 1393-1405, 2018.

 

Yuan Liu, Yanmin Qian, Nanxin Chen, Tianfan Fu, Ya Zhang and Kai Yu. Deep Feature for Text-dependent Speaker Verification. Speech Communication, vol. 73, 1-13, 2015.