过去自动电话语音和 GPS 导航系统都只能发出生硬的机器合成声音,人工智慧(AI)可以协助让智慧型手机和智慧音箱中的虚拟助理呈现逼真的语调。不过,AI合成的声音和人们在日常对话及媒体中听到的真实人声之间,还是差了一点,原因在于人们说话时带有複杂的节奏、音调和音色,这是很难以 AI 仿真出来的。有鉴于此,NVIDIA的研究人员正在打造高品质、可控制的语音合成模型与工具,它们能捕捉人类口语中的丰富细节,又不会听起来人工感很重。

 

NVIDIA透过AI强化机器语音的拟针感

 

这些模型有助银行和零售商的自动语音客服,也能让电玩游戏或书籍中的人物更为生动,并即时为数位分身加上合成语音。NVIDIA内部的创意团队甚至运用这项技术,为一支介绍AI的系列影片制作出富有表现力的旁白内容。

 

表达性语言合成只是 NVIDIA Research 团队在对话式 AI 的其中一项研究,此领域还包括自然语言处理、自动语音辨识、关键字侦测、音讯增强等。这项研究成果的部分内容已透过NVIDIA NeMo工具套件成为开放原始码,可以在NGC容器及其它软体中心取得,并经最佳化调整,能在NVIDIA GPU上高效执行。

 

另外,NVIDIA的研究人员与创意专家将对话式AI导入该公司的《I AM AI》系列影片中,实际运用语音合成模型,介绍重塑各产业发展的全球AI创新者。过去的语音合成模型对于合成声音的节奏和音调控制能力有限,因此和真人旁白的影片相比,尝试以AI制作影片旁白无法激起观众的情感。

 

随着NVIDIA的文字转语音研究团队发展出更强大、控制能力更强的语音合成模型,透过RAD-TTS,使用个人说话的声音来训练文字转语音模型,可以将任何文字提示变成说话者的声音。声音转换是它的另一项功能,例如画面上是A在说话(甚至是唱歌),观众们听到的却是B的声音。设计RAD-TTS介面的灵感来源是将人的声音当成一种乐器,使用者便能够逐帧微调合成声音的音调、持续时间和能量。

 

影片制作人可以使用这个介面,录制自己读出影片脚本的声音,接著用 AI 模型将说话内容变成女性旁白者的声音。制作人可以再运用这个基本的旁白内容,像配音员一样指导AI并进行调整,让合成出来的语音强调特定字眼、修改旁白节奏,以更贴切地表达影片的调性。

 

该AI模型不只能用在配音上:文字转语音的功能还能用在游戏、协助声音机能或语言机能障碍者,或帮助使用者用自己的声音翻译不同语言;甚至还能重现著名歌手的表演,不仅可以配合歌曲旋律,还能配合人声背后所表达的情感。