加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

NVIDIA利用AI强化机器合成语音拟真感

2021/09/17
279
阅读需 4 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

过去自动电话语音和 GPS 导航系统都只能发出生硬的机器合成声音,人工智慧(AI)可以协助让智慧型手机和智慧音箱中的虚拟助理呈现逼真的语调。不过,AI合成的声音和人们在日常对话及媒体中听到的真实人声之间,还是差了一点,原因在于人们说话时带有複杂的节奏、音调和音色,这是很难以 AI 仿真出来的。有鉴于此,NVIDIA的研究人员正在打造高品质、可控制的语音合成模型与工具,它们能捕捉人类口语中的丰富细节,又不会听起来人工感很重。

NVIDIA透过AI强化机器语音的拟针感

这些模型有助银行和零售商的自动语音客服,也能让电玩游戏或书籍中的人物更为生动,并即时为数位分身加上合成语音。NVIDIA内部的创意团队甚至运用这项技术,为一支介绍AI的系列影片制作出富有表现力的旁白内容。

表达性语言合成只是 NVIDIA Research 团队在对话式 AI 的其中一项研究,此领域还包括自然语言处理、自动语音辨识、关键字侦测、音讯增强等。这项研究成果的部分内容已透过NVIDIA NeMo工具套件成为开放原始码,可以在NGC容器及其它软体中心取得,并经最佳化调整,能在NVIDIA GPU上高效执行。

另外,NVIDIA的研究人员与创意专家将对话式AI导入该公司的《I AM AI》系列影片中,实际运用语音合成模型,介绍重塑各产业发展的全球AI创新者。过去的语音合成模型对于合成声音的节奏和音调控制能力有限,因此和真人旁白的影片相比,尝试以AI制作影片旁白无法激起观众的情感。

随着NVIDIA的文字转语音研究团队发展出更强大、控制能力更强的语音合成模型,透过RAD-TTS,使用个人说话的声音来训练文字转语音模型,可以将任何文字提示变成说话者的声音。声音转换是它的另一项功能,例如画面上是A在说话(甚至是唱歌),观众们听到的却是B的声音。设计RAD-TTS介面的灵感来源是将人的声音当成一种乐器,使用者便能够逐帧微调合成声音的音调、持续时间和能量。

影片制作人可以使用这个介面,录制自己读出影片脚本的声音,接著用 AI 模型将说话内容变成女性旁白者的声音。制作人可以再运用这个基本的旁白内容,像配音员一样指导AI并进行调整,让合成出来的语音强调特定字眼、修改旁白节奏,以更贴切地表达影片的调性。

该AI模型不只能用在配音上:文字转语音的功能还能用在游戏、协助声音机能或语言机能障碍者,或帮助使用者用自己的声音翻译不同语言;甚至还能重现著名歌手的表演,不仅可以配合歌曲旋律,还能配合人声背后所表达的情感。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
SS14-E3/61T 1 Vishay Intertechnologies Diode Schottky 40V 1A 2-Pin SMA T/R

ECAD模型

下载ECAD模型
$0.08 查看
SMBJ5.0A-13-F 1 Diodes Incorporated Trans Voltage Suppressor Diode, 600W, 5V V(RWM), Unidirectional, 1 Element, Silicon, SMB, 2 PIN

ECAD模型

下载ECAD模型
$0.33 查看
CRCW08050000Z0EAC 1 Vishay Intertechnologies Fixed Resistor, Metal Glaze/thick Film, 0.125W, 0ohm, Surface Mount, 0805, CHIP

ECAD模型

下载ECAD模型
$0.03 查看
英伟达

英伟达

为这个时代的达芬奇和爱因斯坦们提供超强计算性能。我们开创性地开发出一种超强计算形式,深受全世界对计算机有超高要求的用户的青睐,包括科学家、设计师、艺术家和游戏玩家。对于他们而言,我们的创造几乎可媲美时间机器。基于对更优质 3D 图形永无止境的需求以及当下庞大的游戏市场,NVIDIA 已在这个虚拟现实、高性能计算和人工智能的交叉口,将 GPU 发展为计算机大脑。

为这个时代的达芬奇和爱因斯坦们提供超强计算性能。我们开创性地开发出一种超强计算形式,深受全世界对计算机有超高要求的用户的青睐,包括科学家、设计师、艺术家和游戏玩家。对于他们而言,我们的创造几乎可媲美时间机器。基于对更优质 3D 图形永无止境的需求以及当下庞大的游戏市场,NVIDIA 已在这个虚拟现实、高性能计算和人工智能的交叉口,将 GPU 发展为计算机大脑。收起

查看更多

相关推荐

电子产业图谱

新电子科技杂志于1986年创刊,以中国台湾信息电子上下游产业的讯息桥梁自居,提供国际与国内电子产业重点信息,以利产业界人士掌握自有竞争力。 内容编辑方面,彻底执行各专栏内容质量,透过读者回函了解读者意见,调整方向以专业丰富的内容建立特色;定期举办研讨会、座谈会、透过产业厂商的参与度,树立专业形象;透过因特网丰富信息的提供,信息扩及华人世界。