提到人工智能,就离不开算力、算法和数据这三要素。近些年,随着算力平台的升级以及全球物联网带来的数据爆发,算法的注意力带宽开始不断延展。比如,人们不再满足于数字域下的人脸识别,而开始寻求连通模拟世界的“闻声识相”。


这是一种什么样的技术?简单来讲就是,当我们正在打电话或者听广播时,我们并没有看到对方的脸,但可以通过AI模型在几秒内描绘出对方的长相。


这听起来像是玄学,但却是有科学依据的。经研究表明,人脸和声音受到年龄、性别、种族、生理结构、语言习惯等共同因素的影响,两者的联系强烈而复杂多样。


 
图 | 人类说话靠的是声带的振动
图源:Cheddar,YouTube


简单来讲,人类讲话靠的是声带的振动,声带的长度和宽度会影响音调的高低,通常女性的声带较窄、音调较高,男性的声带较宽、音调较低,然而声带振动后,声音会在我们的胸腔里回转,大部分声音从喉咙里传出去,少部分声音通过我们的脸部,如颧骨、下巴、鼻子、嘴唇等的振动传出去。有趣的是,当我们脸部组成的结构、厚度不同时,发出的声音也会有所不同,这意味着除了语言、口音、语速、音调等体现民族、地域和文化特征的因素以外,声音和人脸之间存在着更深层次的联系。


有谁还记得,在《挑战不可能》第二季第三期中,来自四川大学的心理学教授王英梅在现场通过声音倒推影像的闻声识相绝技,在无法看到发声者的前提下,仅凭20秒的回答,从10位年龄相仿的女生中辨别出了其中3位发声者的长相,网友直呼佩服。


 
图 | 王英梅,《挑战不可能》第二季第三期
图源:Tensent


这年头,很多人能做到的事情,AI也能做到,甚至做的比人还好,“闻声识相”就是其中之一。比如,中科院和阿里安全就在琢磨这事儿,他们通过训练AI模型,研究表情和声音的潜在关系,从而找到声音的主人。


根据中科院计算所温佩松博士等发表在CVPR 2021中的论文《Seeking the Shape of Sound: An Adaptive Framework for Learning Voice-Face Association》显示,“闻声识相”或者“见人知声”本质上是基于深度学习和跨模态检索技术,将人脸图像和语音音频片段分别输入人脸编码器网络和语音编码器网络,根据身份的平均损失为提取的特征值分配不同的权重,并过滤掉个性化样本,然后使用两级模态匹配更新神经网络参数,从而找到声音和人脸的关联性。


 
图 | “闻声识相/见人知声”神经网络模型和训练流程
图源:《Seeking the Shape of Sound: An Adaptive Framework for Learning Voice-Face Association》


目前,在给定一段声音和仅含有一张正确人脸的若干张人脸图片的条件下,这套AI算法匹配声音和人脸的正确率约为87.2%,而相同条件下,人类判断的准确率约为81.3%,如果限定鉴别对象的性别,则准确率将降到57.1%,而AI的自由度和鲁棒性很好,因此准确率相当稳定。


 
图 | 声音和人脸匹配的准确率情况
图源:《Seeking the Shape of Sound: An Adaptive Framework for Learning Voice-Face Association》


图灵实验室资深算法专家华棠表示:“该技术后续可辅助用于AI虚假视频检测,保护用户的财产和信息安全。”比如,在网络贷款和实名认证中,骗子将无法利用盗取来的视频获取钱财。


事实上,不知中国的团队在做关于“闻声识相”的研究,美国、日本、爱尔兰、西班牙等国都在研究如何用音频构建人脸,也就是通过声音进行模拟画像,这将比单纯的声音、人脸匹配辨别还要高一个难度。


据悉,业内做的最好的人是卡内基梅隆大学的Rita Singh,她已经在这个领域深耕20余载,曾帮助美国海岸警卫队抓到过长期报假警的骚扰人员。


 
图 | Rita Singh致力于计算机语音识别核心算法,以及应用于语音取证的人工智能的研究
图源:cylab


她通过将报警电话中的语音分割成多个几毫秒的小片段,然后寻找信息点,靠着微弱的信号,不仅可以知道报假警人的大致长相,还能了解其周围的环境,比如房间的大小、是否有窗户、墙壁材料等,甚至还能通过电网波动产生的杂音与当地电网数据库匹配,定位到其确切的地理位置和挂电话的时间。


除了Rita Singh以外,还有一个有趣的案例我们不得不提,这个案例源自于一篇来自MIT团队的论文《Speech2Face: Learning the Face Behind a Voice》。顾名思义,这个研究团队给他们的AI神经网络取了个直观的名字“Speech2Face”。


 
图 | Speech2Face神经网络模型和训练流程
图源:《Speech2Face: Learning the Face Behind a Voice》


在Speech2Face中,研究人员以AVSpeech数据集(由YouTube上的数百万个视频片段组成,有超过10万人的语言数据)为基础,将人脸图像和语音音频片段分别输入人脸编码器网络和语音编码器网络,从中提取到低维的4096-D人脸特征,再关联人脸图像和语音的信息要点,然后通过一个经过单独训练的面部解码器模型将预测的面部特征解码成人脸的标准图像。


 
图 | 通过人脸解码器重建颅面特征
图源:《Speech2Face: Learning the Face Behind a Voice》
 
图 | AVSpeech 测试集的定性结果(左:视频截图原图,中:正面化、光照归一化后的人脸编码器重建结果,右:Speech2Face重建,即通过从音频中解码预测的 VGG-Face 特征来计算出的结果)
图源:《Speech2Face: Learning the Face Behind a Voice》


大家可以看到,通过Speech2Face重建的人脸图像在年龄、性别、种族和颅面信息方面与真实人脸图像的一致性还是很高的。不过无论是中科院计算所的温佩松团队,还是MIT的Speech2Face团队,他们也都强调了这些神经网络模型还处在进一步研究阶段,有时候也会翻车,因为有些人的声音是非常有特色的,会导致这些AI系统的误判。比如,有些变声前的男孩子会被当成女孩,声音嘶哑的男性会被当成老头,英语流利的亚裔会被当成白人等。


 
图 | 一些失败的案例
图源:《Speech2Face: Learning the Face Behind a Voice》


由于这项研究尚无法精确还原单一个体的脸部图像,所以当前通过语音识别进行人脸匹配和重建的技术更多地将被运用于辅助场景中,比如刑事案件中犯罪嫌疑人的画像、诈骗案中虚假视频的检测、电话银行中客户面容的预测等。


啥?电话银行中客户面容的预测?没错,未来电话银行可以利用类似的神经网络模型来预测客户的年龄、性别和所在地区等信息,以便针对不同的客户群体提供个性化的服务,提升营销水平。细思极恐,类似这样的应用场景非常多,难免有一种被泛人肉的感觉,以后还有谁敢随便接听电话?指不定AI悄悄就把我们给卖了,要不怎么说AI是把双刃剑呢,用的恰到好处是天使,用的超过边界就会变成魔鬼。