自动语音识别系统的普及和视频内容共享信息和经验的使用正在急剧增加。用于捕捉声音的麦克风的性能和质量必须高,以确保良好的用户体验。关键因素包括噪声、畸变、频率响应和元件匹配。

 

在之前的文章中,已经简单说明了,麦克风性能的特点通常是自噪声和动态范围。动态范围的上限由声学过载点(AOP Acoustic Overload Point)定义。下限由信噪比(SNR Signal-to-noise Ratio)定义。信噪比描述了麦克风的自噪声。麦克风只能在其自噪声层以上的声压级(SPL)下接收信号。因此,高信噪比的麦克风可以在比低信噪比的麦克风更低的声压下工作。本文,则集中于信噪比(SNR)和声学过载点(AOP),并解释了在语音识别和音频/视频捕获系统中具有高麦克风性能的好处。

 

麦克风输出中的噪声可以定义为任何不是预期输入源的信号,通常被认为是输出信号中不希望出现的元素。噪声水平越高,越会降低音频信号的质量。噪声可以来自麦克风外部,也可以来自麦克风本身。人们通常听到麦克风的自噪音作为一种嘶嘶声,影响感知的声音质量。对于算法来说,噪声会恶化信号的保真度,从而降低系统性能。

 

麦克风的噪声可以用不同的方式表达:

  • 自噪声(Vrms、dBV、dBFS)是麦克风本身在不受外界声音激励时产生的rms噪声电压。
  • 信噪比(SNR (dB))描述了麦克风相对于预期输入信号的自噪声。信噪比的测量通常使用一个标准的声学输入信号来表示想要的声音,一个94 dBSPL (1 Pa)正弦波

 

等效输入噪声EIN (dBSPL)是进入麦克风的(假想的)声学噪声水平,它相当于麦克风输出时的电子噪声水平。

 

所有现实生活中的音频传感器都是非线性系统,因为它们向通过它们的信号添加内容。在失真的情况下,增加的内容位于原始信号中出现的频率的谐波。失真通常以总谐波失真THD(如果包含自噪声则为THD+N)来测量。它是当麦克风被正弦波激发时,信号谐波中的能量(通常是第二到第五次谐波)与基频中的能量之比。测试信号通常是一个1 kHz的正弦信号,处于相对较高的声压级(SPL),通常为94 dBSPL或更高。THD以百分比(%)表示。声学过载点,AOP通常定义为THD超过10%的声压级。AOP的单元是dBSPL。

 

在大多数情况下,保持传入麦克风的声音的原始形式和内容是有益和重要的。在原始信号中加入内容,比如失真,可能会让听声音的人听起来不舒服。增加的能量越多(即THD值越高),感知到的音频质量就越差。失真还可能使语音识别系统等算法产生混淆,特别是对输入信号的内容进行非常详细分析的语音识别系统,失真造成的影响会更大。

 

图1 Acoustical SNR 信噪比示意

 

音频/视频录制的目的是捕捉来自受试者的传入声音,并将其复制到麦克风系统的输出中。当录音是为人类的耳朵,它是可取的电子输出信号匹配的声音信号尽可能接近,提供一个“自然”的声音记录。麦克风及其信噪比是声捕获信号链的关键部分,影响录音质量。下表给出了一些典型的用例。

 


在自然情况下,每增加一倍距离,声压减半(降低6分贝)。捕获的声源越远,到达麦克风的声音信号就越安静。由于麦克风的自噪声实际上是恒定的,输入信号电平的降低会导致麦克风输出信号的信噪比降低。通常,弱信号必须被放大,使其达到设备信号路径的适当水平。放大信号也会放大输出信号中的噪声。放大倍数越大,噪声上升到显著降低捕获信号质量的水平的风险就越大。

 

高麦克风信噪比有助于保持本底噪声是几乎听不见的,即使信号被放大。捕获距离越长,麦克风的自噪声越小,以避免出现问题。当距离很长且声源本身很安静时,这一点尤其重要。当每增加一倍的距离,声压会衰减6分贝时,使用高信噪比6分贝的麦克风,可以使捕捉距离加倍而不会降低信号质量。

 

POLQA (Objective Listening Quality Assessment)是一种ITU-T标准模型,它使用数字语音分析来客观地确定录制语音信号的质量和可理解性。高信噪比的麦克风在POLQA测试中表现明显更好,并具有更好的语音清晰度。当用高信噪比麦克风记录信号时,同一水平的信号更容易理解。

 

和SNR一样,AOP也是一个重要的音频/视频质量因素。失真很容易使视频记录变得无用。网上有很多在流行音乐/摇滚音乐会上拍摄的智能手机视频,由于音频失真严重,无法观看。如果预期声音(或干扰声音)的传入声压水平高或非常高,则高AOP可以改善声音质量。高AOP帮助麦克风系统处理传入声音信号中可能出现的非常高的信号峰值,即使平均声压水平不是非常高。参见下表中的一些典型用例。

 


直到几年前,消费电子设备麦克风AOP的标准水平还在110到120 dBSPL之间。在最近的过去,AOP的需求已经上升了。为了确保音质和语音识别性能满足客户的要求,设备设计者应该选择AOPs接近或高于130 dBSPL的麦克风。在较低的声压水平下,观察比为AOP指定的10%更低的THD水平更有意义。除了拥有高的AOP之外,THD保持在低水平(低于2%)也很重要,对于预期的应用程序(例如,高达120 dBSPL), THD应该达到足够高的声压级。

 

在系统中,所捕获的声音用于算法时,声音质量目标可能与信号用于人耳时不同。信号并不一定要听起来很自然,只要它是为算法优化的。不管用例是什么,保持信号不受干扰、工件、失真和噪声的影响总是很重要的。

 

自然语音识别(ASR)是将语音信号自动转录成文字的任务。转录正确率越来越接近人类水平,大约为95%。然而,到目前为止,只有在环境条件良好的实验室里才有可能达到这个水平。在现实生活环境和远距离语音识别涉及一些重要的声学挑战,如背景噪声、混响、回声消除和麦克风定位。仅仅有一个好的语音识别引擎是不够的。系统中的每个元素都应该以高标准执行,以防止出现质量瓶颈。麦克风的工作是提供语音识别系统最好的输入信号。 高输入信号质量有助于ASR系统分析传入的声音,并找到其中的特征,从而识别语音内容。关键参数包括噪声、畸变、频率响应和相位。

 

高AOP可以帮助在嘈杂环境中的语音识别系统。有时,语音信号本身并不强,同时存在其他干扰。例如,在语音控制的家庭娱乐系统和数字助理中,有靠近麦克风的扬声器,可以输出响度大的音乐或语音信息。高AOP有助于保持低失真,改善噪声和回声的消除。

 

距离语音源越远,输入到ASR算法的信号的信噪比越低。因此,当目标捕捉距离越长,麦克风信噪比越高。

 

语音识别系统的一个关键功能是能够忽略非待转录语音的声音和噪声。音频/视频捕捉和人与人之间的沟通质量也可以通过从信号中排除不需要的声音来提高。目标是增加信噪比,在这种情况下,信噪比是想要的声音(信号)与不想要的环境声音(噪音)的比率。

 

将多麦克风与算法相结合,可以实现噪声消除和方向性。定向传声器系统,如波束形成,可以集中麦克风对所需方向的灵敏度和突出所需的声源。不需要的声音也可以根据参数取消,如两个麦克风之间的水平差异。盲源分离是一种更为复杂的降噪系统。它可以消除与方向、距离和位置无关的噪声。所有这些噪声消除方法都得益于其接收信号的准确性和高质量。麦克风应具有高信噪比,低失真,平坦频响(也改善了相位响应)和低群延迟。

 

为了优化噪声消除算法的功能,系统中使用的麦克风应该具有相同的特性。麦克风与麦克风匹配的作用至关重要。麦克风之间的灵敏度、相位特性和延迟的差异越小越好。

 

从2005年到2015年,最先进的麦克风在大众市场消费电子设备的信噪比从低于60分贝提高到约65分贝。随着新的高性能语音识别系统和其他捕获用例的需求,即使65 dB也不再足够了。目前高端麦克风的信噪比接近70分贝。


高麦克风性能是实现高语音识别和音频捕获质量的关键。自动语音识别算法和相机等技术的性能正在迅速提高,设备购买者对用户体验的期望也在提高。避免麦克风成为改进瓶颈是很重要的。幸运的是,现在有高性能的麦克风。噪声性能在过去的几年中有了显著的提高。随着AOP达到130 dBSPL的标志,SNR已经超过了70 dB的水平,而质量下降的失真正在成为过去。这种水平的麦克风性能有助于充分提升设备整体表现。