家庭网络已经从个人计算机联网逐渐演化成包括高级安全和自动化应用在内的更为复杂的系统。家庭网络一度曾是高端豪华住宅的专利,但现在已经开始更多地应用于普通家庭。这些网络将暖气、空调、灯光、家电、娱乐、内部通信、电信、安全和监控系统整合为一个易于操作的统一网络。

基于语音识别的交互式应用(例如综合门禁安全系统以及家电控制功能)是家庭自动化网络的主要特点。此类交互式功能依赖于高质量的语音处理技术,包括声学回声消除、低信号失真和噪声抑制技术。一个设计良好的家庭自动化系统还必须具备扩展能力、为未来发展预留空间、能够灵活地支持现场升级、支持交互式应用、易于使用、成本经济并且非常可靠。

本文介绍了一些家庭自动化系统面对的独特的语音质量性能问题和设计挑战。文中将讨论基于语音处理的家庭自动化网络应用,研究有助于降低设计复杂性的一些关键特性和功能,并分析增强性能对成本的影响。

家庭自动化应用中的语音处理

家庭自动化市场正在从高端豪华家庭进入主流消费群体。尽管目前这一市场仍然处于初期,研究人员依然估计其市场将超过10亿美元。在亚洲、欧洲和北美洲,家庭自动化市场正在以每年10%的平均速度迅速发展。仅欧洲市场,2009年对家庭自动化系统的需求就会翻一翻,达到5亿美元。随着市场的发展,家庭自动化系统本身也不断演化,涉及蓝牙、Wi-Fi、X10、ZigBee和TCP/IP等多种技术。

随着市场和技术的不断成熟,高质量语音处理性能对家庭自动化和安全应用变得越来越重要。语音交互是统一家庭网络的支撑性技术,广泛用于控制家电、通信、安全和娱乐设备。与其它交互方式相比,利用人类语音控制设备让最终用户感觉更舒服更自然。

声学回声消除功能不够好、环境噪声和信号失真使家庭自动化系统可靠工作变得越来越困难。如果语音处理性能达不到要求,语音识别功能就无法正确检测到命令并相应地开/关家电,而语音认证功能也可能失灵,导致用户无法方便地进入自己的家。

电话和内部通信集成

家庭自动化系统越来越多地将电话通信和内部通信功能集成起来。在有些系统设计中,内部通信面板成为主要的通信工具,可用于住房访问监控和免提电话。因此,语音通信技术成为整个系统的重要方面。

高质量免提电话的一个重要特点就是全双工操作和良好的双方同时通话性能。全双工系统支持双向语音信号同时传输,因此交谈更为自然。而半双工系统在双方同时讲话时,只允许功率水平高的一方信号通过,另一方信号被切断。因此同一时间只能有一方的讲话被对方听到,并且通话是断续的,不够自然。

在全双工系统中,如果算法在双方同时讲话的情况下能够连续会聚,就能够获得良好的声学回声消除性能。当算法连续会聚时,随着信号源的移动,算法会跟踪回声路径中的变化。如果算法在双方同时讲话时停止会聚,当双方同时讲话停止时又恢复会聚,那么在算法重新适应新的回声环境时用户会听到猝发回声。

对于数字免提电话来说,获得高质量通话的另一个方面是编码/解码器(CODEC)的选择。正是编码解码器完成信号从数字到模拟的变换,以及反向变换。传统的中等质量数字电话采用窄带编码解码器和8kHz的采样频率。宽带编码解码器采样频率加倍(16kHz),能够采集更多人声分量,从而支持更高的话音质量。

设计高性能系统

1. 克服塑料外壳带来的物理限制

小型内部通信面板由于不占用额外空间,因此越来越多地在家庭设计中得到应用。但受限的面板尺寸会对塑料外壳的设计、麦克风和扬声器的选择、布局和隔离作出很多限制。

在理想系统中,扬声器和麦克风间的隔离应当尽可能好,才能达到最优的性能。但在小型塑料外壳中,两者之间隔离较差带来额外的声学耦合,也意味着更大的回声。

设计人员面临的挑战是既要选择较小的扬声器来适应塑料外壳中的有限空间,同时又要满足大输出音量要求。因此设计人员被迫将小型扬声器驱动到非线性范围。这将导致塑料外壳中的总谐波失真增加。

为解决这一问题,设计人员需要语音处理解决方案能够处理回声路径中的更多失真,从而补偿较差的扬声器性能。能够消除线性和非线性回声的算法允许设计人员驱动更大的扬声器音量,同时还可将失真降到最小。非线性回声消除器将线性回声消除器残留的回声信号与参考信号进行比较,然后减去估算的频率成份。

图1显示的是线性和非线性回声消除的功能框图。该电路能够消除线性回声和非线性失真成份。这样系统就能够避免由于回声路径中的失真而导致声学回声消除性能变差。


图1:线性和非线性回声消除框图。

如果设计人员被迫在非优化的塑料外壳设计中使用小型扬声器,那么在扬声器路径中采用多频段均衡器也可以提升总体性能。均衡器能够减轻由于小型扬声器在低频时频率响应差而导致的较大低频失真(图2)。

 


图2:小型扬声器的典型频率响应。

好的声学回声消除器能够处理回声路径中的增益,同时不断跟踪回声源的变化,而不必退回到半双工方式。容许回声路径中较大的增益(至少10dB),设计人员就可以使用更大的扬声器和更敏感的麦克风。同时好的声学回声消除器能够在耦合更大的情况下工作,因此还可以减少塑料外壳设计的限制。

2. 降低噪声

有些设计人员认为双麦克风系统是获得高性能所必需的。但为了降低总体材料清单成本和系统总成本,简化系统设计和算法调整,目前绝大多数设计都使用一个麦克风。设计人员必须找到能够提供良好噪声抑制性能并最小化失真的算法。

与传统方法相比,心理声学噪声抑制技术进一步改善了噪声抑制性能。采用这一技术,系统设计人员能够使用一个麦克风以较低的成本获得较高的性能。

传统的噪声抑制方法对整个频谱中的所有信号进行建模,然后再将不需要的信号从总信号中移除,这种方法在抑制噪声的同时也降低了信号完整性。

心理声学噪声抑制技术依赖于人类对噪声的感觉,因此仅仅抑制信号中人耳最容易注意到的噪声成份。该算法有别于纯噪声信号和混合语音信号的噪声。它尽可能地衰减远离语音频段中话音分量的噪声成份,同时对于频段中离语音分量较近的噪声分量则不进行衰减。靠近语音成份的未经衰减的噪声分量通常被语音信号所掩盖,这意味着最终用户很少注意到这部分噪声。图3给出的是心理声学噪声抑制图。

 


图3:心理声学噪声抑制尽可能地衰减信号中那些人耳更容易注意到的噪声分量。

设计可扩展的系统

好的家庭自动化系统是可扩展的,能够根据最终用户需求的变化进行扩展。同时设计人员只需要开发一个平台就可以获得多种变种,不需要每次重新进行硬件设计。

要设计一个可扩展的系统,设计人员需要可编程且可现场升级的语音处理解决方案。要跟上系统的快速演化,持续满足对新功能和更高性能的需要,这些都是非常关键的系统设计要求。图4给出了一个现场可升级语音处理解决方案的例子。

 


图4:现场可升级语音处理解决方案的例子,设计人员可以在现有硬件基础上支持更广泛的功能。

家庭网络的发展,特别是家庭网络在大众住宅市场的普及,使其越来越依赖于语音技术来提供用户友好的界面。灵活的现场可升级的语音处理解决方案支持未来系统升级,例如录音、验证、识别、信息和提示等新功能。

高级家庭自动化系统都拥有交互式界面并使用语音/话音识别和提示来方便用户操作家电产品,此外还提供更高级的家庭安防系统。

语音识别将麦克风捕捉到的声学信号转换为一组命令。语音识别系统的复杂性差别很大,可以根据讲话模式(词与连续语音)、培训(特定人员声音相关还是无关)和词汇量(大还是小)来进行区分。

有些系统需要训练来适应用户声音、语调和词汇,从而提高准确度。相比与用户声音无关的系统,此类系统能够更好地预测正确的功能。语音识别算法的折衷表现为响应时间与词汇量的大小、总体质量与存储器容量和处理器速度。支持大词汇量的算法需要较长的响应时间。高质量算法也需要更多存储器和处理器能力。

认证过程是从语音提示开始的。系统提示用户说一段预先编程在系统中的句子或短语。在验证用户声音以后,系统提示用户输入密码。认证过程在不同系统之间的差异可能很大。有些系统仅依赖语音验证技术,但这些系统更脆弱,因为语音验证本身容易被录音所欺骗。其它系统结合生物特征和用户信息验证来提供更高的安全性。

高性能语音处理对于保证系统正常工作至关重要。回声、环境噪声和失真极大地影响到语音识别和身份验证应用的性能。

支持更高集成度

随着终端功能提升、塑料外壳变得更小更精密,进一步集成的需求非常迫切。由于设计人员需要在更小的外形内实现更多的功能,节约板级空间是系统设计人员的最重要任务之一。

要设计一个好系统,集成了编码解码器并能够利用固件功能(如DTMF、主叫ID、音频发生等电信信令)代替外部器件的可编程解决方案非常关键。此类解决方案能够代替目前系统设计中使用的众多独立器件。

卓联半导体公司开发的系统单芯片器件就瞄准了高性能免提通信应用,包括家庭自动化系统中的应用。

该公司最新的免提电话解决方案是一个专用的语音处理器,结合了集成双通道宽带编码解码器和多种接口。这些器件支持高级回声消除、心理声学噪声抑制、全双工操作,非常灵活并且现场可升级。该芯片采用的专用软件算法即使在双方同时讲话时也可连续跟踪回声路径中的变化,可降低背景噪声并保持高话质。

这一解决方案基于灵活的平台,即支持提供基本功能的入门系统,也支持提供高级功能的高端系统。利用这一现场可升级的解决方案,设计人员可以构建平台性设计,在未来系统升级时不必重新进行硬件设计。

本文小结

一度曾经是豪华高端住宅标志之一的家庭自动化系统目前正在进入普通住宅之中,并将逐渐成为新建以及现有家庭的标准。传统的家庭自动化设计采用非常基本的语音处理技术来提供半双工免提通话功能。随着终端集成免提电话功能,并且家庭安全系统也依赖语音验证和识别技术,高性能语音处理解决方案已成为家庭自动化系统设计中的关键。

为保持低材料成本并获得高性能,常用的单麦克风系统需要支持高级噪声抑制技术(如心理声学噪声抑制)的语音处理解决方案来提供比传统噪声抑制更高的性能并减少失真。

为了在小型塑料外壳内获得高性能,设计人员需要将小型扬声器驱动到非线性范围才能够满足人们对语音的要求。能够解决设计人员问题的算法必须能够消除非线性回声并处理回声路径中的增益和失真。

对于可行的语音处理解决方案来说,高集成度、现场可升级能力和灵活性也是关键因素。高集成度可以降低多个部件接口的复杂性并降低材料清单成本。现场可升级能力和灵活性允许设计人员不必改变硬件即可不断增强和增加系统功能。