基于TMS320VC5509A的语音识别与控制系统
语音识别(Speech Recognition)是机器通过训练和匹配过程把语音信号转变为相应的文本或命令的技术。关于语音识别技术,先后出现了动态时间弯折(DTW)、隐马尔可夫和人工神经网络三种主要方法[1]。由于每种方法都涉及大量的乘加运算,并且计算精度是算法性能的有效保障,因此对处理器的运算能力要求较高。近年大规模集成电路的快速发展,为语音识别的实现创造了硬件条件。目前,基于DSP的语音识别系统多以浮点型DSP为主[2],但其成本较高。本文以TI公司的较低成本定点DSP TMS320VC5509A作为处理芯片。在软件编程时,考虑运算速度和精度对性能的影响,将定点运算与基于定点DSP的浮点运算巧妙结合,既保证了处理速度,又提高了运算精度和识别率。此外,该系统的DSP芯片自带USB接口,可使程序下载不借助于硬件仿真器,便于推广应用;可编程逻辑器件(CPLD)能够根据识别结果发出相应的控制信号以驱动各种控制对象;外扩Flash达1M×16Bit,不仅能存储较多数量的模板,也可实现程序的并行加载,使系统能够脱机运行,便于携带。通过对语音信号的采集与识别,能够完成对特定人、小词汇量、孤立词的识别,并且能发出相应的控制信号,以达到系统的设计要求。实践验证了该系统具有可靠性、稳定性和灵活性。
1 语音识别原理
语音识别原理框图如图1所示。语音信号输入之后,预处理和数字化是进行语音识别的前提条件。其中,预处理主要是进行预滤波,保留正常人的300~3400Hz的语音信号;数字化是要进行A/D转换及抗混叠等处理;特征提取是进行语音信号训练和识别必不可少的步骤。能够体现语音信号特征的参数包括:(1)基于LPC的倒谱参数;(2)Mel系数的倒谱参数;(3)采用前沿数字信号处理技术的特征分析手段,如小波分析、时/频域分析、人工神经网络等。本文采用基于LPC的倒谱参数表示方法,提取出的特征值存入参考模式库中,用来匹配待识别语音信号的特征值。匹配计算是进行语音识别的核心部分,由待识别人的语音经过特征提取后,与系统训练时产生的模板进行匹配,在说话人辨认中,取与待识别语音相似度最大的模型所对应的语音作为识别结果,这就是语音识别的整个过程[1]。
本系统的硬件结构框图如图2所示。
TLV320AIC23是TI公司的一款低成本、低功耗的音频编解码芯片(CODEC),在本系统中负责采集语音信号。它与本系统相关的性能参数如下:(1)支持8kHz~96kHz可调采样率;(2)与DSP连接,主从类型可通过软件编写来实现;(3)DSP可通过I2C总线来配置TLV320AIC23的寄存器;(4)采集语音信号字长16/20/24/32Bit;(5)MIC音频输入具有强抗噪性;(6)具有可调1~5dB的完整缓存放大系统[4]。
1 语音识别原理
语音识别原理框图如图1所示。语音信号输入之后,预处理和数字化是进行语音识别的前提条件。其中,预处理主要是进行预滤波,保留正常人的300~3400Hz的语音信号;数字化是要进行A/D转换及抗混叠等处理;特征提取是进行语音信号训练和识别必不可少的步骤。能够体现语音信号特征的参数包括:(1)基于LPC的倒谱参数;(2)Mel系数的倒谱参数;(3)采用前沿数字信号处理技术的特征分析手段,如小波分析、时/频域分析、人工神经网络等。本文采用基于LPC的倒谱参数表示方法,提取出的特征值存入参考模式库中,用来匹配待识别语音信号的特征值。匹配计算是进行语音识别的核心部分,由待识别人的语音经过特征提取后,与系统训练时产生的模板进行匹配,在说话人辨认中,取与待识别语音相似度最大的模型所对应的语音作为识别结果,这就是语音识别的整个过程[1]。

本系统的硬件结构框图如图2所示。

TLV320AIC23是TI公司的一款低成本、低功耗的音频编解码芯片(CODEC),在本系统中负责采集语音信号。它与本系统相关的性能参数如下:(1)支持8kHz~96kHz可调采样率;(2)与DSP连接,主从类型可通过软件编写来实现;(3)DSP可通过I2C总线来配置TLV320AIC23的寄存器;(4)采集语音信号字长16/20/24/32Bit;(5)MIC音频输入具有强抗噪性;(6)具有可调1~5dB的完整缓存放大系统[4]。
文章出处:电子技术应用 作者:关胜平,何培宇,刘珂含
