有数据显示,到2020年,全球语音市场规模预计将达到 191.7 亿美元。语音识别作为研究人工智能的方向之一,随着语音交互技术的发展,语音AI芯片也随之诞生。现在不论是互联网巨头,还是AI 初创公司,都陆续宣布进军芯片领域。
 
回头看国内车载语音市场,真正开始发展可以说是在2013年。在此之前,车内语音部分的运用最多也就是听音乐和广播,虽然车载语音已经出现,但系统还处于初级阶段,准确率还不够高,市场普及度很低。
 
2013年是一个转折点,行业开始变革,更多人开始关注车载语音市场的发展。2015年之后侧重云端方向,和智能汽车、车联网的发展方向相关,产品形态也越来越标准。
 

1.jpg

 
2016年,随着人工智能领域的发展,很多公司在智能语音部分加大了力度, 特别是对语音芯片的研发。今年更是语音芯片“爆发”的一年,并且在之后的一段时间,语音芯片还会持续作为热点。
 
多场景、低功耗
 
不同的语音技术公司研发语音芯片的考虑可能都不太一样,大体上来讲有几方面原因。
 
首先是快速集成和低功耗的需要。语音芯片能够更好地将本地功能进行集成,同时由于现在涉及深度学习的计算量巨大,终端设备对功耗的要求也很高,低功耗的芯片成为市场需求。
 
其次是IoT时代下多样化场景的需要。物联网场景下,设备形态是多样化的,需要一个硬件载体,成本低,算力强,同时能承载多样化终端设备的需求,芯片在这个过程中扮演着核心的角色。
 
此外还有盈利的目的。任何语音技术公司,推出产品或者技术、以及软硬件一体化的方案,最终都是为了盈利。研发语音芯片也不例外,现在正是物联网时代推动产品落地的时间点,增加硬件功能之后的产品会带来更高的市场效益。
 
语音芯片,从IOT到车载
 
不久前,云知声,思必驰、出门问问等语音技术公司相继发布了自己的AI芯片计划。
 
5月16日,云知声发布了首款面向物联网领域的AI芯片UniOne,同时,亿咖通和云知声签署了战略合作,将携手在UniOne芯片的基础上打造车规级AI芯片,这一芯片可以为用户与车之间提供更深层次的智能语音交互能力。
 
5月24日,出门问问发布了国内首款已经量产的AI语音芯片模组“问芯”Mobvoi A1,它可以帮助传统家电厂商获得远场语音交互的能力,之后会在创维电视和微鲸电视上实现合作落地。
 
6月26日,智能语音技术公司思必驰宣布已完成新一轮融资,并宣布已与某芯片巨头在AI芯片方面达成合作,双方将成立合资公司,并且适用于智能语音交互的AI芯片已在研发过程中。  
 
虽然语音技术公司陆续宣布自己在研发语音芯片,但高工智能汽车咨询了多家语音技术公司以及主机厂,了解到现在还没有专门针对车载领域的语音芯片。
 
云知声芯片负责人李霄寒博士介绍,云知声5月16日发布的这款芯片是UniOne 系列芯片中的第一款,从语音AI切入,芯片命名“雨燕”,主要面向的是IoT领域,适合智能家电、智能车载等多个人机交互场景。目前在积极推进车规级芯片设计,预计明年推出符合车规要求的“雨燕”产品。
 
另一家语音公司思必驰宣布研发的AI芯片,也不是专门针对车载领域的语音芯片,预计下半年流片;出门问问推出“问芯”Mobvoi A1是语音芯片模组,即语音模组和芯片的结合,最先是在智能家居领域,也不是针对车载领域的语音芯片。
 
现在市场上推出的“语音芯片”可以称作是传统芯片的“智能化”,将芯片和语音技术融合在一起,相比传统的芯片和语音技术独立而言,语音和芯片一体化之后,二者相互结合,如果芯片能够和语音技术很好地匹配,不仅能够解决兼容性的问题,同时还能实现降低功耗需求。
 
车规级的语音芯片是市场需求
 
车载领域的语音芯片首先一定要满足车规的技术要求,通过温度、稳定性的测试才可以上车,研发出可以通过车规的语音芯片还存在难点。 
 
技术上,开发芯片本身就有一定的难度。软件和芯片要结合在一起,其实就是把交互的东西放到硬件载体上,配比和兼容就是有难度的,还要做到识别速度快、适配不同的CPU、最后到实现量产,都需要强大的技术支撑。
 
虽然现在缺乏车载领域的语音芯片,随着汽车智能化以及车载语音交互的发展,未来车规级的语音芯片会成为市场需求。
 
吉利汽车负责HMI的相关人士表示,现在车载语音控制能力还远远不够,就目前已经上市的车型而言,语音的在线控制识别速度很慢,而本地词库又很少,自然语音状况下语音内容和词库无法匹配,就会出现无法识别或识别有误。 
 
而目前市面上推出“云+端+芯片”或者“云端芯”一体化的芯片,优化了网络识别的能力,但本地识别的能力依旧比较差,识别速度慢,用户是比较难接受的。
 
语音芯片需要提高本地识别功能,但未来比较理想的是,随着网络传输速度的完善,研发出能够将本地识别和在线识别结合在一起的语音芯片。
 
亿咖通相关人士表示,随着车联网,人工智能的发展,车载芯片性能远远不能满足汽车娱乐和多样化交互功能需求。语音作为车载系统的刚需和亮点,更希望有强劲的硬件加速能力和适应力的平台,车规级智能语音芯片会是大势所趋。
 
响应速度和识别率如何提升
 
最近,首款搭载“祺云概念”智联系统的中期换代车型传祺GS4搭载的智能语音控制系统,用户发出语音指令,系统便能在1.2秒内快速反应。官方宣称,速度和灵敏度远超同级。
 

2.jpg

 
传祺智能语音控制系统能够在正常环境中实现95%识别正确率并具备多方言口音普通话的识别能力,离线语音识别能力、汽车训练的麦克阵列降噪能力、语音打断技术、可见即可说、自定义语音唤醒等多项核心技术能力。
 
针对传祺GS4智能语音控制系统这一大卖点,有业内人士表示:“在网速、使用环境、车机CPU、内存等各方面最佳工况时,达到1.2S响应、95%识别率并不难。”
 
而在实际应用中,车辆噪音、网速波动、车机后台多进程、硬件资源被占用、第三方执行器件延迟等等,都会造成语音控制系统延迟
 
科大讯飞相关人士表示:“影响语音识别响应时间有:音频后端检测、网络传输、引擎处理和应用处理四个方面。”
 
音频后端点检测是影响语音响应速度最重要的部分,也是不可减少和用时最长的部分。讲完一句语音指令,系统需要800ms-1000ms静音段来识别讲话是否结束,减少这个时间,则会带来体验下降。例如,用户说话停顿,系统误认为用户已经说完了,导致错误的识别结果。
 
引擎处理,车机硬件配置低或其它进程占用CPU、内存等硬件资源,导致语音处理进程没有足够的系统资源,引起处理延迟。
 
通过升级车机硬件和优化引擎算法两种方案可以有效解决问题,但升级硬件配置需要增加成本,所以主机厂更加倾向于,优化引擎算法,在低成本硬件平台上实现高效语音系统应用。
 
网络速度慢、不稳定也是会导致语音识别延迟的一大因素。通过提升网络传输速率,如未来的5G通讯,也可以有效减少延迟。
 
除此之外,优化信源(地图、音乐、电台等等)和第三方执行器件(开车内灯、开天窗、座椅加热等等),也能减少语音控制系统延迟,提升用户体验。
 
语音控制、触屏、机械按键等都属于控制层,最终做出执行反馈的是信源和第三方执行器件。如果信源和第三方执行器件运行缓慢,也会影响用户对语音控制系统的体验。
 
目前,车载领域已经量产的语音产品大多数响应时间在1.5s-3s之间,当响应时间达到2s以上时,用户能够感觉到明显的延迟。
 
低NVH可提高识别率
 
识别率对用户体验至关重要,识别率太低、不准确,用户好似对牛弹琴,不但不能体现语音控制系统的便利性,反而会成为鸡肋配置。
 
主机厂相关人士表示:“提升语音识别率除了技术方面,降低车辆NVH也是一个重要的途径。”
 
车辆行驶中,外界环境噪音、发动机震动噪音、胎噪、风噪、车身共振等等都会影响语音指令识别率,所以除了不断对语音系统优化之外,降低车辆NVH也是提升语音识别率和用户体验的方法之一。