什么是语音AI芯片?


语音AI芯片,顾名思义是处理语音的AI芯片。很多人第一次接触语音AI芯片可能是天猫精灵、小爱同学和小度等智能音箱产品,因为在这些产品中,我们可以体验到智能语音的交互,而语音AI芯片是智能语音交互的基础和核心。


 
图 | 语音识别示意图


都说这几年AI芯片赛道很火,事实上语音识别、自然语义理解(NLP)和机器学习在AI技术中占据重要的位置,是人机交互的基础,而前两项均与语音识别相关,这是因为语音识别不仅方便,而且是人机交互中最符合人类日常交流形态的一种技术,目前已经在智能家居和车载场景得到普遍应用。


为何语音识别要从云端搬至终端?


说到语音识别技术,还要追溯到2010年左右,当时以神经网络为代表的AI技术使得智能语音识别成为可能,并在后来的IoT和AIoT产业浪潮中不断走向成熟。


早期的智能语音识别受限于算力要求,终端没有专用的芯片可以解决算力和功耗成本的均衡问题,无法在终端处理智能语音识别,而云端处理又凭借天然自带内容和服务,模型可以快速迭代,数据收集和训练非常方便等优势,决定了当时的语音识别大都是布置在云端的。


然而,云端的语音识别也有弊端,比如无法做到稳定的实时响应,网络崩溃时更是响应无门;重要的信息都要通过网络传输,有被攻击泄露的风险,无法保障用户隐私安全;此外在成本方面也不具优势,除了持续的带宽消耗外,云端语音需要后台不间断的运行大量服务器来做语音处理,服务器的购置、后续的硬件更换和软件运维、人力费用和电费场地费等都非常昂贵。


 
图 | 为什么选择离线语音


面对云端语音的优劣势,以启英泰伦为代表的企业开始投入对端侧语音识别的研究。不过,我们知道光有需求点还支撑不起一个新产业的崛起,要养活一个产业需要足够的市场容量,实现资金的活流,才能有利于产品的不断迭代,形成正向循环。


根据艾瑞咨询发布数据显示,2020年中国物联网设备连接量达74亿个,预计2025年将突破150亿个。而麦肯锡则用更动态的数据表示出了物联网的增长率,预估目前每秒大约有127台设备连接到互联网。


然而,面对当前物联网的联网量,华为给出了另一个数据:当前大部分具备物联能力的消费类设备只有 5% ~ 20% 的联接激活率。这是为什么呢?究其原因,还是操作交互太过于复杂。而解决这个复杂问题的方法就是加入更多“老少皆宜”的语音配合IoT连接。


有行业内人士预测,语音AI芯片将会快速发展到5-10亿颗/年左右的市场规模,随着应用面的不断拓宽和渗透率的不断提升,该规模还将持续不断的提升。


综上,不管是场景需求还是市场容量,都在推动端侧语音识别的落地。但如何落地?不是一蹴而就的。


端侧语音识别芯片的三个发展阶段


语音识别面临的挑战和图像识别不同,它对算力要求没那么高,但对算法的要求很高。启英泰伦创始人兼CEO何云鹏告诉与非网:“这是因为语音识别的应用场景非常多,所以各种噪声就非常多样,有稳态噪声,也有非稳态噪声,要在这些环境中进行高准确率的语音识别是非常困难的。所以,必须掌握智能语音算法全链条技术才能实现更好的语音识别,包括智能语音信号前端降噪处理、语音智能识别、语音合成、语音解码、语音大数据处理及训练、NLP等技术。”


当然,语音识别技术在国内的发展也是在不断迭代中变得更加准确和灵活。我们以启英泰伦的三代自研技术平台BNPU(脑神经网络处理器),来简单概括端侧语音AI芯片的这三个发展阶段。


 
图 | 启英泰伦在语音AI芯片上的创新

 

  • 阶段一:语音识别功能


第一代BNPU芯片实现的是端侧语音识别,是行业首款集成神经网络处理器的语音AI芯片,也是离线语音产业应用兴起的标志。


从集成度的角度来看,BNPU 1.0的方案相对分立,方案价格大约在50到90元左右(CI1006)。

 

  • 阶段二:离线声纹识别+命令词自学习


第二代BNPU芯片(CI1102/CI1103和CI1122),不仅实现了离线语音识别功能,还能实现离线声纹识别和命令词自学习等个性化的功能。在应用上,可以根据不同人的声纹实现基于用户个性喜好的功能配置,并能通过离线命令词的自学习实现在轻度噪声下的地方口音和方言的识别。


从集成度的角度来看,BNPU 2.0集成了Audio CODEC、Flash 等单元,以及双麦阵增强处理能力,方案价格大约在15到25元左右。

 

  • 阶段三:深度降噪+深度分离+命令词自学习2.0+离线NLP


第三代BNPU芯片,除了继承第二代的语音识别、声纹识别外,还支持了基于深度学习的降噪技术(深度降噪)、人声分离技术(深度分离)、命令词自学习2.0版本技术,以及行业首次突破性的离线NLP技术。在应用上,CI1301可以实现中等噪声中的语音识别,而CI1302、CI1303、CI1306和CI1312则可实现强噪声环境下的语音识别,比如当油烟机噪声高达80dB时,对于70多dB的人声依然可以良好识别。


从集成度的角度来看,BNPU 3.0不仅集成了Audio Codec的模拟 MIC接口、数字PDM麦克的DMIC接口、通用的ADC和MCU常见的串口、PWM、GPIO等接口,还进一步集成了 4线Nor Flash、3路LDO的PMU和高精度的RC振荡器等,方案价格约10元左右。


对于三代产品的方案价格一代更比一代低的疑问,何云鹏表示:“很多人认为离线语音在端侧、数据处理、语音识别和存储会产生很多的成本,实则云上的成本是持续的,传输的成本是长时间的,这个成本可以避免;此外,云端早期建设的成本很高,很多厂家会建不起,还有每年运营的成本,每台设备每年10多元,这个费用在卖设备的时候厂商会包两年,但后面就要客户自己付费,所以不太公平。而随着摩尔定律的发展,端侧语音识别方案的整体成本已呈现30%的速率下降,已经达到了一个通用MCU的成本。”


除了价格以外,更值得一提的是,原本被认为只有云端才能实现的NLP,现在轻量级的NLP在端侧智能语音芯片中也实现了,并且既保障了用户的体验感,又能降低云端搭建和运营成本,降低网络带宽消耗,也能提升用户使用的安全性。


端云融合才是语音AI芯片的最终归宿


当然,说云端搬到端侧,实际上在很多场景下端侧和云端不是非此即彼的关系,从长期来看,端侧和云端是相互融合、相辅相成的关系。


随着端侧语音芯片功能、性能、可靠性变得越来越强大,价格越来越低,端侧语音识别将实现可靠性、隐私保护、成本和灵活性等多方面的优势,再加上集成联网功能可实现AIOT,从而实现大数据爆发时代下的有效数据分析和场景利用。


以空调为例,传统的空调大都只有调温的功能,但在差异化竞争的今天,大厂空调正在往机器人的方向发展,可以提供更多智慧化的服务,比如调整空气的温湿度、清新程度、含氧量、PM 2.5值,以及在早晨起床时放音乐营造氛围、营养咨询等。而这些服务的基础是语音交互,并且一定是延迟更低、工作更稳定的端侧语音识别,而背后的服务交易、用户的习惯大数据等则更适合放在云端,达到协同的效果。


写在最后


国内语音AI芯片正呈现出爆发式增长的趋势,谁将成为领头者?何云鹏表示:“该市场领域未来发展壮大后,会呈现典型的头部领先市场通吃的局面。而启英泰伦在语料数据、算法模型、芯片架构、AI开发平台及应用方案落地等多维度的迭代已经产生了马太效应。经过长达近7年的发展后,启英泰伦已经积累了B端客户超过5000名,平台开发者超过1万名,使用启英泰伦智能语音平台的在校AI学员则超过10万名。如今,整个离线语音行业快速发展,年内装机量将突破2000万台,未来两年,年出货将朝着1亿台迈进。”