加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

智能音箱打开语音交互首扇窗,智能语音还可在哪施展拳脚

2017/09/17
36
  • 2评论
阅读需 39 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论


 

被誉为下一代人机交互新模式的智能语音,融合了多种人工智能技术,涵盖识别与交互环节。
 

如今,智能语音作为 AI 突破口似乎已是业内共识,未来必将扮演“连接器”、入口的角色,把信息、内容、服务连接起来。互联网女皇玛丽·米尔克在 2016 年的互联网趋势报告中,把语音交互列为 2016 年的发展趋势之一。未来十年将是人工智能商业化落地的关键周期,智能语音也将成为重要受益者。

智能音箱打开语音交互首扇窗
智能音箱的本质是一种基于语音人机交互的 AI 产品。

作为智能语音落地的先驱者,亚马逊 Echo 迅速成为“现象级”产品。随后,国内外所有 IT 巨头相继进入到语音交互市场,2015 年科大讯飞智能音箱叮咚、2016 年谷歌智能音箱 Google Home,2017 年智能音箱发布更密集联想、苹果、微软、阿里、百度、腾讯、华为等纷纷入局。

然而,智能音箱本身并不是争夺的战场,真正的战场是在下一代人机交互的入口之争,各巨头都希望在人机交互变革前抢先入局,以抓住这次分红的机会。因此,背后之争其实是用户、数据、入口的资源的抢夺。

如今,我们正见证着语音交互时代到来,也逐渐从键盘、鼠标、遥控的时代向语音交互的时代过渡。当然,交互方式的变革将带来极其广泛而深远的影响,因此单个产品上不能成本背后的推动力,但变革需要找的一个起点与支点,智能音箱便是推动变革的开端。未来,我们必将看到智能语音渗透到各个领域。

中国智能音箱市场的“热”与“冷”

智能音箱的发展历程可大致划分为三阶段:

2014-2016,亚马逊 Echo 开局,掌舵风向;

2016-2017,谷歌极力突围,Google Home 全力进击;

2017,战场混战,全生态较量。

2014 年 11 月亚马逊发布了 Echo 智能音箱,2015 年 Echo 的出货量达到 250 万台,2016 年达到 520 万台,超越 Sonos 成为行业霸主。在 Google Home 推出之前,亚马逊 Echo 占据智能音箱市场 99%的份额。


Google Home 重拳出击,自 2016 年 11 月发售到今年 4 月,已成功从亚马逊“垄断”格局中,抢下了 23.8%的市场份额。当然,亚马逊也做出了反击,比如发布 Echo Dot 2 代、在今年 7 月的 Prime 会员日进行了史无前例的大降价。

当下,智能音箱的战场中已不仅仅是音箱个体的竞争,已蔓延到整个生态系统。有分析机构将智能音箱竞争升级分为四个阶段,即音箱个体(单点战役)、音箱品类(战局较量)、家庭场景设备(多线占据)、全场景语音设备(全面战争)。

 

当然,这场生态战役还可以从另一个维度来解读,即构成智能音箱三个部分硬件、算法和内容。与非网本月《封面故事》专题围绕智能语音的调查采访中了解到,如今我国厂商在这三个领域皆有渗透。当然,终端才是最大的狂欢场,据有关数据显示,深圳某条街道上智能音箱的硬件生产商就有上百家。

与 Echo 国外大卖形成鲜明对比,与厂商的热情参与形成鲜明对比,智能音箱却难以吊足中国市场的胃口,消费者不感冒、不买单。这背后的原因首先是消费习惯的差异,欧美家庭音箱的家庭普及率高达 85%,而国内却不足 20%;其次,技术与应用层面的差异,因此叮咚音箱与 Echo 相比销量会有巨大差距。

同时,值得注意的一点是 Echo 早早的开放了自己的语音系统,系统开放带来更多的第三方应用。Echo 的目标不仅仅打造一个智能音箱而是一个平台,越来越多的第三方应用接入、越来越多的用户使用智能音箱连接并控制家中的设备。

智能音箱 2.0 时代
在本期《封面故事》采访中,全志科技智慧家居事业部总经理陈风表示,现阶段的技术基本满足了人们对智能语音的需求,而最大的问题就是性价比。

声智科技副总裁李智勇恰提出了利用第二代智能音箱架构大幅提升性价比的方案,他表示:小米智能音箱之前的各种智能音箱软硬架构上都和 Amazon Echo 高度相似,也就是说整个智能音箱行业都在学习亚马逊五六年前为智能音箱设定的架构(特征是麦克风阵列板和主控板是分离的),而小米+声智的方案与此不同,可看作智能音箱第二代架构,此变化推动了终端产品性价比的大幅提升。据业内消息,亚马逊第二代产品也将采用同种架构,此架构很可能一统未来智能音箱的天下,其它类方案(比如导入单独 DSP 做信号处理的)将失去生存空间。

智能语音有哪些大山要跨越
前面也提到智能语音背后是硬件、算法、内容三大要素的支撑。

 

硬件
硬件部分芯片与麦克风阵列是核心部件。市场上支持语音交互与识别的芯片很多。然而,全志科技陈风却表示:市场上没有一款专为智能语音而生的芯片。因此,当下的语音技术还只在算法阶段。一类是成本较低的传统语音模式识别技术,通过波形比较、波形匹配以及特征化实现;另一类是基于 AI 技术的,由于适应性好,可做到更加精准地识别。只要芯片支持音频输入功能和对应的运算性能即可,比如 CPU 能够达到 ARM 双核 1.2G 就可满足语音识别的要求,但称之为专用的智能语音芯片并不严谨。

全志 R16、意法半导体 STM32 通用控制系列就被应用到了智能语音的方案中。当然,行业里面正在研发专用的语音芯片。

麦克风阵列是声音的物理入口,技术包括噪声抑制、混响消除、回声抵消、声源测向、波束形成、阵列增益、模型匹配等,发展趋势是小型化、低成本化和多人识别模式。

算法
算法方面,主要包括语音检测、降噪、去混响和回声消除等传统音箱和通讯工具也需要具备的基本算法。智能音箱的关键算法是唤醒、语音识别、自然语言理解、对话管理、自然语言生成和文语转换等算法。


语音识别的目的是将语音信号转化为文本,目前,语音识别技术相对成熟。基于近场信号的、受控环境(低噪声、低混响)下的标准语音识别能够达到很高的水平。然而在智能音箱开放性的真实环境或者说收众多因素影响的远场环境,需要结合前端信号处理一起来优化。


声纹识别是根据语音波形反映出的个人生理和行为特征的语音参数,并以此来识别说话者的身份。现实中,该识别的准确率并不如指纹、虹膜识别。这也是智能语音更高“智能”形态的表现特征。

综合而言,智能语音技术的瓶颈在于以下两点 :
第一个问题是远场环境复杂,夹杂噪音、混响、自噪声等,容易导致机器端“听不清”,从而影响后续一系列操作。解决了这个问题,偏命令控制的终端便能带来良好的用户体验;

第二个问题是更深层次的智能问题,真正的智能需要实现语义的突破、需要声音与视觉的融合,这样的方案才更适合做拟人形态的机器人

目前,各硬件厂商都停留在如何解决第一个瓶颈并做到更好用户体验的阶段。ADI 在硬件中嵌入了机器学习与深度学习算法,因此可以高效而准确地捕获语音命令;意法半导体将 SNR 提高到 65~67dB、 AOP 提高到 135dBSPL,以及在麦克风 ASIC 电路中加入抗干扰的设计等;CEVA 通过降噪、麦克风阵列波束成形扬声器跟踪、回声消除器、始终聆听唤醒词和嵌入式(非基于云端)语音指令实现。

未来,智能语音无处不在
探其究竟,智能语音落地背后的驱动力是什么?与非《封面故事》在采访调查中也找到了这个问题的答案:
- 解放双手
- 实现了功能入口扁平化
- 趣味性

我们不妨先来看看智能语音的发展历程。

第一阶段,20 世纪 50-70 年代,技术萌芽阶段。贝尔实验室、普林斯顿大学等科研机构做了大量的研究,进行技术开发;

第二阶段,20 世纪 80 年代,技术突破阶段;

第三阶段,20 世纪 80 年代至 21 世纪初,进入产业化阶段;

第四阶段,2010 年至今,快速应用阶段。智能语音技术已经深入用户生活之中。

 

智能语音技术的发展并非一朝一夕,所以在技术层面已具有根基,正如《封面故事》调查,现有的硬件与方案是可以满足当下智能语音要求的,但若在性能、成本、智能程度上更进一层,仍需继续深耕,因为产品的逐级落地自然就有一个不断完善的过程。

智能语音市场是一个高速增长的市场,2014 年为仅为 45.6 亿美元的规模,2017 年市场规模预计将达到 105 亿美,较 2016 年增长 30%。而中国市场的增速要高于全球市场,2015 年中国智能语音产业规模达到 40.3 亿元,较 2014 年增长 41.0%,2016 年中国语音产业规模达到 59 亿元,预计 2017 年中国语音产业规模将超过 100 亿元。远远高于全球市场增速。

随着人工智能的发展和深度学习技术的使用,语音识别准确率已经达到了 95%以上。计算机和智能终端的界面正在从“键盘+鼠标”变为“麦克风+按钮”,智能语音带来的交互新体验正在渗透。

纵观“Touch 1.0(键盘)——Touch 2.0(鼠标)——Touch 3.0(触屏)——Touch 4.0(语音)”交互发展史,每一次交互模式的变革都是产业的重新洗牌。

如今,智能语音首先在智能音箱生根落地,而未来,智能语音必将以交互的形式出现在各个领域,家电、家居、汽车、工业等等。据调研机构数据,预计到 2019 年,智能语音在市场规模超 1500 亿美元的智慧家庭领域的渗透率将达 12%。

那么,除了智能音箱,语音交互会首先在哪些领域落地呢?

本次《封面故事》得出的结论是:智慧家庭类产品,因为该类产品可简单快捷地引入智能家居控制系统,辅助用户进行高效便捷的控制。汽车将是智能语音爆发的大市场,但由于领域产品周期等原因,后稍晚于智能语音在家居类上的普及。

与非网原创内容,未经许可,不得转载!

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
AD7147ACPZ-500RL7 1 Rochester Electronics LLC SPECIALTY CONSUMER CIRCUIT, QCC24, 4 X 4 MM, ROHS COMPLIANT, MO-220VGGD-8, LFCSP-24
$2.68 查看
TDA8954TH/N1,112 1 NXP Semiconductors TDA8954 - 2 x 210 W class-D power amplifier SOIC 24-Pin

ECAD模型

下载ECAD模型
$7.09 查看
LM6172IM 1 Texas Instruments Dual High Speed, Low Power, Low Distortion Voltage Feedback Amplifiers 8-SOIC -40 to 85

ECAD模型

下载ECAD模型
$10.27 查看

相关推荐

电子产业图谱

与非网编辑,网名小老虎。通信工程专业出身,喜欢混迹在电子这个大圈里。曾经身无技术分文,现在可以侃侃电子圈里那点事。喜欢和学生谈谈心情、聊聊理想,喜欢和工程师谈谈生活、聊聊工作。不求技术“上进”,只求结交“贵圈”的朋友!