专访思必驰:当语音成为重要的人机交互方式,这个市场还有哪些可能

2017-12-27 16:25:13 来源:EEFOCUS
分享到:
标签:

 

临近2017年末,国内各大科技媒体开始各种形式的年终盘点,而大家都避不开的关键词非AI莫属。经历了前几年VR、无人机等技术从热炒概念到落地的不温不火后,电子产业似乎终于找到了一个兴奋点,而且这个兴奋点有着太多应用场景的可能性。回想这几年AI概念爆发的起点,这样一款终端产品不容忽视--智能音箱,随着众多科技大佬包括亚马逊,谷歌、BAT、京东、小米、联想等的加入,正是这款消费产品让AI概念在实际应用场景中找到了首个落地点。虽然据GFK在11月份发布的数据,这一年里智能音箱在国内市场的实际销量可能只有35万台,远未达到预期,但这不妨碍智能音箱背后的语音交互这种AI技术的燃点被触发,可以预见,未来几年语音交互将在越来越多的终端产品和应用场景中出现。


谈到语音交互技术,这里面涉及语音合成、语音识别、交互界面、麦克风阵列和语义理解等多个技术分支,每一个分支还有很大的技术提升空间。

 


同时在语音交互技术领域,亚马逊以及国内的科大讯飞逐渐成为技术领导者,思必驰、声智科技、海知科技等科技新贵还在不断涌现。而随着一些互联网公司包括BAT、京东、小米等也开始部署和开发自己的语音交互技术,未来几年内这一领域的市场竞争格局仍存在很大的变数。

语音交互还有哪些技术课题需要攻关?不同玩家在做大市场时都有怎样的布局和玩法?未来BAT等互联网企业和现有技术提供商之间将是怎样的一种关系?带着这些问题,与非网记者于近日采访了思必驰公司CMO龙梦竹女士。

 

思必驰公司CMO龙梦竹


语音识别、语义理解还有哪些事情要做
上面提到语音交互技术涉及多个技术分支,大厂如亚马逊和科大讯飞基本上全部都自己来开发,其他大多企业则依自己的优势在不同技术分支上下功夫。


单就思必驰而言,龙梦竹介绍,其核心技术有5大方向,包括语音识别、语音合成、语音识别++、智能对话和语义理解。该公司的优势在于针对垂直的行业市场包括车载、家居和机器人方向提供语音交互解决方案。针对不同的应用场景,龙梦竹表示,这其中语音交互的底层算法是通用的,都需要通过大数据算法对音频进行识别和处理,不同之处在于应用场景不同,具体的工程化设计就不同,这里面声场的远近,环境噪声来源和干扰等都有所不同,而具体到语义理解,不同的应用场景会有很大的不同,需要设备给出的回复也就不同,这其中最大的挑战还是对话的过程和场景。

 


龙梦竹提到,判断语音识别技术的准确度和正确率,业内通常有字识别率、词识别率和句识别率几个指标,其中字识别率是在一些比赛中会用到,通常大家考虑的是词识别率,句识别率则是对语义理解而言。同时针对大家关注较多的“语音唤醒”,也有唤醒率和误唤醒率这两个特性,而她也坦言,实际上因为语音交互技术的指标相对复杂,受不同环境和外界因素的影响较大,很难有一个真正客观的评判标准。


此前思必驰首席科学家俞凯在一次活动中也提到,语音交互技术从对话的层面,需要区分的是问答、闲聊还是多轮对话的形式,不同的对话模式,设备需要做出的反馈也不同,要通过不同的算法优化来实现,“问答基本上是一问一答,你说一句它会给你一个答案,偶尔会带有一点上下文,这并不是真正意义上多轮的东西;闲聊,比如微软小冰,是你不停的说,它就不停的跟你聊天。闲聊的准则就是以聊的时间来定义的,但不同于问答,这里面是没有什么目标意义的,所以闲聊要考虑如何把一些比较有趣的东西融入进去;最后一类是任务型的多轮对话,这类对话是要有比较扎实的数学基础的,把对话看做是一个序列决策过程。”


针对不同的对话形式和应用场景,包括思必驰在内的语音技术公司还有很多工作要做。

 

 
关注与非网微信 ( ee-focus )
限量版产业观察、行业动态、技术大餐每日推荐
享受快时代的精品慢阅读
 

 

作者简介
高扬
高扬

与非网总编。网称“羊在发现”,电子工程科班出身,三载研发历练,以我专业背景和对文字的热爱进入与非网,属偶然中的必然。愿不断发现电子奥妙、产业脉动,以我见我思还一个真相。工作之外,话剧、旅行、阅读是最大乐事。

继续阅读
解析语音及文本类AI芯片,背后都涉及哪些技术
解析语音及文本类AI芯片,背后都涉及哪些技术

目前视频和图像类深度学习加速芯片已经呈现红海状态,而语音类人工智能芯片还处于上升期,文本处理等领域目前还处于探索时期。

人工智能挑战直播答题,那些撒币大佬只能干瞪眼?

就目前来看,直播答题是语音交互一次很好的普及机会,虽然现阶段的语音交互还只能应付常识性的问题,但既然“人机大战”的序幕已经拉开,好戏上场也只是时间问题。

人工智能给语音领域带来啥路径?听听这个成立8年的中国企业怎么说

记者近日从工信部获悉,中国将加大力度支持新一代语音识别框架、口语化语音识别、智能对话、音视频融合、语音合成等技术的创新应用,并在智能制造、智能家居等重点领域开展推广应用。到2020年实现多场景下中文语音识别平均准确率达96%。

2018年电视机六大流行趋势,除了大屏、HDR、语音交互还有啥?
2018年电视机六大流行趋势,除了大屏、HDR、语音交互还有啥?

在新的一年来临之际,电视界正出现一些重大发展趋势。2018年,购买电视的消费者有望看到更多的超大尺寸电视机,这些电视机或具备更强的增强显示性能和复杂的语音控制功能。

从语言学习对虚拟助手的挑战,看为啥Siri还不能与人交流?
从语言学习对虚拟助手的挑战,看为啥Siri还不能与人交流?

苹果最近的秋季发布会主要围绕着iPhone X,更换Touch ID的人脸识别,OLED显示屏以及支持蜂窝网络的Apple Watch。但是,生活在波兰、立陶宛、斯洛伐克、捷克共和国以及世界上许多其他地方的人们,并没有注意以上那些“闪光点”,而是发现另外一件事情。

更多资讯
华为和高通的“飞行模式”打嘴仗,小米如何惹了一身“骚”?
华为和高通的“飞行模式”打嘴仗,小米如何惹了一身“骚”?

最近手机圈最大的新闻,应该已经不是个别产品了,而是民航局的一纸规定。根据民航局最新的规定,在飞机上使用手机的条件已经日趋成熟,航空公司可以对手机“解禁”,飞机起飞之后乘客可以使用手机,唯一的要求,就是手机必须是“飞行模式”。

中兴Axon M评测:骁龙821是最大的“败笔”?
中兴Axon M评测:骁龙821是最大的“败笔”?

在Android2.X版本时代下,厂商们并不完全拘泥于「iPhone形态」。特别是摩托罗拉,里程碑、后空翻、胭脂盒等机型令人印象深刻。但随着智能手机成熟度越来越高,在结构上的创新几乎没人敢有大胆的想法。

郎咸平反转,出席区块链应用大会
郎咸平反转,出席区块链应用大会

自从14年放话,“送我比特币都不要”后,郎咸平就站在了币圈对立面。每次暴涨后,币圈都会把他的这句名言拎出来,群嘲一番,再警醒后来者。

格力全面进入银隆“太夸张”,造车梦还是大跃进?

过去一段时间,因格力电器董事长董明珠的进入,珠海银隆(下称银隆)从原本一家名不见经传的汽车制造企业成为业内关注焦点,并开启了迅速扩张之路。

苹果为美国创收,美国总统特朗普发推表扬
苹果为美国创收,美国总统特朗普发推表扬

近日,苹果表示新的税收政策将帮助苹果从海外带回巨额资金,这些资金的投入使用将为美国贡献380亿美元税收。而且苹果还表示要在未来5年,为美国经济贡献3500亿美元。

Moore8直播课堂