加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

专访思必驰:当语音成为重要的人机交互方式,这个市场还有哪些可能

2017/12/27
70
阅读需 39 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

 

临近 2017 年末,国内各大科技媒体开始各种形式的年终盘点,而大家都避不开的关键词非 AI 莫属。经历了前几年 VR、无人机等技术从热炒概念到落地的不温不火后,电子产业似乎终于找到了一个兴奋点,而且这个兴奋点有着太多应用场景的可能性。回想这几年 AI 概念爆发的起点,这样一款终端产品不容忽视 -- 智能音箱,随着众多科技大佬包括亚马逊,谷歌、BAT、京东、小米、联想等的加入,正是这款消费产品让 AI 概念在实际应用场景中找到了首个落地点。虽然据 GFK 在 11 月份发布的数据,这一年里智能音箱在国内市场的实际销量可能只有 35 万台,远未达到预期,但这不妨碍智能音箱背后的语音交互这种 AI 技术的燃点被触发,可以预见,未来几年语音交互将在越来越多的终端产品和应用场景中出现。


谈到语音交互技术,这里面涉及语音合成、语音识别、交互界面、麦克风阵列和语义理解等多个技术分支,每一个分支还有很大的技术提升空间。


同时在语音交互技术领域,亚马逊以及国内的科大讯飞逐渐成为技术领导者,思必驰、声智科技、海知科技等科技新贵还在不断涌现。而随着一些互联网公司包括 BAT、京东、小米等也开始部署和开发自己的语音交互技术,未来几年内这一领域的市场竞争格局仍存在很大的变数。

语音交互还有哪些技术课题需要攻关?不同玩家在做大市场时都有怎样的布局和玩法?未来 BAT 等互联网企业和现有技术提供商之间将是怎样的一种关系?带着这些问题,与非网记者于近日采访了思必驰公司 CMO 龙梦竹女士。

思必驰公司 CMO 龙梦竹


语音识别、语义理解还有哪些事情要做
上面提到语音交互技术涉及多个技术分支,大厂如亚马逊和科大讯飞基本上全部都自己来开发,其他大多企业则依自己的优势在不同技术分支上下功夫。


单就思必驰而言,龙梦竹介绍,其核心技术有 5 大方向,包括语音识别、语音合成、语音识别++、智能对话和语义理解。该公司的优势在于针对垂直的行业市场包括车载、家居和机器人方向提供语音交互解决方案。针对不同的应用场景,龙梦竹表示,这其中语音交互的底层算法是通用的,都需要通过大数据算法对音频进行识别和处理,不同之处在于应用场景不同,具体的工程化设计就不同,这里面声场的远近,环境噪声来源和干扰等都有所不同,而具体到语义理解,不同的应用场景会有很大的不同,需要设备给出的回复也就不同,这其中最大的挑战还是对话的过程和场景。


龙梦竹提到,判断语音识别技术的准确度和正确率,业内通常有字识别率、词识别率和句识别率几个指标,其中字识别率是在一些比赛中会用到,通常大家考虑的是词识别率,句识别率则是对语义理解而言。同时针对大家关注较多的“语音唤醒”,也有唤醒率和误唤醒率这两个特性,而她也坦言,实际上因为语音交互技术的指标相对复杂,受不同环境和外界因素的影响较大,很难有一个真正客观的评判标准。


此前思必驰首席科学家俞凯在一次活动中也提到,语音交互技术从对话的层面,需要区分的是问答、闲聊还是多轮对话的形式,不同的对话模式,设备需要做出的反馈也不同,要通过不同的算法优化来实现,“问答基本上是一问一答,你说一句它会给你一个答案,偶尔会带有一点上下文,这并不是真正意义上多轮的东西;闲聊,比如微软小冰,是你不停的说,它就不停的跟你聊天。闲聊的准则就是以聊的时间来定义的,但不同于问答,这里面是没有什么目标意义的,所以闲聊要考虑如何把一些比较有趣的东西融入进去;最后一类是任务型的多轮对话,这类对话是要有比较扎实的数学基础的,把对话看做是一个序列决策过程。”


针对不同的对话形式和应用场景,包括思必驰在内的语音技术公司还有很多工作要做。

 


DUI 是要做些什么
这几年进入语音交互包括语音识别和自然语言处理领域的企业众多,除了思必驰和已上市的科大讯飞,还包括声智科技、海知智能、普强信息、云知声、智齿科技、三角兽等,就像 AI 的其他领域一样,蜂拥而入的科技企业让整个产业形成一定的泡沫,肯定要经过一个优胜劣汰的过程。


为了在竞争中成为优胜的那部分,资本、技术、生态、市场这几大因素对每个玩家而言都至关重要。

近两年语音技术公司的融资情况


就思必驰而言,今年其在产品、业务上一个大的调整是在 9 月份推出了一个开放的 DUI 平台,全称为 Dialogue User Interface,基于 Dialogue 为核心,这里面思必驰专注于垂直场景,以任务式对话为核心,兼具闲聊与问答功能,打造人性化交互。作为一个全链路智能对话开放平台,DUI 提供的,不仅是基于思必驰智能语音语言技术的对话功能,更包括开发者在定制对话系统时所需要的综合服务,如 GUI 定制、版本管理、私有云部署等,让开发者可以完全依据需求随心所欲定制对话交互系统。


“DUI 平台的受众包括终端品牌商和技能开发者。技能开发者可以将自己的语音交互技术和产品放到 DUI 平台的技能商店里,而品牌商可以利用 DUI 平台提供的底层技术开发自己的产品,或者在技能商店中选购自己需要的功能模块进行快速集成。”龙梦竹这样介绍 DUI 平台。她提到,以往思必驰提供的 2B 服务多是项目制的定制化开发,对人员投入要求高,投入产出比相对较低,这会让他们只能把精力用于服务一些大客户。2013 年对话工场推出后,思必驰尝试做 SDK,让客户做二次开发,逐渐采用开放的模式。到了 2015 年,思必驰做到将一些底层 SDK 做好,针对不同的应用快速开发集成。现在有了 DUI 平台,思必驰将所有能开放的技术都开放出来,做好不同模块的基础集成,并提供技能包。同时那些思必驰自己做不了的部分,让其他语音技术公司以及开发者一起参与进来,通过技能商店的方式搭建一个完整的产业链。用龙梦竹的话说,这是一个“从提供种子,到种菜园提供半成品,最后到中央厨房直接提供成型的菜品”的过程。


按照思必驰的构想,DUI 俨然是一个开放的生态,除了上面提到的技能开发者,因为跟思必驰的技术可以形成很好的互补,包括声智科技、海知智能等这些同样是语音技术的提供商也可以把 DUI 作为一个渠道和平台参与其中,为终端用户提供一种一站式的选择和服务。龙梦竹介绍,未来其所有技术、产品将全部迁移到 DUI 平台上,“9 月上线以来,DUI 平台上的开发者有近 4000 人。目前公司负责 DUI 平台开发的有 100 多人,作为公司未来的战略方向,我们对 DUI 的投入是长期的,除了底层技术,还需要不断提高工程化的能力,包括跟别人的配合,为开发者提供大数据监测、可视化、里程碑管理等功能,这个平台还在不断升级、完善中,我们会根据不同项目的落地进行动态调整。”


谈到当前的难点和挑战,龙梦竹坦言,目前还在市场教育期,要让大家了解 DUI 平台都能帮助他们做些什么,它有哪些功能,解决市场接受度的问题。

具体到盈利模式,龙梦竹表示将设置一个免费门槛,用户超过一定的调用频次才开始收费。除此之外,思必驰也可以提供付费的定制化开发服务。
 

 


未来竞争格局,与 BATJ 等互联网公司的关系将往何处去
“语音识别基本已经形成门槛,再进入的可能性不大,很多做语音技术和设备的公司都采用思必驰的语音识别技术。这涉及到一个时间成本的问题,我们前面已经花了几年时间做的比较成熟了,后来者如果再花上几年时间来做这块,起点已经不同,对他们来说也没有什么意义。相对来说,新入者多集中在语义理解的后续处理环节,前面语音识别将音频转换为文字,后续语义处理的信号链还比较长,这里还有些机会。”谈及市场竞争格局,龙梦竹如是说。


对目前 BATJ 和小米等互联网公司也纷纷进入语音技术领域,龙梦竹表示,未来会有竞争,但也会有合作。考虑到互联网公司的财大气粗可以招揽到大批高端技术人才以及对数据资源的掌握,未来不可避免会对科大讯飞、思必驰这类技术公司产生一定的冲击,与非网记者从京东公司获得的信息是,京东此前在语音技术方面一直和科大讯飞合作,包括国内智能音箱销量冠军的叮咚就是京东和科大讯飞合作的产品,而今年开始京东已经开始抛开科大讯飞全面自研语音技术。


但也不可否认,未来智能硬件和语音交互的市场体量是巨大的,尤其是存在很多细分和垂直市场,可容纳的玩家更多。用龙梦竹的话说,在这些领域,考验的是企业理解客户需求、产品定义、操作系统匹配、技术支持以及工程化等方方面面的能力,不是几家公司就能全部完成的,也不是每家互联网企业都有这方面成功的基因。


对于思必驰而言,它的一个优势是还是一种创业的姿态,能够根据市场和技术趋势及时调整自己的方向,做出灵活应对。龙梦竹介绍,目前思必驰在横向和纵向上完成了几个重要的战略布局。横向上,通过 DUI 平台的搭建,让自己从过去的单打独斗向扩展生态、提供平台化服务方向发展;纵向上,思必驰在 2016 年正式成立了驰星创投,得到了元禾资本、富士康、清华控股等 LP 的支持,现旗下拥有 2 亿元天使基金和 10 亿元成长基金,专注投资人工智能和智能交互产业的早期项目。目前已孵化并投资了车萝卜、慧声、先声教育、AITEK、SIGMOID、爱医声、RT-Thread 等 9 家企业,将自己的触角延伸到资本和 AI 技术的应用领域。


“因为驰星创投是完全独立于思必驰运营,未来思必驰主体部分的主要盈利点是 DUI 平台,同时我们会跟一些大企业合作成立合资子公司。”龙梦竹表示。

显然,摆在思必驰面前的选择还很多。
 

更多有关语音识别的资讯,欢迎访问 与非网语音识别专区

与非网原创内容,未经许可,不得转载!

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
AK4611VQ 1 Asahi Kasei Microsystems Corporation Consumer Circuit, PQFP80, LQFP-80
暂无数据 查看
LM386N-3/NOPB 1 National Semiconductor Corporation IC 0.7 W, 1 CHANNEL, AUDIO AMPLIFIER, PDIP8, DIP-8, Audio/Video Amplifier
$1.58 查看
SA605DK,112 1 NXP Semiconductors SA605 - High performance low power mixer FM IF system SSOP2 20-Pin
暂无数据 查看
思必驰

思必驰

思必驰是国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术,自主研发了新一代人机交互平台(DUI),和人工智能芯片(TH1520);为车联网、IoT及政务、金融等众多行业场景合作伙伴提供自然语言交互解决方案。并拥有中英文综合语音技术。思必驰语音识别、声纹识别、口语对话系统等技术曾经多次在美国国家标准局、国际研究机构评测中夺得冠军。

思必驰是国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术,自主研发了新一代人机交互平台(DUI),和人工智能芯片(TH1520);为车联网、IoT及政务、金融等众多行业场景合作伙伴提供自然语言交互解决方案。并拥有中英文综合语音技术。思必驰语音识别、声纹识别、口语对话系统等技术曾经多次在美国国家标准局、国际研究机构评测中夺得冠军。收起

查看更多

相关推荐

电子产业图谱

与非网总编。所知有限,不断发现。抱持对技术、产业的热情和好奇,以我所知、所见,真实还原电子产业现状和前沿趋势。

微信公众号