加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 1、语音交互是智慧家庭生态布局的关键入口 
    • 3、语音 OS 锻造,赋能语音生态
    • 4、整套场景封装,提供系统解决方案
    • 5、结束语
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

能力深耕,开放赋能——构建智慧家庭智能语音生态

2020/11/03
218
阅读需 8 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

随着我国人工智能发展规划的出台,以及各项关键技术的日趋成熟,物联网时代逐步成为继移动互联网时代的下一个浪潮,人机交互开启新一轮的需求革新,从鼠标、键盘、触屏的传统交互向语音交互演进,社会正在飞速进入智能语音交互时代。

以“语音+内容+智能”为切入点,打造自主设计、自主整合、自主运营的一站式语音交互共享平台,构建可运营、能变现的语音交互生态,赋能多形态终端产品,打造能听会说的人机交互体验,是未来智慧家庭发展的大趋势,也是中国移动智慧家庭运营中心推进数字家庭生态建设的重点方向。

1、语音交互是智慧家庭生态布局的关键入口 

1.1 人机交互需求不断革新

伴随着交互场景的拓展,人们逐渐对交互自由度提出了更大需求,语音交互越来越贴近人类的本能表达。语音交互凭借其输入速度快、场景限制少、技术链条发展成熟等优势,成为智能时代的理想交互途径,并逐步向交互智能、终端多态、服务泛在的方向发展。

1.2 家庭场景服务更加智能

语音交互是将人工智能技术底层产业化的关键,语音助手连接多形态终端和广泛业务,可提供内容服务、互联网服务,以及场景化智能家居控制等服务,为家庭用户提供互动娱乐、互动教育、家庭健康、家庭安防等新型产品体验,其中智能音箱成为首款爆发单品,并逐步向更多产品形态延伸。

2、核心技术攻关提升体验

智能语音交互主要涉及语音识别、语义理解和语音合成等技术。语音识别技术能将语音流转换为文本,语义理解技术可分析语句的含义、剖析用户意图,语音合成技术将解析结果以语音的方式反馈给用户,从而实现与用户的智能语音交互。

2.1 语音识别——听得清

智能语音交互平台现采用基于 Transformer 算法的端到端模型,具备识别速度快、识别准确率高的特性。该模型采用基于上下文理解的自注意力机制,提升了语义特征提取能力,解决了传统模型中声学模型和语言模型无法联合优化的问题,并且该算法能更好地利用先进硬件实现并行计算,从而提升运算速度。

2.2 语义理解——听得懂

平台采用基于规则+深度+关键词匹配算法的多算法融合模型理解用户意图,规则算法对于较短文本可实现快速准确的匹配,深度学习算法可对词表无法覆盖的新词进行识别,关键词匹配算法对于词表顺序颠倒、文本长尾问题,能快速准确地识别文本意图。

2.3 语音合成——说得明

平台采用端到端合成系统,可直接输入文本或注音字符,直接输出音频波形,该系统降低了对语言学知识的要求,能批量实现几十种甚至更多语种的合成系统,并且它表现出丰富的发音风格和强大的韵律表现力,加快不同声音的合成。

3、语音 OS 锻造,赋能语音生态

3.1 语音助手,赋能多形态终端

智能语音交互平台面向多形态终端提供语音助手,采用 Hook 技术分离各个子模块,实现语音点播、通话、听书、对话等功能,协助平台构建声纹、情绪、体感等多模态识别交互和相应反馈、推荐业务,兼容主流操作系统,支持自定义接口扩展,大大缩短接入周期和研发成本,快速赋能生态硬件及应用的语音交互能力。

3.2 语音插件,赋能海量应用

平台面向海量应用提供语音交互插件,制定标准开放协议,基于 IPC 实现第三方应用与 Launcher 的跨进程通讯,当用户调用语音控制,由平台下发热词及词槽信息,Launcher 进行动态匹配并下发至第三方应用,可进行直播、点播、播控等,从而实现所见即所得。

4、整套场景封装,提供系统解决方案

4.1 全屋智能

基于智能语音交互能力和 Andlink 智能家居云平台,提供智能音箱、智能面板、智能照明、智能开关等一体化全屋智能解决方案,实现跨厂商设备的接入和语音控制,可与智能门禁、摄像头等结合,实现家庭安防组合等细分场景。

4.2 AI 客厅

打造智慧屏,通过语音遥控器、智能音箱与智能电视结合的方式,实现电视播控推荐,将语音能力赋能教育、电商、音乐、游戏、健康等大屏应用,发挥轻量级语音技能,实现一说即得的用户体验。

4.3 智能对话服务

提供融合语义推导与语义匹配的对话理解技术,预置涵盖音视频娱乐、设备控制、生活服务等领域的对话能力及词典,高效定制对话能力,在智能助手、在线客服、语音家教等领域可广泛应用。

 

5、结束语

智能语音交互系统攻关语音识别、语义理解、语音合成等技术,快速赋能多形态终端,应用于 “能听会说”、“能理解会思考”的 AI 交互体验,实现从概念、技术到商业产品、功能应用的跨越,形成一个以语音交互技术为核心的全新应用生态链,促进人工智能产业的迅猛发展。

5G 快速发展的背景下,高带宽和低时延特性促使智能语音交互技术不断攻克新的难题,开启新的篇章。在“理解”层面,重点打造“支持打断和智能纠正”的认知型对话引擎,实现自然交互的本质要求;在“应用”层面,语音交互内容技能生态将渗透各个领域,并进行场景化的封装,真正实现海量服务“开口即得”的交互体验;在“接入”层面,语音助手持续扩大枢纽作用,赋能更多形态终端和交互应用规模起量,实现万物均能说话;在“沉浸式”层面,将融合语音识别、人脸识别、表情分析、唇动状态、眼球跟踪、手势识别、触觉监控等智能人机交互手段,完善“端 - 端”、“端 - 云 - 端”的交互协议,打造沉浸式多模态互动体验。

当人机交互越来越贴近自然表达,中国移动智慧家庭运营中心将持续深化智能语音生态体系建设,引领未来美好生活。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
MAX9768ETG+ 1 Maxim Integrated Products Volume Control Circuit, 1 Channel(s), BICMOS, TQFN-24
$3.15 查看
LM6172IM 1 Texas Instruments Dual High Speed, Low Power, Low Distortion Voltage Feedback Amplifiers 8-SOIC -40 to 85

ECAD模型

下载ECAD模型
$10.27 查看
TPA1517DWPR 1 Texas Instruments 6-W stereo, 9.5- to 18-V supply, analog input Class-AB audio amplifier 20-SO PowerPAD -40 to 85

ECAD模型

下载ECAD模型
暂无数据 查看

相关推荐

电子产业图谱

移动Labs是中国移动的社交化新媒体平台,是面向外部行业及产业链合作伙伴的信息发布、业务发展和产业推进门户。