加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

为什么越像人的自然语言交互工具,越容易让人失望?

2019/04/25
54
阅读需 24 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论
从有了 Siri 作为先例,拟人化已经成为了自然语言交互工具的必备能力。不论是服务于个人用户的 AI 语音助手,还是企业提供的智能客服,甚至是各种有语音功能的家用电器,都要做 IP、造人设,几乎有了成精之势。
 
在大多数时候,我们认为自然语言交互的工具的拟人化可以降低用户的“恐怖谷效应”,让用户更喜欢与其交流。但最新的研究结果却表明,事实或许并非如此。
 
成为人类的千重套路
首先我们可以来看看,自然语言交互工具拟人化的“千重套路”。
 
第一步,给自己起一个人畜无害的名字。
 
我们常说,当你捡到一只小动物后,如果给它起了名字,那么它十有八九会成为你的宠物。AI 也是一样,当自然语言交互工具拥有姓名,基本就注定了它会在成精的道路上越走越远。自然语言交互工具的名字通常是“小”字辈,既显得弱小无害又无关性别足够政治正确。
 
第二步,利用语音生成技术模仿人类语气。
 
拥有了名字之后,肯定就不能再用冷冰冰的电子音了,甚至以往语音生成技术管用的真人录音+规则匹配的模式也略显死板。这时便出现了以谷歌 WaveNet 为代表的神经网络语音生成,通过对真人说话方式多种特征的抓取,对语义、词性、语法包括上下文等等参数综合考虑,最终生成谷歌助手那样像真人一样说话会停顿、有思考的语气。
 
第三步,让对话内容更加人性化。
 
在自然语言交互的过程中,语音生成需要建立在文本内容之上。满足了“说话语气”的拟人化,同样也要让“说话内容”更加人性化。这时语义理解、多轮对话、自然语言生成等等技术的成熟度就变得非常重要。例如微软在微软小冰上应用的全双工自然语言交互,就能实现“边听边想”和“节奏控制”——通过整个对话过程对用户意图进行理解,减少用户的等待时间,并且能够主动引发新话题打破沉默,自行调节回答的内容和时机。这样的对话内容通过语音生成技术“展现”出来,就可以以假乱真,让人以为自己真的在和人类对话。
 
 
最后一步,披上“人皮”。
 
除了技术之外,还要以一些外围模式让自然语言交互工具更加拟人化。比如为它们设计一个可爱的卡通形象,增加几条指令让它们学会一些撒娇卖萌的口头语,在交互界面上增加一些细节让人们意识不到他们在与机器对话等等。
 
有了这几步套路,基本就能塑造出一个“化作人形”的自然语言交互工具了。
 
越人性越可爱?
自然语言交互工具的期望值管理
 
可我们从未想过的一个问题是,在实际应用时,自然语言交互工具真的越拟人化越好吗?最近宾州州立大学媒体效果研究实验室就进行了这样一项实验。
 
研究人员们告知志愿者,他们将在电商平台中选购数码相机,并需要和在线客服交谈咨询。这些客服背后都是智能自然语言交互系统,但研究人员对其进行人性化和响应程度上的区分。不同组的志愿者们分别会接触不同的在线客服系统,有在对话时直接告知对方自己是机器客服的,有的只展示出对话框内容,有的会通过真人头像和名字“伪装”成人类。
 
同时这些拟人程度不同的智能客服,又分别有着不同的响应程度。有些可以迅速精准的回答用户问题,有的却听不懂人话顾左右而言他。
 
 
在交互过后调查实验者的满意程度时,结果却令人意外。
 
在一般的逻辑中,我们会认为智能客服在交互时响应程度越高,人们的满意度自然也会越高。可实际情况是,在同样的响应程度下,使用者的满意程度是与智能客服的人性化程度相关的。比如同样的交互内容,明确知道对方是机器客服的实验者就会给出 80 分的满意度评价,而那些伪装成人类的机器客服却只能获得 60 分的满意度评价。原因是当机器客服表现出较高的人性化特征时,用户对他们的期望程度也会随着上升,盼望着他们能和人类一样帮助自己解决问题,如果得不到想要的答案,则会放大失望感。
 
其实在我们自己应用自然语言交互时也有同样的感受,当语音助手、智能客服等等产品不能解决问题还要强行卖萌讲笑话时,我们的暴躁指数往往会呈直线上升。
 
说到底,自然语言交互的人性化与否是一个“用户期望值管理”问题,有时过度提升用户期望值反而会弄巧成拙。
 
做人容易,做工具难
但目前我们能看到一个重要的趋势是,自然语言交互人性和工具性的发展程度是不均衡的。
 
从技术发展的难易程度来看,让自然语言交互工具更加接近人类,远远要比让自然语言交互工具更加有效容易得多。
 
不管是谷歌的 WaveNet 还是微软的全双工自然语言交互,都足以让自然语言交互的发音模式、对话节奏等等细节无限接近人类。未来结合上计算机视觉层面,甚至机器人制作工艺层面的能力,我们可以打造出一个与人类无异的对话者。
 
 
其实在今天,我们就能看到诸如 AI 主播或 harmony 推出的索菲亚等等在视觉上极致人性化的“AI 演说者”。
 
可这些自然语言交互解决问题的能力却没有因此提高。具体表现为:对于人类语料的理解还存在一定隔阂,尤其是小语种、老年人、儿童等等相对冷门的语料库;对于不同领域词汇的认知还不够全面,很多时候涉及到一些垂直产业时,AI 往往会进入知识盲区。
 
如此以来,帮助自然语言交互的“工具性”追赶“人性”或许将成为未来很长一段时间内的产业热潮。例如建立各个细分产业领域的知识图谱、累积词汇库,或收集不同人群不同方言语种的语料库用于 AI 训练。
 
在技术的不断追赶之下,人们对自然语言交互工具的期望值不断提高已经是一种必然,为了避免出现“短板效应”,我们或许应该投入更多精力去追求“人性”以外的东西。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
ATXMEGA256A3U-AUR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP64, 14 X 14 MM, 1 MM THICKNESS, 0.80 MM PITCH, GREEN, PLASTIC, MS-026AEB, TQFP-64
$7.71 查看
ATMEGA1284P-AUR 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 44TQFP

ECAD模型

下载ECAD模型
$7.15 查看
MC9S12A64CFUE 1 Rochester Electronics LLC 16-BIT, FLASH, 25MHz, MICROCONTROLLER, PQFP80, PLASTIC, QFP-80
$14.39 查看
谷歌

谷歌

谷歌公司(Google Inc.)成立于1998年9月4日,由拉里·佩奇和谢尔盖·布林共同创建,被公认为全球最大的搜索引擎公司。谷歌是一家位于美国的跨国科技企业,业务包括互联网搜索、云计算、广告技术等,同时开发并提供大量基于互联网的产品与服务,其主要利润来自于关键词广告等服务。

谷歌公司(Google Inc.)成立于1998年9月4日,由拉里·佩奇和谢尔盖·布林共同创建,被公认为全球最大的搜索引擎公司。谷歌是一家位于美国的跨国科技企业,业务包括互联网搜索、云计算、广告技术等,同时开发并提供大量基于互联网的产品与服务,其主要利润来自于关键词广告等服务。收起

查看更多

相关推荐

电子产业图谱

你的困惑,来自于无路贴近未知。我们在技术、思想、传播的异界,贩来极限脑量下的TMT。