• 精选
  • 会员

语言、知识与人机对话系统综述

2018年10月24日  来源:AI科技大本营 作者: 提供人:58988callto......
摘要:2018年11月8-11日,CSDN与硅谷AI社区AICamp联合举办的2018 AI开发者大会将在北京召开。届时来自Google、Amazon、Facebook、微软、LinkedIn、百度、阿里巴巴、腾讯、美团、京东、小米、字节跳动、滴滴、商汤、旷视、第四范式等国内外领军企业的百余位大咖将带来一场技术头脑风暴。

一、语言、知识与人机对话系统综述

1. 语言和知识

语言和知识是密切相关的。这张冰山图很形象地解释了语言和知识的关系,我们看到的语言只是冰山上的一小角,就是我们说的话。但是你如果想理解这句话,跟这句话相关的背景知识就像冰山下面这一大块。

所以,这也是自然语言跟语音、图像很不一样的地方,我们听语音或看一个图片,它的所有信息都在语音信号或者图像像素里,但是语言的话就完全不是这样,这也是自然语言理解远远比语音识别或者图像识别更难的一个地方。

这次的报告内容综合了我最近三年在CCKS会议上做的三个报告。

基于知识图谱的人机对话系统|公开课笔记

2. 人机对话系统

人机对话系统最早在工业界引起比较大的轰动是 Apple Siri,它当时还是 iPhone 上的一个 APP,2010 年被苹果收购了。Siri 的创新在于,我们传统的手机 GUI 界面上加了一个语音 Voice-UI。

真正引发人机对话系统革命性创新的是于 2014 年推出的 Amazon Echo,它是一个完全基于语音交互的硬件,其语音技术比 Siri 前进了一大截,因为它支持远讲。

2017 年亚马逊又推出了一个带屏幕的音箱 Amazon Echo Show,大家觉得这是不是又回到 Siri,还是基于 GUI 呢?这里要注意区别, Amazon Echo 是 VUI+GUI,也就是说它是以 VUI 优先的,因为语音的优势是输入很便捷,你说几个字就能代表一段指令,可以代替操作很多界面。但缺点是输出很低效,如果在屏幕上显示很多内容,但是你要用语音说出来,可能得花好几分钟。所以 VUI+GUI 的结合是把两者优势做了整合,VUI 用来做输入,GUI 用来做输出。

更高级的形态是现在很多电影都能看到的像Eva、《钢铁侠》或者《西部世界》里面这种人形的机器人,完全可以跟人自由对话,它的交互是 VUI++,真正模拟人的多模态的交互形态,这个时间点也许在 2045 年会出现。

为什么人机对话系统目前在工业界这么热门?它最重要的一个意义是有望取代目前在手机上的 APP,成为 IoT 时代的一个最重要的人机交互形式,这是它的最主要意义所在。

3. 人机对话系统的交互形式和应用场景

就像人和人说话有多种目的和形式一样,人机对话系统也包含很多种交互形式:

1、聊天。典型代表是小冰,它包括问候和寒暄,其特点是没有明确目的,而且不一定回答用户的问题。聊天在现有的人机对话系统中主要是起到情感陪伴的作用。

2、问答。它要对用户的问答给出精准的答案。这些问题可以是事实性的问题,如“姚明有多高”,也可能是其他定义类,描述类或者比较类的问题。问答系统可以根据问答的数据来源分为基于常见问题-答案列表的FAQ问答,基于问答社区数据的CQA问答,基于知识库的KBQA问答。

3、操控,只是解析出它的语义,来供第三方执行,最典型的操控是打开空调、打开台灯,或者播放某一首歌。

4、任务式对话。它是一个目的性很强的对话,目标是收集信息,以完成某个填表单式的任务,最常见的像订外卖、订酒店、订机票,这种方式通过对话来做。

5、主动对话。让机器主动发起话题,不同的是,前面的交互都是让人来主动发起这个交互。

基于知识图谱的人机对话系统|公开课笔记

目前人机对话系统的应用场景有很多,像音箱、电视、空调等等,其显著特点是它不是人可以直接触摸到的,可以将语音交互看成遥控器的一种替代品,有遥控器的地方就可以用语音来交互。

另外一个应用场景是在车载方面,因为在开车时,你的眼睛和手脚都被占用着,所以这时通过语音来接听电话、导航甚至收发微信,是非常方便的,也比较安全。车载是刚需场景,所以目前出货量最多是在这块。像我们是从 2014 年开始做车载语音交互方案,到现在有 1500 多万的出货量。

另外一个应用领域是儿童教育机器人,右下角这些各种形状的儿童机器人,实际上可以看成儿童版的音箱,它的内容是面向儿童的,但是交互形式也是人机对话的方式。

4. 人机对话技术架构

基于知识图谱的人机对话系统|公开课笔记

人机对话系统从学术界来讲,它的研究历史非常悠久,可能 AI 提出以后,在七八十年代就开始研究。它的技术分为五大部分:

1、语音识别:主要解决复杂真实场景噪声、用户口音多样的情况下,把人说的话转成文字,即做到“听得清”。

2、语义理解:主要是把用户说的话转成机器能理解执行的指令或查询,即做到“听得懂”。

3、对话管理:维护对话状态和目标,决定系统应该怎么说、怎么问下一句话,也就是生成一个应答的意图。

4、自然语言生成:就是根据系统应答的意图,用自然语言把这个应答意图表达出来。

5、语音合成: 用机器合成的语音把这句话播报出来。

这样形成一个完整人机对话的闭环。

5. 语音识别场景演进

基于知识图谱的人机对话系统|公开课笔记

因为人机对话系统是以语音作为入口,所以需要讲讲语音技术这块的进展。强调一点的是,如果想真正做好人机对话系统,除了对自然语言处理技术了解之外,对语音技术也必须有所了解。

最早像 Siri 这样的场景是近讲模式,它最主要解决的问题是口音问题,目前这方面的识别准确率非常高,已经能做到 97% 左右,大家平时用的手机语音输入法就是这种模式,一般建议离麦克风的距离是30cm左右。

Amazon Echo 则是远讲模式,你可以离麦克风 3 米甚至 5 米这么远。它要解决的问题很多,因为你离它远了以后更容易受周边噪音的影响,还有一个更致命的影响是声音反射引起的混响问题,特别是在玻璃房里,声音不断在反射,麦克风收到的声音就是很多声音混杂在一起。还有一个很不一样的地方,就是我们用微信语音的时候可以按下说,或者按着一直说,但当你面对一个音箱时,因为你离它有 3-5 米远,不可能按着说话的,这时就有新的技术,叫“语音唤醒”,就像我们跟人说话时叫人的名字一样,像“Hi,Google”,先唤醒机器,再同它对话。

目前语音识别最难的场景是人人对话,在人和人对话的时候,先对它做录音,而且要把它转成文字,这个最常见的场景像开会,自动把不同的人说话转录下来,甚至自动形成会议纪要。还有像司法的庭审,只要是和人说话的场景下都可以用到。这里面最难的问题是鸡尾酒会问题,很多人在一起,环境很嘈杂,大家都在说话,人可以听到只关注的人的说话,即使很嘈杂,但两个人一样可以聊天对话,但这对机器来说很难。

6. 人机对话系统中的机器角色演进

基于知识图谱的人机对话系统|公开课笔记

在人机对话里面机器的角色有个演进的过程:最早人机对话很简单,可以看成是个遥控器的替代品,用户通过固定句式或者单句指令来控制这个系统。

Siri、Amazon Echo 是一种助手的形态,也就是说,你可以通过自然语言交互,且对话是多轮的,甚至可以让机器有些情感。

但是下一个阶段是它会变成专家的角色,特别是面向行业或者特定领域时,当我们跟音箱对话时,希望这个音箱同时也是一个音乐专家,它可以跟你聊音乐的问题,可以跟你聊古典音乐,甚至教你一些音乐知识。我们跟儿童教育机器人对话时,希望这个机器人是一个儿童教育专家,我们跟空调对话时希望后面是个空调专家。这时它的特点是需要有这个领域的知识,而且能够帮你做推荐、做决策。

知识图谱 / 人机对话

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000