什么是知识图谱?
2012年谷歌提出了知识图谱(Knowledge Graph)的概念,简单来讲,知识图谱就是连接不同种类的信息形成关系网络,用图谱来映射真实世界中的实体及实体间的联系,协助我们从“关系”的角度去分析问题。
不要小看从“关系”的角度去分析问题,因为知识图谱的关系网络,可以帮助我们解决两大难题:
一是提升机器的智能。知识图谱可以通过为机器提供先验知识的方式,让机器更加智能。 什么叫缺少先验知识?下面举个例子来说明。当AI看到「胡桃夹子」这个词时,只能读取「胡桃」、「夹子」这2个字面上的信息。有不同知识背景的人类则不然:芭蕾爱好者看了,脑海里立刻就会浮现出柴可夫斯基、莫斯科大剧院、天鹅湖、挥鞭转等信息;文学爱好者则会想到德国童话、老鼠王、霍夫曼、大仲马。知识图谱可以为AI提供先验知识,让AI理解文本背后的含义,提升智能水平。
二是帮助人类梳理、理解信息。在信息爆炸的时代,如何让人类在有限的时间内了解更多的信息成了一个难题。例如MS Office的测试文档就累积了50万份以上,测试工程师遇到难题时,其实很难找到相关文档来参考。知识图谱可以将测试文档中错综复杂的信息以图形的方式展现出来,从而帮助工程师快速了解测试文档的知识体系。此外,当前后文档中有矛盾、替代的地方,知识图谱可以根据权重排序,选出最新、最可信的信息源。
知识图谱涉及哪些技术点?
1.知识抽取
知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识。数据源主要来自两种渠道:一种是企业的业务数据,这部分数据通常是结构化数据,通过ETL(Extract, Transform, Load),从业务系统导入即可。另一种是半结构化、非结构化数据,此类数据通常以文本的形式存在,一般需要借助于自然语言处理(NLP)技术来提取出结构化信息。
针对非结构化数据进行知识抽取,主要使用如下的NLP技术:
- 实体命名识别:就是从文本里提取出实体并对每个实体分类、打标签:例如,我们可以从『He’ll go to New York next month』这段文本中提取出 “New York”这个实体,然后打上“Location”标签来标记实体类型。
- 关系抽取:将实体间的关系从文本中提取出来,比如实体“北京”和“中国”之间的关系为“in”;“河北”和“山东”的关系为“near”等等。
- 指代消解:对于文本中出现的“it”, “he”, “she”等代词,需要分析出其指代的是哪个实体。
2.知识表示
知识表示是如何将结构化数据组织,以便于机器处理和人的理解的方法。知识表示既要关注如何方便机器处理,又要兼顾人的理解便利。
3.知识融合
知识融合是指将两个知识图谱进行合并,这方面的重点是研究如何将不同信息源的信息融合起来。例如,纽约市在不同的数据源里可能会被分别称为 “NYC”和“New York”,这就需要对这两个实体进行合并。
4.知识推理
知识推理就是在知识图谱中知识和数据的基础上,通过逻辑、统计等方法推理出隐藏在已知信息背后知识。例如:从『北京属于中国』、『中国属于亚洲』这两条知识可以推理出『北京属于亚洲』。
知识图谱的典型应用场景:
1.智能搜索与智能问答:
在搜索引擎中引入知识图谱可以大幅提升搜索体验。与关键词搜索相比,知识图谱可用来更好地查询复杂的关联信息、改进搜索质量。[ZW5] 优势体现在3方面:
1)聚合信息。例如搜索Bill Gates的时候,搜索结果页面可以直接出现Bill Gates的出生年月,家庭情况等相关的信息
2)理解知识,直接返回答案。例如搜索“Who is the wife of Bill Gates”,可以准确返回答案--Melinda Gates
3)关系搜索,通过多层关系找到答案。例如搜索“内马尔的老婆是什么星座”,搜索引擎可以从”内马尔-老婆-生日-星座”这一连串关系中推理出答案
2.智能推荐:
通过引入知识图谱及其抽取的实体及关系,可以提升推荐水平:
- 社交网络推荐:一个用户对某个物品感兴趣,他的朋友可能也会对该物品感兴趣
用户/物品属性推荐:如果已知用户喜欢物品A, 可以为用户推荐与A具有某种相同属性的物品
- 上下文情景推荐:根据用户-物品交互的时间、地点、当前会话信息等智能推荐
3.反欺诈:
在风控领域中,知识图谱可以协助我们分析出 “欺诈环”、“窝案”、“中介造假”、“洗钱”等复杂的欺诈行为。通过知识图谱,可以快速地检测交易方的关系模式,比如通过检测潜在购买者是否在使用与已知欺诈案例相同的电子邮件地址和信用卡,是否多个人与个人电子邮件地址相关联,或者多个人共享同一个 IP 地址但居住在不同的物理地址,从而快速地检测出潜在的欺诈交易。
4.征信与风险评估:
在个人征信方面,主要针对互联网信贷、消费贷等场景。利用知识图谱,我们可以生成身份证、手机号、紧急联系人手机号、设备指纹、家庭地址、办公地址、IP等多维信息的关系图,通过关联分析从而识别图中的异常信息,从而有效判别申请人信息真实性和可靠性。
在企业征信方面,利用知识图谱可以基于企业的基础信息、投资关系、诉讼、失信等多维度关联数据,以目标企业为核心向外层层扩散,形成一个网络关系图,直观立体展现企业与外界的关联。
5.投资分析:
从年报、公告、研报、新闻等信息中抽取出目标公司的股东、子公司、供应商、客户、合作伙伴、竞争对手等信息,构建出目标公司的知识图谱,通过实体间的关系来研判投资趋势。例如在中兴事件发生时,如果我们有中兴通讯的客户供应商、合作伙伴以及竞争对手的关系图谱,就可以在中兴停牌的情况下快速地筛选出可能受影响的上市公司。
知识图谱在航企的应用前景
知识图谱虽然刚刚兴起不久,很多大企业已经将知识图谱应用到了业务系统中去,并且取得了不错的效果。比如阿里构建了商品知识图谱,广泛地应用于搜索、前端导购、平台治理、智能问答、品牌商运营等核心业务;谷歌、百度利用知识图谱提高搜索体验;Merck等医药巨头利用知识图谱帮助研发人员判断药物实验方向……
那么在航企,知识图谱是否有用武之地呢?
在航空运输业,知识图谱的一个典型应用是智能客服。例如国航基于知识图谱打造了灵云智能客服解决方案,可以解决旅客80%的基础性问题,客服人员则能把主要精力用来解决旅客更为复杂的问题,提升旅客体验。目前各大航司普遍拥有大概1-2000名电话客服人员,应用智能客服系统可以大大提升呼叫中心的服务能力。
在酒店场景里,知识图谱可以用于构建更加智能的实体客服机器人,为住客提供智能服务。例如易建智慧科技事业群曾在海口某酒店探索过基于知识图谱的智能客服项目。该项目通过智能音箱与酒店客人进行交互,可以根据对话的场景智能地回答问题。例如,如果客人在晚上10点说对客服机器人说:“我饿了”,智能客服可以智能地推荐酒店内此时还在开餐的餐厅。而没有采用知识图谱的智能客服则只能提供餐厅列表,客人需要自己去琢磨哪个餐厅可能还开着。
目前航企是否应该开始布局知识图谱技术?
虽然知识图谱对于各大航企的主业只是起到锦上添花的作用,但还宜在技术发展的早期提前布局。原因主要有三点:
首先,从时机来看,现在正是布局知识图谱的黄金时期。易建科技智慧科技事业群技术总监李景帆、詹奕深一致认为:”知识图谱2012年出现概念,2016年左右开始在市场大热。现在是知识图谱的早期阶段,大家都刚刚开始搞,基本上处于同一个起跑线上,因此现在入局正是一个好时机。”
其次,从业务上来看,知识图谱目前对航企主业不是刚需,但航企旗下存在一些专注于IT服务的企业。在这些企业的解决方案中,知识图谱可以成为解决方案的亮点,提升方案的竞争力。据詹奕深介绍:”在目前竞争激烈的市场中,在解决方案中加入知识图谱元素可以提高产品的竞争力,有助于打单,所以在易建科技有限的资源中,投入一部分用于知识图谱研发是相当有必要的”。目前易建科技正在探索知识图谱在智慧政务、智慧医疗、智慧旅游等领域的应用,已经取得了不错的效果。
最后,从技术沉淀来看,虽然技术在发展早期往往更迭较快,但领域知识则不然。构建行业知识图谱,不仅涉及技术,更涉及对行业的理解。据李景帆介绍:”在知识图谱研发中,信息技术与领域知识重要性的比重在4:6左右,领域知识要稍稍重要于NLP等知识图谱技术。现在知识图谱发展的一大瓶颈是数据质量差,不但数据噪声多,而且缺乏领域知识对数据进行正确的标注。从现在开始探索知识图谱,梳理领域知识、清理数据、总结归纳生成知识图谱的方法论,这些都可以沉淀成为智力资产,并不因未来技术的更迭而造成浪费。”
总结 :
技术的落地有两种路线,一是如Uber那样以技术来驱动新业务,进行颠覆式创新,这样会受到技术研发和业务运营两方面的挑战;二是以现有业务来驱动,由新技术为现有业务赋能,这种渐进式路线成功率相对较高。知识图谱技术虽然是时下最火的技术之一,但目前在航企主业中并没有迫切的业务需求,在缺乏用户、缺乏应用场景时,我们不应急着在生产系统中上线大规模的知识图谱项目。