一、概述
尽管人工智能依靠机器学习和深度学习取得了快速进展,但这些都是弱人工智能,对于机器的训练,需要人类的监督以及大量的数据来喂养,更有甚者需要人手动对数据进行标记,对于强人工智能而言,这是不可取的。要实现真正的类人智能,机器需要掌握大量的常识性知识,以人的思维模式和知识结构来进行语言理解、视觉场景解析和决策分析。
二、什么是知识图谱
百度百科定义:知识图谱又称为科学知识图谱,在图书情报界称为知识域可视化,或知识领域映射地图,用来显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及载体,挖掘、分析、构建、绘制和显示知识及他们互相之间的关系。
乳腺癌知识图谱
三、为什么需要知识图谱
- 知识图谱把复杂的知识领域及知识体系通过数据挖掘、信息处理、知识计量和图形绘制显示出来,表示该领域的发展动态及规律,为该领域的研究提供全方位、整体性、关系链的参考。
- 知识图谱是智能社会的重要生产资料,如果把人工智能比作一个“大脑”,那么深度学习是“大脑”的运转方式,知识图谱则是“大脑”的知识库,而大数据、GPU并行计算和高性能计算等支撑技术就是“大脑”思维运转的支撑。
- 知识图谱是真实世界的语义表示,其中每一个节点代表实体连接节点的边则对应实体之间的关系异构数据通过整合表达为知识,图的表达映射了人类对世界的认知方式,知识图谱非常适合整合非结构化数据从零散数据中发现知识,从而帮助组织机构实现业务智能化。
四、知识图谱的诞生
当你对陌生领域进行学习时,无法把握要点及整体框架,以至于检索效率低、入门无道时,知识图谱应运而生。
自2012年5月,Google将知识图谱应用到其搜索引擎,以提升其搜索服务能力,将各种渠道收集而来的相关信息展示在搜索结果旁的信息框中,以结构化模块形式提供给用户。
主要从三个方面提升了其搜索效果:
- 语言的多义性,展示差异化结果,缩小搜索范围。
- 信息的关联性,理解总结信息间的关联,理解事物的相关性。
- 体系的广泛性,构建完整的知识体系,发现新的事实或新的联系,促进一系列全新的搜索查询。
google知识图谱展示
五、知识图谱的原理
知识图谱以结构化数据处理,运用三元体,点、线、面的方式表示本体之间的关系,利用关系来组织所有的对象(实体),形成有向图结构。所谓知识,指的是点或边对应的信息。
知识图谱以语义分析技术为基础,以模型为核心,基于数据,利用深度神经网络、NLP框架语义理解等智能处理技术对输入的字、词、篇章进行多层次、多维度的信息分析,提供可远程调用的实体抽取、关系抽取和属性抽取等算法服务接口能力。达到构建多领域知识图谱平台,服务不同行业和应用场景。
知识图谱相关技术
构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代可分为三个阶段:
- 信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;
- 知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如:某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
- 知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。
知识图谱技术架构
六、知识图谱的发展方向
“纯粹的通用型人工智能没有任何意义,人工智能未来的方向一定是行业化。”
因此行业知识图谱的构建显得尤为重要,首先,构建行业知识图谱系统应以海量数据汇聚融合、快速感知和认知、强大的分析和推理、自适应与自优化和行业智能决策为导向。
下面介绍一下通用知识图谱与行业知识图谱构建的区别:
通用知识图谱以互联网开放数据为基础,如维基百科或社区众包为主要来源,逐步扩大规模。以三元组事实型知识为主,较多的面向开放域的Web抽取,对知识抽取的质量有一定容忍度,以知识融合提升数据质量,应用领域主要在搜索和问答方面,对推理要求较低。如:百度、谷歌、雅虎等等
行业知识图谱以领域或企业内部的数据为主要来源,通常要求快速扩大规模,构建行业壁垒,知识结构更加复杂,通常包含本体工程和规则型知识。知识抽取的质量要求很高,较多的依靠从企业内部的结构化、非结构化以及半结构化数据进行联合抽取需要依靠人工进行审核校验,来保证质量。通常需要融合多来源的领域是数据扩大规模的有效手段。应用形式更加全面,除搜索问答外,还包括决策分析、业务管理等,并对推理的要求更高,并有较强的可解释性要求。主要领域有电商、金融、农业、安全、医疗等等
面向行业知识谱图系统构建
大数据的采集分析和计算力已经不再是阻碍,难点在于算法背后的知识图谱构建。实际中,企业数据和业务变化灵活,因此数据源、数据结构、数据内容随时会发生变动,对业务的理解以及对数据的解读也随之发生变化。因此,建立实时敏捷、灵活可扩展、智能自适应的动态知识图谱尤为重要。
七、行业知识图谱的重要性
由于IT时代的快速发展,形成了数据的聚集。促进了正在来临DT时代,数据与算法作为基础为知识图谱的构建提供了新的可能性,而知识图谱作为AI的支撑基础,虽然发展缓慢,却是人工智能的必经之路。由于其在语义搜索、智能问答、数据分析、自然语言处理、视觉理解、物联网设备已展现出越来越大的价值。
比如:上一篇文章中提到的基于语音对话系统构建的机器人,要想机器人好玩有趣,就需要建立通用知识图谱,使机器人具有强大的逻辑,了解人与人关系,人与物的关系,人的属性、物的属性,理解人类世界的关系链,灵活应对用户的各种聊天需求,使机器具有类人智能。而行业知识图谱则帮助用户解答关于行业的任务型需求,辅助用户决策,反向帮助人类学习。
如今,人工智能属于发展初期,主要以技术驱动行业发展,属于拿着锤子找钉子的时期,企业在以行业+AI为核心的同时,也应重视行业+知识图谱。因为未来技术肯定不是公司的核心竞争力,而多年积累的行业数据才是壁垒。数据养育AI,AI反哺数据。
行业知识图谱在很多领域已经有了很好的应用。
例如:天眼查、企查查的企业知识图谱,数据包括:企业基础数据、投资关系、任职关系、企业专利数据、企业招标数据、企业招聘数据、企业诉讼数据、企业失信数据、企业新闻数据;
企业知识图谱
利用知识图谱融合以上数据,制作企业知识图谱,并在企业知识图谱之上利用图谱特性,针对金融业务场景做一系列应用。
(1)企业风险评估
基于企业基础信息、投资关系、诉讼、失信等多维度关联数据,利用图计算等方法构建科学、严谨的企业风险评估体系,有效规避潜在的经营风险与资金风险。
(2)企业社交图谱
基于投资、任职、专利、招标股、涉诉关系以目标企业为核心向外层扩散,形成一个网络关系图,直观立体展现企业关联。
(3)企业掌权人
基于股权投资关系寻找持股比例最大的股东,最终追溯至自然人或国有资产管理部门。
(4)企业关联路径
基于股权、任职、专利、招标股、涉诉关系形成的网络关系中、查询企业之间的最短路径,衡量企业之间的关系密切度。
(5)企业的发展历程
基于企业知识图谱中的投融资事件的时间顺序,记录企业的发展历程。
(6)企业信息的智能问答
用户通过语音输入,系统通过语音输出给用户想要的答案。
就写这么多,希望能带给各位一些思考。关于医疗知识图谱、金融知识图谱、农业知识图谱的应用场景请自行查询吧。
本文由 @阿拉灯神丁 原创