来源:恒生技术之眼,陈华钧
当我们谈到智能金融的技术基石时,更多的人会说机器学习、自然语言理解等等,但很少有人提到知识图谱。
知识图谱是由Google公司在2012年提出来的一个新的概念。从学术的角度,我们可以对知识图谱给一个这样的定义:“知识图谱本质上是语义网络(Semantic Network)的知识库”。但这有点抽象,所以换个角度,从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。在众多的智能金融应用场景中,如智能风控、智能投顾、智能投研、智能运营、智能监管等,很多时候都是机器学习和知识图谱共同发挥作用的结果。
在下面的文章中,浙江大学计算机科学技术学院博士研究生导师陈华钧为大家详细的阐述了知识图谱的发展历程与应用。
本文首发自恒生技术之眼,作者为浙江大学计算机科学技术学院博士研究生导师陈华钧,以下是亿欧智库为您带来的精选分享:
尽管人工智能依靠机器学习技术的进步取得了巨大的进展,例如,AlphaGoZero不依赖人类知识的监督,通过自我强化学习获得极高的棋力,但人工智能在很多方面,如语言理解、视觉场景理解、决策分析等,仍然举步维艰。关键问题在于,机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。
人类知识与机器知识
哲学家柏拉图把知识(Knowledge)定义为“Justified True Belief”,即知识需要满足三个核心要素:合理性(Justified)、真实性(True)、被相信(Believed)。简单而言,知识是人类通过观察、学习和思考有关客观世界的各种现象而获得和总结出的所有事实(Facts)、概念(Concepts)、规则或原则(Rules & Principles)的集合。人类发明了各种手段来描述、表示和传承知识,如自然语言、绘画、音乐、数学语言、物理模型、化学公式等。具有获取、表示和处理知识的能力是人类心智区别于其它物种心智的重要特征。人工智能的核心也是研究怎样用计算机易于处理的方式表示、学习和处理各种各样的知识。知识表示是现实世界的可计算模型 (Computable Model of Reality),广义的讲,神经网络也是一种知识表示形式。
在人工智能的早期发展流派中,符号派(Symbolism)侧重于模拟人的心智,研究怎样用计算机符号来表示人脑中的知识和模拟心智的推理过程;连接派(Connectionism)侧重于模拟人脑的生理结构,即人工神经网络。符号派一直以来都处于人工智能研究的核心位置。近年来,随着数据的大量积累和计算能力大幅提升,深度学习在视觉、听觉等感知处理中取得突破性进展,进而又在围棋等博弈类游戏、机器翻译等领域获得成功,使得人工神经网络和机器学习获得了人工智能研究的核心地位。深度学习在处理感知、识别和判断等方面表现突出,能帮助构建聪明的AI,但在模拟人的思考过程、处理常识知识和推理,以及理解人的语言方面仍然举步维艰。
符号派关注的核心是知识的表示和推理(KRR:Knowledge Representation and Reasoning)。早在1960年,认知科学家Allan M. Collins提出用语义网络(Semantic Network)来研究人脑的语义记忆。WordNet是典型的语义网络,它定义了名词、动词、形容词和副词之间的语义关系,例如动词之间的蕴含关系(如:“打鼾”蕴含着“睡眠”)等。WordNet被广泛应用于语义消歧等自然语言处理领域。
从“知识库”到“推理机”
1970年,随着专家系统的提出和商业化发展,知识库构建和知识表示更加得到重视。专家系统的基本想法是:专家是基于大脑中的知识来进行决策,因此,人工智能的核心应该是用计算机符号来表示这些知识,并通过推理机模仿人脑对知识进行处理。依据专家系统的观点,计算机系统应该由知识库和推理机两部分组成,而不是由函数等过程性代码组成。早期专家系统最常用的知识表示方法包括基于框架的语言(Frame-based Languages)和产生式规则(Production Rules)等。框架语言主要用于描述客观世界的类别、个体、属性及关系等,较多的被应用于辅助自然语言理解。产生式规则主要用于描述类似于IF-THEN的逻辑结构,适合于刻画过程性知识。
经常与知识表示并提的另外一个重要概念是机器推理,实际上推理相比于机器学习对于高层AI的实现来说可能更加重要。目前AI比较前沿的研究方向都是在考虑怎样把连接主义所推动的机器学习能力与传统符号主义所关注的机器推理问题相结合,以实现感知到认知层的跨越。
让机器像人类一样认知世界,知识图谱说yes
知识图谱的早期理念来自于Web之父Tim Berners Lee于1998年提出的Semantic Web,其最初理想是把基于文本链接的万维网转化成基于实体链接的语义网。语义网十余年的发展积累了大量语义知识库,如:Freebase、DBpedia、Yago、WikiData等。谷歌在吸收语义网相关成果基础上于2012年推出了基于其称之为知识图谱的搜索引擎产品。随后,知识图谱逐步在语义搜索、智能问答、辅助语言理解、辅助大数据分析等很多领域发挥出越来越重要的作用。
1989年,万维网之父、图灵奖获得者Tim Berners-Lee提出构建一个全球化的以“链接”为中心的信息系统(Linked Information System)。任何人都可以通过添加链接把自己的文档链入其中。他认为以链接为中心和基于图的组织方式,比起基于树的层次化组织方式,更加适合于互联网这种开放的系统。这一思想逐步被人们实现,并演化发展成为今天的World Wide Web。
1994年,Tim Berners-Lee 又提出,Web不应该仅仅只是网页之间的互相链接。实际上,网页中所描述的都是现实世界中的实体和人脑中的概念。网页之间的链接实际包含有语义,即这些实体或概念之间的关系,然而机器却无法有效的从网页中识别出其中蕴含的语义。他于1998年提出了Semantic Web(语义互联网)的概念。Semantic Web仍然基于图和链接的组织方式,只是图中的节点代表的不只是网页,而是实体(如:人、机构、地点等),而超链接也被增加了语义描述,具体标明实体之间的关系(如:出生地是、创办人是等)。相对于传统的网页互联网,Semantic Web的本质是知识的互联网或语义互联网。
在语义互联网被提出之后,出现了一大批新兴的语义知识库。如作为谷歌知识图谱后端的Freebase,作为IBM Waston后端的DBPedia和Yago,作为Amazon Alexa后端的True Knowledge,作为苹果Siri后端的Viv等。尤其值得一提的是,2010年谷歌收购了早期语义网公司MetaWeb,并以其开发的Freebase为数据基础之一,于2012年正式推出了称为知识图谱的搜索引擎服务。谷歌知识图谱的宣传口号是:“Things, Not Strings!”。所解决的核心问题是把对文本(String)的网页搜索转化为的对事物(Things)的语义搜索,可以看做是语义互联网的一种商业化实现。
从“后备”到“前锋”,现代知识图谱遇难题
知识图谱并非突然出现的新技术,而是历史上很多相关技术相互影响和继承发展的结果,这包括语义网络、知识表示、本体论、Semantic Web、自然语言处理等,有着来自Web、人工智能和自然语言处理等多方面的技术基因。
从早期的人工智能发展历史来看,Semantic Web是传统人工智能与Web融合发展的结果,是知识表示与推理在Web中的应用;RDF/OWL都是面向Web设计实现的标准化的知识表示语言;而知识图谱则可以看做是Semantic Web的一种简化后的商业实现。
但我们要强调知识图谱与传统专家系统时代的知识工程有显著的不同。首先,传统专家系统的知识库构建大多以实现高端的决策智能为目标,而知识图谱虽然也被用来实现大数据决策分析(如Plantir),其首要的应用目标是辅助搜索和智能问答。另外一方面,与传统专家系统时代主要依靠专家手工获取知识不同,现代知识图谱的显著特点是规模巨大,无法单一依靠人工和专家构建。传统的知识库,如由Douglas Lenat从1984年开始创建的常识知识库Cyc仅包含700万条的事实描述(Assertion),最新的ConceptNet 5.0也仅包含2800万RDF三元组关系描述,而现代知识图谱已经包含超过千亿级别的三元组。
现代知识图谱对知识规模的要求源于“知识完备性”难题。冯诺依曼曾估计单个个体的大脑中的全量知识需要2.4*1020个bits来存储。客观世界拥有不计其数的实体,人的主观世界更加包含有无法统计的概念,这些实体和概念之间又具有更多数量的复杂关系,导致大多数知识图谱都面临知识不完全的困境。在实际的领域应用场景中,知识不完全也是困扰大多数语义搜索、智能问答、知识辅助的决策分析系统的首要难题。
此专家非彼专家,领域知识图谱变身“百事通”
领域知识图谱是相对于通用知识图谱(如DBPedia、Yago、Wikidata等)而言,面向特定领域的知识图谱,如电商、金融、医疗等。相比较而言,领域知识图谱知识来源更多、规模化扩展要求更迅速、知识结构更加复杂、知识质量要求更高、知识的应用形式也更加广泛。
以比较有代表性的金融领域为例。在金融领域,围绕金融的本体知识建模一直都有不少人在做。在大约10多年前,就有一批做金融信息的结构化描述的人在尝试构建整个金融领域的本体知识模型,其中一直延续到现在的一项工作是FIBO。他们的目标就是希望能够定义整个金融域的规则,并且是采用Top-Down的做法,这是成本非常高昂的工作,而我们现在更多的强调领域知识图谱的构建应该从大量数据中去挖掘和总结。
金融领域比较典型的例子如Kensho采用知识图谱辅助投资顾问和投资研究,国内以恒生电子为代表的金融科技机构以及不少银行、证券机构等也都在开展金融领域的知识图谱构建工作。金融知识图谱构建主要来源于机构已有的结构化数据和公开的公报、研报及新闻的联合抽取等。在知识表示方面,金融概念也具有较高的复杂性和层次性,并较多的依赖规则型知识进行投资因素的关联分析。在应用形式方面,则主要以金融问答和投顾投研类决策分析型应用为主。金融知识图谱的一个显著特点是高度动态性,且需要考虑知识的时效性,对金融知识的时间维度进行建模。
此外金融领域还有一些比较适合于做知识图谱的特点,如文本资源非常丰富,且动态性非常高。大量高度动态的新闻、公报、研报都是自动化获取知识图谱的有力来源,在这方面,我们可以较为深入应用实体识别、大规模自动化词库构建、结合远程监督和深度学习的关系抽取等多方面的图谱构建技术。只要一点一点积累高质量的知识图谱,结合深度学习和自然语言处理等领域的最新进展,金融知识图谱会发挥出门槛式的重大价值。
结语
互联网促成了大数据的集聚,大数据进而促进了人工智能算法的进步。新数据和新算法为规模化知识图谱构建提供了新的技术基础和发展条件,使得知识图谱构建的来源、方法和技术手段都发生极大的变化。知识图谱作为知识的一种形式,已经在语义搜索、智能问答、数据分析、自然语言理解、视觉理解、物联网设备互联等多个方面发挥出越来越大的价值。AI浪潮愈演愈烈,而作为底层支撑的知识图谱赛道也从鲜有问津到缓慢升温,虽然还谈不上拥挤,但作为通往未来的必经之路,注定会走上风口。