4 大数据环境下两类知识图谱的应用分析
随着资源数字化进程的急速推进,众多领域的数字资源具有数据增加迅速,总数据量大,种类繁多且价值密度低等大数据特征,这将会给两类知识图谱在知识管理各阶段的相互关系及未来发展产生明显影响。
4.1 知识获取和组织阶段的相互借鉴 “科学知识图谱”的数据一般依赖于现成的数据库获取知识,并在此基础上构建网络模型组织知识。海量数据下,特别是关联数据技术(Linked Open Data,LOD)已成为数据库技术发展的潮流,借助多种数据库关联,能更加全面地融合各种知识和产生创新型知识。因此借鉴“Google知识图谱”的理念,从互联网和云计算系统中收集数据,以及关联多种异构数据库来构建知识库,是大数据时代“科学知识图谱”获取知识的重要手段;另一方面,在社会网络建模过程中,融入语义网的构建方法,在不同的节点间嵌入强语义关联,能够使得社会网络具有推理能力,实现网络分析的智能化。
“Google知识图谱”可以借鉴“科学知识图谱”中的社会网络分析方法,如中心性、凝聚子群和核心—边缘结构等方法,从上述多个角度分析语义网实体之间的结构和关系,从而有利于全面解析语义网络的特征。
4.2 知识存储和共享阶段的各自发展 “科学知识图谱”区别于“Google知识图谱”重要功能在于能通过网络分析发现社团和社团中的关键人物,基于网络路径分析方法实现社团中成员的知识共享。大数据环境下,社团规模急剧扩大,可以达到百万以上的级别。大规模社会网络分析对计算机硬件以及相关算法的性能将提出更高的要求,可以预见,基于分布式计算机集群的云计算技术将会成为“科学知识图谱”大规模网络分析的主要手段。
“Google知识图谱”则需要建立知识库,以存储海量的结构化语义网知识。基于分布式存储技术以取得更大存储容量,另外优化分布式数据库的增、删、改、查以获取更优的管理性能是当前需要迫切解决的问题,代表技术如Hadoop平台上的分布数据库NoSQL技术等。
4.3 知识创新阶段的深度融合 应用数据挖掘算法从网络中发现知识是知识创新的重要手段,由于两类知识图谱在分析方法上同属于网络分析范畴,有关网络分析算法和工具能够相互通用并深度融合。针对海量数据挖掘的聚类和关联挖掘等属于“Google知识图谱”的机器学习算法,可以集成到“科学知识图谱”相关的软件工具中,以提高算法和工具分析性能;另一方面,“Google知识图谱”可以利用“科学知识图谱”中的可视化算法和工具展现大规模语义网络,清晰显示海量知识实体之间的复杂关系。
5 结语
作为知识管理领域的重要分析方法,“科学知识图谱”以社会网络分析和可视化为核心方法,广泛应用于科学学、管理学和图书情报学等诸多领域,已经有了近15年的发展历程,其支撑理论的研究,体系方法的完善和应用成果方面都取得长足的发展。“Google知识图谱”则是为顺应大数据发展的潮流而提出的基于语义网的海量知识库,从2012年至今不过4年时间,但是发展起点较高,伴随关联数据和机器学习研究的兴起,近年来在企业界发展势头迅猛。
正如刘则渊和陈超美等在相关文献中将“科学知识图谱”的“图”和“谱”分别释义为“可视化的知识图形”和“序列化的知识谱系”[15,24],非常形象地将知识网络的各种复杂的互动、交叉和演化关系勾画出来。在大数据时代,“科学知识图谱”将面临的是大规模网络单元的互动、交叉和演化的挑战,需要基于海量数据进行组织、梳理和挖掘,并在此基础形成创新型知识,而这正是“Google知识图谱”的优势所在,因此二者在通过方法和工具上的进一步融合,从而促进知识创新方面将有极其丰富的发展空间。另外,“Google知识图谱”中,以语义网模式绘制的“图”和领域本体规范下的“谱”,将给“科学知识图谱”理论研究和实践应用增添新的活力,也必将推动知识管理领域的新旧范式变革与更迭。