推荐序——知识图谱向何处去?
陆汝钤
很高兴得知陈华钧教授要出知识图谱的新书了。与2019年出版的《知识图谱:方法、实践与应用》相比,本书在内容上有很多更新,尤其是第8、第9两章中的新内容最为集中。这些内容反映了近年来知识图谱理论和技术的迅速进步,同时展现了作者团队的辛勤工作所取得的丰硕成果。我初步翻阅本书,就觉得很有收获。这里就其中的两个话题—知识图谱推理和知识图谱融合,谈一点个人想法。
知识图谱的推理是知识图谱服务功能中一个极其重要的问题。基于知识图谱的许多重要问题的解决都离不开推理。陈华钧教授曾经一语中的:知识获取的途径是“大样本靠机器学习,小样本靠知识推理”。这是知识图谱显身手的主战场。本书的“知识图谱推理”一章介绍了基于知识图谱的多种推理方式,包括基于规则的、基于本体的、基于图结构的、基于表示学习的、基于神经网络的,等等,这是非常有道理的。知识本身的多种多样,加上人的思维方式的多种多样,决定了推理方式的多种多样,也决定了推理逻辑的多种多样。本书已经介绍了足够多的知识推理机制,虽然受篇幅所限,难以穷尽开放语义下各种可能的知识图谱推理方式,但是最基本的“三大件”—规则推理、神经网络推理和图推理,都已经具备了。我有一个遐想:这“三大件”就像“海、陆、空”。图推理是“海”,亿万级“当量”的知识图谱是知识元素的“大海”。而一层又一层、高入云霄的深度神经网络可谓是“空”中楼阁。至于那强调一步一个脚印的规则推理,则是“陆”地上的老黄牛,看上去不那么“摩登”,但实际推理中却始终离不开它。我深信这“三大件”像最基本的化学元素,知识图谱的耕耘者们会不断地把这些基本元素“合成”为最新颖、最有效的崭新推理机制。
本书有一章是献给“知识图谱融合”的。如果把某个领域的知识图谱比作该领域的人类专家,则完全可以想象:有许多复杂问题单靠一位专家是解决不了或解决不好的,而一个优秀的专家团队将会大大提升解决问题的能力。对于知识图谱也是如此。在我们看来,这不仅是大数据的融合,更应该是大知识的融合,在一定程度上体现了知识图谱学习人类专家的合作精神。但是我还想做一点补充,除了知识图谱融合,知识图谱配合(只差一个字)也是可以考虑的。就是反其道而行之,不是融合成一个巨型图谱,而是保持各自的独立性,建成一个团队,开展多图谱合作。它们各有所长,遇到任务可以分工负责,遇到跨领域问题或不同意见可以切磋讨论,甚至辩论,从而引进多维度的灵活性。实际上,作者在第9章引入了基于区块链和知识价值观的联邦知识图谱的概念,虽然已接近本书的最后,却非常重要。其中提到的“去中心化”的思想更是“知识图谱配合”的核心概念。联邦知识图谱可以广义化、一般化,如果再配上杨强教授倡导的联邦学习,那就是如虎添翼,知识图谱的威力更大大提高了。它们不仅利用各自的知识以合作解决问题,而且保护了各自的知识产权,成为一种知识区块链的基础(我在不久前的一次国际会议上提出过这个建议)。我个人认为,在一定意义上,知识图谱配合将会显示出比知识图谱融合更加深远的理论意义和研究价值。我甚至期待着复杂度可能远超一般的“知识图谱联邦”(关键词:合作、保护)的“知识图谱共同体”(关键词:合作、保护和竞争)的出现。
多图谱合作和多图谱融合有一个共同的问题,就是各方图谱的结构、语法、语义和表示可能有较大差别,导致出现民间所谓的“鸡同鸭讲话”的困境。在这种情况下,如何才能合作好呢?别担心!世事毕竟“分久必合,合久必分。”一个学问出来了,研究的人多了,慢慢就形成了不同的流派。再过一段时间,出来了高人,又把不同的流派在更高的层面上统一了。目前正处于知识图谱大发展时期,还在“分”的阶段。各种新技术百花齐放,层出不穷。只是相比之下,“百家争鸣”稍嫌不足。以上面提到的知识推理为例,各种推理方法的提出和介绍在文献中比比皆是,但是对它们作对比和分析的文献相对缺失。本书在这一章的最后一节有对几种推理策略的简要分析和比较,那几句话很关键,可供知识图谱开发者参考。不过我们并不满足于此,而是期待着更加深入的理论剖析和应用指导的出现。至于当今一些知识图谱在知识表示上的各行其是,包括一些在国际上极负盛名的特大型知识图谱,则尤为明显。我们相信,在适当的时机会有某个权威的国际学术机构出面制定各种标准,收拾纷杂,形成一统。就像秦灭六国,什么语言文字,什么道宽路距,全部统一了。
本书对知识图谱技术的介绍是非常全面的。从知识的获取、表示和存储、图谱的构建和融合,直到图谱的查询、问答和推理等,还介绍了多种特殊类型的知识图谱,内容洋洋大观。这些技术应该都已经有相应的算法,并且体现为程序,掌握在不同的开发者手中,而且针对同一问题的算法和程序可能还不是唯一的。这里我想到了相应软件工具的(有偿或无偿)共享问题。不仅是个别的、特定的共享,而且是成套的、系统的共享。这对于知识图谱开发者非常重要。省去了耗时耗力的重复开发,可以把精力集中到研发新技术方面。我借此机会向同行们呼吁一下:请关注知识图谱通用平台的研发。它们集成了知识图谱从开发、管理到应用的许多功能,是知识图谱工程的一个重要组成部分。同时我还要强调本书作者陈教授说过的一句话:“我们希望见到国产的、开源的、允许批量下载(dump)的大型海量知识图谱。”陈教授认为只有这样的知识图谱才能够体现我国知识图谱技术在世界上的地位和影响。我完全支持这个倡议。
回到本书的宗旨。我注意到作者在本书中谈及的内容,基本上是根据他自己的授课教材编写而成的,并且今后还要根据知识图谱学科的进展,不断调整和丰富其内容。这是一条教研相长的光明大道。我们预祝陈教授成功!
陆汝钤
前言
知识图谱的发展历史源远流长。从经典人工智能的核心命题—知识工程,到互联网时代的语义Web,再到当下很多领域构建的数千亿级别的现代知识图谱,以及在语义搜索、智能问答、推荐计算、语言理解、大数据分析、设备物联等领域的广泛应用。知识图谱也是典型的交叉领域,是知识表示、机器学习、自然语言处理、图数据库、信息获取等多个领域相关技术的系统性综合运用。知识图谱同时也是不断发展的新领域,并在不断与图神经网络、联邦学习、区块链、视觉计算等众多领域的新发展进一步融合,不断更新和进步。
为什么写作本书
本书的初衷是作为浙江大学知识图谱课程的配套讲义。我理想中的大学课程一方面需要提纲挈领,为学生讲解核心概念和基本知识点,帮助学生形成一个领域的整体知识体系;另一方面也需要启发创新,为学生梳理最新的发展前沿,帮助学生开拓视野,启发学生进一步开展创新研究工作。
因此,本书的基本写作原则也和课程一样。全书包含了知识图谱的基础知识介绍,全面覆盖了知识图谱的表示、存储、获取、推理、融合、问答、分析等七大方面,一百多个基础知识点的内容。同时也囊括了多个知识图谱相关技术领域的最新发展前沿。例如,有关多模态知识图谱、知识图谱与图神经网络的融合、本体表示学习、事理知识图谱、知识增强的语言预训练模型、知识区块链等内容都是近两年的新热点,也被首次系统性地整理进来。此外,本书也包含了作者团队在知识图谱方向的一部分学术探索和应用实践工作,例如知识图谱与可解释人工智能、知识驱动的低资源学习、大规模知识图谱预训练等。
知识图谱不是单一技术,而是系统工程。本书希望帮助读者建立知识图谱的系统工程观,为各个领域的技术决策者提供知识图谱的整体视图,帮助企业技术实践者系统性地了解知识图谱的各方面技术要素,同时也为前沿科研人员拓展研究视野和创新方向。
因此,它的核心定位是一本知识图谱方向的导论、总论性质的书,并将持续配套课程内容进行更新。它可以和其他图书配合使用,例如由OpenKG组织编写的《知识图谱:方法、实践与应用》;由阿里巴巴与浙江大学知识图谱团队联合编写,详细介绍阿里巴巴电商知识图谱工程实践工作的《工业级知识图谱:方法与实践》等书。
本书主要内容
本书共包括9章,主要内容如下:
第1章首先从语言和知识两个视角阐明知识图谱是实现认知人工智能的重要一环。然后通过追溯知识图谱的发展历史,说明知识图谱不仅和人工智能有关,而且具有非常强的互联网基因。
第2章探讨了知识图谱的表示问题,分别介绍了知识表示的内涵、人工智能发展历史长河中出现的各种知识表示方法,并重点围绕知识图谱介绍了最常用的符号表示和向量表示两种方法。
第3章探讨知识图谱的存储和查询问题。在很多实际的知识图谱项目中,搭建图数据库并建立知识图谱查询引擎仍然是最基础的工作。本章不仅介绍了图数据库的一些选型原则,还深入到原生图数据库背后的实现原理,帮助大家从本质上把握图数据的优缺点。
第4章探讨知识图谱的构建。首先简要回顾并重新理解知识工程的发展历史与技术内涵,然后分别从实体识别与分类、关系抽取与属性补全、概念抽取、事件识别与抽取等五个方面介绍知识抽取技术的内涵。
第5章关注知识图谱的一个重要技术领域——推理。利用机器实现类似于人类心智的推理能力是人工智能自诞生以来最核心的目标和任务之一。我们构建各种各样的知识图谱来描述客观世界,抽象万物之间的逻辑关系,不只是为了查询和搜索,更是为了利用这些事实性知识去推断、归纳和预测未知的新知识。本章重点介绍了基于符号逻辑和基于表示学习的两类不同的知识图谱推理方法。
第6章探讨知识融合问题。首先简要回顾知识图谱构建和应用中遇到的知识异构性问题,并理解知识融合的意义和目标,然后分别从本体匹配和实体对齐两方面介绍知识融合技术的内涵,最后还总结了知识融合技术的发展前沿和趋势。
第7章介绍知识图谱在智能问答中的应用。知识图谱作为一种结构化的问答语料,由于能够提供相比于文本更为精准的答案而被广泛地应用于各种智能问答系统中。本章分别介绍了基于问句模板、基于语义解析、基于检索排序和基于深度学习等四种不同的知识图谱问答实现方法。
第8章重点介绍知识图谱中偏“图”方面的内容。从图论和图算法的一些基本知识出发,逐步扩展到介绍图表示学习算法和图神经网络模型,并着重介绍利用图表示学习和图神经网络等方法处理知识图谱数据的一些模型和方法,以及在计算机视觉、自然语言处理、推荐计算等领域的一些应用。
第9章主要介绍知识图谱的新发展。知识图谱是发展迅速的交叉技术领域,并在不断地与其他领域进一步融合。本章从多模态知识图谱、知识增强的语言预训练模型、事理知识图谱、知识驱动的低资源学习、知识图谱预训练、知识图谱与区块链等方面,尝试对一些知识图谱技术的新发展做一些概要性的介绍。
如何阅读本书
这是一本知识点比较丰富的书,读者应该怎样利用这本书呢?
首先,阅读本书的最好方式是和浙江大学知识图谱慕课课程配合学习。可在智慧树在线教育平台中搜索“知识图谱”获取。本书的章节安排与课程安排基本一致。除了观看慕课视频,读者还可以通过慕课课程提供的诸如知识点测试试题、课程实践向导等资源巩固相关知识点。
其次,本书的一些章节需要读者具备一些前置知识。例如,第2章需要读者具有数据库技术的相关基础,第3章到第8章要求读者已经了解基本的机器学习知识,并开展过一些深度学习实践。第4章要求读者已经掌握部分自然语言处理的基本知识。
知识图谱技术点繁多,比较好的学习方式是首先对书的整体内容进行概要性浏览,略过细节。在形成对知识体系的整体认知之后,再结合自己感兴趣的点进行深入研读。如果研读某个知识点仍然感觉吃力,可以通过对应的慕课课程讲解进一步深入理解。
致谢
感谢帮助建设知识图谱课程和为本书编写提供素材的浙江大学知识图谱团队全体成员,本书的不少内容得益于团队的集体努力。感谢我的家人给予我坚持不懈的支持。
感谢陆汝钤院士为本书撰写序言,感谢王熙照教授、张民教授和司罗教授的推荐,以及许多领域前辈和老师在本书撰写过程中给予的指导和支持。
感谢电子工业出版社博文视点的宋亚东编辑对本书的重视,以及出版人员为本书所做的一切。
由于作者水平有限,书中不足之处在所难免,敬请专家和读者给予批评指正。
陈华钧
2021年2月