知识图谱互联互通的难点与挑战有哪些?

最佳答案 匿名用户编辑于2023/08/28 14:32

各领域解决方案整体呈现出技术路径差异较大的问题,在迁移过程中面临一系列的难点与挑战,包括以下几点。

一、语义表示规范性不足

由于同领域多个知识图谱或不同领域知识图谱之间存在一定的差异和不一致性,在语义信息交换过程中如何达成对语义信息的规范性表示,进而实现跨领域知识的整合和融合,提高知识图谱的覆盖范围和应用价值,是知识图谱互联互通面临的首要挑战。具体难点包括以下几个方面:

数据来源异构性:不同来源的知识图谱可能采用不同的数据结构、领域语言和实体关系描述方式,这给知识图谱互联互通带来了极大的困难。例如,同一领域内的某个实体在不同的知识图谱中可能采用了不同的命名方式或是拥有完全不同的标识符,此时需对同一领域相同实体的知识表示、知识结构和存储样式进行规范化统一。

多语言语义差异:受输入知识源的影响,由中文、英文等不同语言进行知识表示的知识图谱在互联互通时还需解决不同语言间的语义差异,这有赖于有效的多语言支持保障内容的转换。不同语言间的语义差异纷繁复杂,部分实体在其他语言中没有对应的语义,或者只是部分语义相同,需通过实体定义与描述性解释缩减多语言间的语义差异。语义表达不一致:由于不同组织或机构之间的业务场景和知识体系存在差异,导致各自对于概念和关系的定义及实体、属性及关系的语义表达存在不一致,进而使同一领域不同知识图谱间的信息交互受到限制,需进行语义表示的映射来解决此类问题。

语义互操作模型缺失:统一的信息资源语义互操作模型可以为知识图谱互联互通提供支撑。目前尚未提出一个统一、明确的语义互操作建设模型,但已从语义互操作的某个层面展开了研究应用,例如:建立基于某种元数据方案之上的映射机制,应用特定语义描述语言来提高语义互操作性,从自然语义角度构建本体模型进行语义解析等。

二、专业和权威的术语库缺失

术语是领域专家用来刻画、描写领域知识的基本信息承载单元,是信息检索和信息抽取的重要基础。同时,术语作为本体构成的基本单元,对于知识图谱构建具有重要意义。术语相比于普通实体来说具有更强的专业性和系统性,有助于快速了解领域知识,并有助于把握对应领域的发展现状与趋势。因此,通过收集形成完备的领域术语词表,构建专业和权威的术语库,对于支撑更加完备的领域知识图谱构建及实现领域知识图谱互联互通具有重要意义。

然而,目前专业和权威的术语库缺失严重,主要存在以下两个难点:一是大多数专业领域的信息多以文本形式存在,尚无完善的专业术语词库,且领域术语词复杂多变,在不同语境下可能有不同的含义且多为复合词,缺乏专业和成体系的描述,这也限制了专业和权威术语库的规模化建设;二是针对医疗领域、司法领域等专业性要求较高的领域,在领域术语抽取中存在术语结构复杂、边界难以划分、有效标注语料匮乏等影响因素,进一步增加了上述领域术语的抽取难度。

三、统一和规范的本体库缺失

本体模型用于表示实体类型、实体类型之间的关系、实体类型属性类型及其之间关系,往往表述为一组概念定义和概念之间的层级关系。本体框架形成的树状结构通常被用来为知识图谱定义Schema(图式)。明确、一致的本体模型可以全面、精准地表达领域概念内涵,不仅可以作为不同背景下产生不同观点的人员之间的沟通基础,也可用于在不同的建模方法、语言和软件工具建造的系统之间进行互操作。然而,受本体构建时的需求背景、技术背景、构建者认识角度等因素影响,同类或同领域知识图谱的本体存在异构的问题。本体异构通常表现以下三个方面:一是概念层异构,即建模异构;二是语义层异构,即对本体描述语言的差异以及描述语法的差异;三是词汇异构,如同一个本体可以表达多个实体和概念。例如胰岛素、肾上腺素等词汇,即可表示一种身体激素,也可以指代胰岛素、肾上腺素等药物。此外,也存在同一个实体可能对应不同的本体,例如甲氰咪胍和西咪替丁表示同一种药物。

解决本体异构可考虑以下方法:首先要确定本体的领域和范围,所建本体应该覆盖其领域的所有知识;其次可以考虑复用现有本体,从而可以减少大量本体互操工作;最后可以列出本体的重要术语,如医疗领域中药品、诊断、医嘱、疾病名称、检验类型等共同术语。由于领域内业务的关联性,不同知识图谱系统可能使用部分相同的术语或相同的实体类型、关系类型等,导致异构本体间存在紧密联系。如何将各个语义孤岛上现有的领域本体库进行集成或对齐,形成一个更大的、相似或相同领域的具有统一规范的本体库,是消除语义孤岛,使各领域本体库彼此能够互相“理解”,实现本体之间的互操作,实现知识共享融合和知识图谱互联互通的重要方式。通过探索建设规范和可扩展的公共本体库,依托注册机制对公共本体库中的实体类型、关系类型等进行唯一编码标识和维护,可为私有本体间的对齐提供支撑,进而形成不同本体间的映射和信息转换,破解多方间本体的异构问题。

四、知识建模标准化不足

当前主流的知识建模框架一般以 OWL、RDF、属性图LPG(LabeledProperty Graph)为主。对于 OWL/RDF 而言,存在学习曲线高、建模过程复杂、专家人工成本高等问题,并且在企业应用场景上难以支撑知识建模的持续迭代过程。同时,OWL/RDF 的扩展难以满足复杂的领域概念、事件超图等场景下的知识表达。对于属性图而言,其点和边的模型虽然能够与大数据处理架构进行较好的衔接,但实体的属性值是以文本为主,而且实体之间无法通过属性进行语义传播,需单独对关系进行定义和构建来实现实体之间的连接,导致知识的维护成本较高。

此外,在企业级的知识图谱构建中,为快速实现业务价值的落地,往往以属性图的建模方式为主。虽然前期建设的成本低,但是随着业务的快速发展和知识体量的大幅提升,后续知识模型的变更演化将越来越困难,并导致难以维持错综复杂关系间的逻辑一致性和合理性。因此,属性图的种种弊端严重阻碍了知识图谱在企业场景下的深入应用。为此,需要探索建设一套规范化的工业级知识管理框架,通过完备的形式化描述和明确的构建框架支撑,既可实现与传统大数据处理架构间较好的衔接,又能大幅提效知识的构建过程,丰富实体之间的语义关联。同时,在此基础上通过不断提升领域知识表达的标准化程度和知识内容的质量,支撑不同业务知识间的互连互通和融合的需求,并推动领域知识和大规模预训练模型的有效结合。

五、统一的跨领域知识交换协议缺失

在企业信息化建设过程中,不同的系统或平台因建设方遵循的技术接口、行业指南、开发原则、应用对象等差异,导致其内部存储的信息资源在语义表达中存在区别,进而难以实现多个平台或系统间直接的数据交换。以医疗系统为例,医疗信息数据量大、数据类型复杂的特点,医院使用不同的信息系统,包括电子病例系统(EMR),放射影像和通信管理(PACS)、实验室信息管理系统(LIS)等,通常由不同的软件开发公司开发、运营,采用不同的数据库、语言表达及规范指南,具备所属学科的特色,而信息资源在格式、术语的含义等多方面存在表达的差异性,难以实现在数据在不同平台表达的准确性和有效性,难以实现资源的共享。

针对上述问题,目前有许多技术应用,如虚拟数据库技术、XML、DCOM 等。以信息系统间的语义互操作三层架构规范为例,构建对应的三层规范,以实现异构信息系统间的数据交换。数据层:包含了各个临床信息系统已有的数据资源。信息系统数据多以关系型数据库的方式储存,包括 Oracle、MySQL、MS Access 等。中间层:实现语义互操作的核心层。该层模糊了各技术平台系统的差异性,便于各系统相互粘合,提高了系统的可扩展性、可操作性、可重用性和可维护性。中间层包括各类知识库和 Jena 语义框架等。首先,各类知识库包含了各类信息系统所涉及到的所有领域知识,为了各类信息系统提供了语义转换的依据和标准,使得各系统交换的数据能准备的被理解和使用。其次,Jena 语义框架等通过检索引擎提供对各类知识库中概念和关系的检索、调用、推理等应用。 应用层:包括对 PACS、LIS、EMR 等实际应用信息系统。如医疗系统中每个临床信息系统根据临床需求,如查看患者基本信息、诊断信息、医疗信息、检验检查信息等,通过调用 Web Service,获得所需临床数据。通过临床信息系统数据的三层架构模型的应用,可以实现不同的临床信息系统间的数据交换,从而提高了医疗诊断质量和效率。

六、知识图谱文件描述格式缺失

当前,部分行业或领域知识图谱的构建已开始依托于服务商开发的商业知识图谱平台类产品。然而,各服务商提供的知识图谱平台底层对知识图谱中数据的存储技术体系和存储机制存在较大差异,常见知识图谱数据存储方式详见表 6-1,其中包括: 图数据库:专门用于存储和管理图数据的数据库,例如Neo4j、ArangoDB、OrientDB 等。它们将节点和边作为实体和关系存储,并提供了强大的查询和分析功能。 关系型数据库:使用表格的形式存储数据,通常需要将图谱数据转化为关系型数据模型,然后再存储到数据库中。如MySQL、PostgreSQL等。文档型数据库:使用文档的形式存储数据,可将图谱数据以JSON或XML 格式存储在数据库中。例如 MongoDB、Couchbase 等。文件系统:将图谱数据以文件的形式存储在磁盘上,例如CSV、XML、JSON 格式的文件等。

尽管不同的存储方式拥有各自的优缺点,但不同服务商的知识图谱平台对于知识图谱文件描述格式差异较大并缺乏规范,导致用户企业在进行知识图谱相关平台迭代升级、平台分期或分包建设时面临知识图谱文件交换困难、知识图谱内容解析耗时等问题。目前,亟需探索和明确统一的知识图谱文件描述格式,缩短知识图谱互联互通过程中知识内容迁移和解析的时间,提升互联互通效率。