以下内容都是根据相关报告总结的,如果有兴趣了解更多相关的内容,请下载原报告阅读。
知识融合在医学知识图谱的构建中是解决数 据异构和冗余的关键步骤,知识融合一般可 以分为 Schema 融合和实体对齐。
1)Schema 融合
Schema 融合主要发生在不同的医学知识图 谱融合过程中。由于医学领域知识较为专业, Schema 的融合主要采用人工的方式进行以 保证融合的质量。Schema 融合的关键在于 充分理解不同知识图谱的 Schema 后,找到 其中等价的语义类型和属性关系并建立等价 关系。无法建立等价关系的部分,可以寻求 建立层级关系。例如,语义类型“检验检查” 和“操作”,语义关系“症状”和“临床表 现”之间都可以建立 IS A 关系。若等价关 系和层级关系都无法建立,则可以视具体的 应用需求,选择保留所需部分。
2)实体对齐
实体对齐是知识融合中最关键的步骤,其主 要任务就是判断出的实体间的等价关系。在 医学知识图谱的构建过程中,一般流程为: 数据预处理→数据分块→实体对齐。 数据预处理的主要目的是完成数据的正规 化,一般包括对实体名称上空格和标点符号 的处理,大小写的统一,繁体和异体字的转 换,错别字的修正等。数据分块是指根据语 义类型将实体划分为不同的类别,用于保证 只有相同或等价的语义类型中的实体才会进 行融合。根据分块后不同类别实体的名称特 点选择合适的实体对齐方法,给出合适的推 荐结果,然后进行实体对齐。常见的实体间 相似度计算方法包括 Jaccard 系数、Dice 系数、编辑距离、机器学习以及近年来关 注较多的知识表示学习(Representation Learning)的方法 2 。
在 Schema 融合工作中,医学知识由于其 专业性较高,实体间的关系类型较为复杂, 所以需要大量的医学专家参与到 Schema 的融合过程中,如何让医学专家顺利的理 解 Schema 和知识图谱是其中的难点。在 实体对齐时,医学类实体间的一词多义的现 象会对实体对齐带来很大挑战。例如,“肺 癌”在一些场景中可以用来指代“肺部恶性 肿瘤”,但实际在严谨的肿瘤形态学定义 中,“肺癌”应为“肺部恶性肿瘤”的子类 概念。一词多义问题在碰到英文缩写时会更 加严重,相同的缩写可能分别指代两个无 任何关联的实体,例如检验项目“甘油三 酯(triacylglycerol)”和“甲状腺球蛋白 (thyroglobulin)”的英文缩写都可以写作 “TG”。