医学知识图谱融合类型及难点有哪些？ - 问答集锦

最佳答案由匿名用户编辑于2023/03/13 16:18

以下内容都是根据相关报告总结的，如果有兴趣了解更多相关的内容，请下载原报告阅读。

1.医学知识图谱融合类型

知识融合在医学知识图谱的构建中是解决数据异构和冗余的关键步骤，知识融合一般可以分为 Schema 融合和实体对齐。

1）Schema 融合

Schema 融合主要发生在不同的医学知识图谱融合过程中。由于医学领域知识较为专业， Schema 的融合主要采用人工的方式进行以保证融合的质量。Schema 融合的关键在于充分理解不同知识图谱的 Schema 后，找到其中等价的语义类型和属性关系并建立等价关系。无法建立等价关系的部分，可以寻求建立层级关系。例如，语义类型“检验检查” 和“操作”，语义关系“症状”和“临床表现”之间都可以建立 IS A 关系。若等价关系和层级关系都无法建立，则可以视具体的应用需求，选择保留所需部分。

2）实体对齐

实体对齐是知识融合中最关键的步骤，其主要任务就是判断出的实体间的等价关系。在医学知识图谱的构建过程中，一般流程为：数据预处理→数据分块→实体对齐。数据预处理的主要目的是完成数据的正规化，一般包括对实体名称上空格和标点符号的处理，大小写的统一，繁体和异体字的转换，错别字的修正等。数据分块是指根据语义类型将实体划分为不同的类别，用于保证只有相同或等价的语义类型中的实体才会进行融合。根据分块后不同类别实体的名称特点选择合适的实体对齐方法，给出合适的推荐结果，然后进行实体对齐。常见的实体间相似度计算方法包括 Jaccard 系数、Dice 系数、编辑距离、机器学习以及近年来关注较多的知识表示学习（Representation Learning）的方法 2 。

2.医学知识融合难点

在 Schema 融合工作中，医学知识由于其专业性较高，实体间的关系类型较为复杂，所以需要大量的医学专家参与到 Schema 的融合过程中，如何让医学专家顺利的理解 Schema 和知识图谱是其中的难点。在实体对齐时，医学类实体间的一词多义的现象会对实体对齐带来很大挑战。例如，“肺癌”在一些场景中可以用来指代“肺部恶性肿瘤”，但实际在严谨的肿瘤形态学定义中，“肺癌”应为“肺部恶性肿瘤”的子类概念。一词多义问题在碰到英文缩写时会更加严重，相同的缩写可能分别指代两个无任何关联的实体，例如检验项目“甘油三酯（triacylglycerol）”和“甲状腺球蛋白（thyroglobulin）”的英文缩写都可以写作 “TG”。

参考报告

医学知识图谱：医学人工智能的基石.pdf
- 查看报告