国外医学知识图谱介绍 - 问答集锦

最佳答案由匿名用户编辑于2023/03/13 15:58

下面简单列举一些国外医学知识图谱进行介绍。

1.UMLS

UMLS 是美国国立医学图书馆（The National Library of Medicine，NLM）自 1986 年起研究和开发的一体化医学语言系统，旨在使信息系统能够理解生物医学领域同一概念的不同表达形式，实现计算机系统间的互操作。UMLS 知识库包括超级叙词表（Metathesaurus）、语义网络（Semantic Network）、专业词典和词汇处理工具（SPECIALIST Lexicon and Lexical Tools）三个部分，三者可以单独或一起使用。

超级叙词表是一个大型的生物医学词汇库，集成了生物医学和健康方面的本体、叙词表、分类表、疾病编码集、专家系统、词汇表中的术语及相关信息，如 MeSH，RxNorm， SNOMED CT 和 LOINC。它每年发布两次，最新发布的 2021AA 版本包含有 25 种语言、 444 万概念和 1610 万概念名称。超级叙词表以概念为核心进行组织，所有来源词表具有同样涵义的词和短语组成概念或同义词类，每个概念与其它概念之间以语义邻居方式形成不同词表概念间的语义关联。

语义网络由语义类型和语义关系构成。语义类型为超级叙词表的概念提供统一的分类，目前共有 127 种，每个超级叙词表概念至少被分配一个语义类型。语义关系是一组存在于语义类型之间的关系，目前共有 54 种，包括等级关系链 IS A 关系和非等级关系链的相关关系。其中相关关系分为物理上相关、空间上相关、时间上相关、概念上相关和功能上相关五大类。

专业词典和词汇处理工具主要作用是为超级叙词表构建和维护提供帮助。专业词典是在 NLM 自然语言专家处理系统（NLP）项目基础上研发的，覆盖范围包括常见的英语单词和生物医学词汇，是一个通用的生物医学词汇库。每条词汇记录都详细描述了该词的句法、词法和字法信息。它目前包含约 45 万条生物医学和常用英语词汇条目以及 80 余万条词汇变化形式。

词汇处理工具是超级叙词表建立和维护所需的一组工具集，如原形字符串生成器（Normalzed String Generator，Norm）、词索引生成器（Word Index Generator， WordInd）和词形变化生成器（Lexical Variant Generator，LVG）。

2.SNOMED CT

2002 年 1 月 SNOMED CT 首次发布，它由两大医学术语 SNOMED RT（Systematized Nomenclature of Medicine，Reference Terminology）与 CTV3 （Clinical Terms Version 3）合并而来。

SNOMED CT 基于本体进行构建，因其强大的概念体系成为世界最完整的临床术语集，目前已被各国或地区广泛使用。 SNOMED CT 的三大核心分别是概念（Concept）、描述（Description）和关系（Relationship）。目前发布的最新版本包含 35 万概念、125 万描述和 116 万关系。

概念分为 19 个顶层类概念，包括有“Clinic finding”、“Procedure”、“Pharmaceutical / biologic product”、“Substance”、“Body structure”等。

描述（即术语）为概念提供了人类可读的形式，一个概念可以有多个术语进行描述。如“Myocardial infarction”（心肌梗塞）这个概念包括有“Myocardial infarction”、“Infarction of heart”、“Cardiac infartion”和“Heart attack”等多个术语进行描述。其中“Myocardial infarction”称为首选术语，其他术语则称为同义词。

关系用于表达概念之间的语义关联，包括有 IS A 关系和属性关系。IS A 关系表示层级关系，表示概念是其上位概念的一种类型，一个概念可能有多个上位概念，如“Abscess of heart”IS A“Mass of mediastinum”， IS A“Structural disorder of heart”， IS A“Abscess of thorax”，IS A“Abscess of cardiovascular structure of trunk”。属性关系是对概念的内涵进行揭示，如 “Myocardial infarction”Finding site“Heart structure”，Morphological abnormality “Abscess”。SNOMED CT 目前有 50 多种属性关系用于表达不同类下概念之间的语义关系，如“Finding site”、“Morphological abnormality” 和“Has focus”等。

3.Linked Life Data

Linked Life Data 是一个面向生物医学领域的语义数据集成平台，它集成了 25 种生物医学数据资源，如结构化数据库（NCBI Gene、Uniprot、DrugBank、BioPAX 等）、术语库（UMLS、OBO）和半结构化文档（Pubmed、ClinicalTrials.gov），共包含 40 多亿三元组，其知识内容涵盖基因、蛋白质、疾病、药物、分子相互作用、通路、靶点和临床试验相关信息。

Linked Life Data 开发的一个重要目标就是在集成的数据集上进行推理，同时避免数据冗余，并能够推荐新的链接关系或在已知数据集上推导出潜在知识。其构建标准为：使用统一资源标识符（Uniform Resource Identifier，URI）标识所有资源，确保所有标识符都可以被人和计算机进行解析，支持 W3C（The World Wide Web Consortium）的 RDF 和 SPARQL（SPARQL Protocol and RDF Query Language）查询语言，发布的数据需包含与使用 URI 标识的其他相关内容的链接。集成的数据均需采用 RDF 数据模型，因此先保留来源数据的原始 RDF 结构，对没有 RDF 来源的数据源使用可解析的 URI 以规定的形式进行构建。在所有数据都被表示成 RDF 格式后，必须在资源之间建立额外的链接，最终形成“linked” 数据。

参考报告

医学知识图谱：医学人工智能的基石.pdf
- 查看报告