下面简单列举一些国外医学知识图谱进行介绍。
UMLS 是 美 国 国 立 医 学 图 书 馆(The National Library of Medicine,NLM) 自 1986 年起研究和开发的一体化医学语言 系统,旨在使信息系统能够理解生物医学 领域同一概念的不同表达形式,实现计算 机系统间的互操作。UMLS 知识库包括超 级 叙 词 表(Metathesaurus)、 语 义 网 络 (Semantic Network)、专业词典和词汇处 理工具(SPECIALIST Lexicon and Lexical Tools)三个部分,三者可以单独或一起使用。
超级叙词表是一个大型的生物医学词汇库, 集成了生物医学和健康方面的本体、叙词表、 分类表、疾病编码集、专家系统、词汇表中 的术语及相关信息,如 MeSH,RxNorm, SNOMED CT 和 LOINC。它每年发布两次, 最新发布的 2021AA 版本包含有 25 种语言、 444 万概念和 1610 万概念名称。超级叙词 表以概念为核心进行组织,所有来源词表具 有同样涵义的词和短语组成概念或同义词 类,每个概念与其它概念之间以语义邻居方 式形成不同词表概念间的语义关联。
语义网络由语义类型和语义关系构成。语义 类型为超级叙词表的概念提供统一的分类, 目前共有 127 种,每个超级叙词表概念至少 被分配一个语义类型。语义关系是一组存在 于语义类型之间的关系,目前共有 54 种, 包括等级关系链 IS A 关系和非等级关系链的相关关系。其中相关关系分为物理上相关、 空间上相关、时间上相关、概念上相关和功 能上相关五大类。
专业词典和词汇处理工具主要作用是为超级 叙词表构建和维护提供帮助。专业词典是在 NLM 自然语言专家处理系统(NLP)项目 基础上研发的,覆盖范围包括常见的英语单 词和生物医学词汇,是一个通用的生物医学 词汇库。每条词汇记录都详细描述了该词的 句法、词法和字法信息。它目前包含约 45 万条生物医学和常用英语词汇条目以及 80 余万条词汇变化形式。
词汇处理工具是超级叙词表建立和维护所 需的一组工具集,如原形字符串生成器 (Normalzed String Generator,Norm)、 词 索 引 生 成 器(Word Index Generator, WordInd) 和 词 形 变 化 生 成 器(Lexical Variant Generator,LVG)。
2002 年 1 月 SNOMED CT 首次发布,它由 两大医学术语 SNOMED RT(Systematized Nomenclature of Medicine,Reference Terminology) 与 CTV3 (Clinical Terms Version 3)合并而来。
SNOMED CT 基于 本体进行构建,因其强大的概念体系成为世 界最完整的临床术语集,目前已被各国或地 区广泛使用。 SNOMED CT 的三大核心分别是概念 (Concept)、描述(Description)和关系 (Relationship)。目前发布的最新版本包 含 35 万概念、125 万描述和 116 万关系。
概念分为 19 个顶层类概念,包括有“Clinic finding”、“Procedure”、“Pharmaceutical / biologic product”、“Substance”、“Body structure”等。
描述(即术语)为概念提供了人类可读的形式,一个概念可以有多个术语进行 描 述。 如“Myocardial infarction”( 心 肌 梗 塞) 这 个 概 念 包 括 有“Myocardial infarction”、“Infarction of heart”、“Cardiac infartion”和“Heart attack”等多个术语进 行描述。其中“Myocardial infarction”称为 首选术语,其他术语则称为同义词。
关系用于表达概念之间的语义关联,包括有 IS A 关系和属性关系。IS A 关系表示层级关 系,表示概念是其上位概念的一种类型,一 个概念可能有多个上位概念,如“Abscess of heart”IS A“Mass of mediastinum”, IS A“Structural disorder of heart”, IS A“Abscess of thorax”,IS A“Abscess of cardiovascular structure of trunk”。 属性关系是对概念的内涵进行揭示,如 “Myocardial infarction”Finding site“Heart structure”,Morphological abnormality “Abscess”。SNOMED CT 目前有 50 多 种属性关系用于表达不同类下概念之间的语 义关系,如“Finding site”、“Morphological abnormality” 和“Has focus”等。
Linked Life Data 是一个面向生物医学领域 的语义数据集成平台,它集成了 25 种生 物医学数据资源,如结构化数据库(NCBI Gene、Uniprot、DrugBank、BioPAX 等)、 术语库(UMLS、OBO)和半结构化文档 (Pubmed、ClinicalTrials.gov), 共 包 含 40 多亿三元组,其知识内容涵盖基因、蛋 白质、疾病、药物、分子相互作用、通路、 靶点和临床试验相关信息。
Linked Life Data 开发的一个重要目标就是 在集成的数据集上进行推理,同时避免数据 冗余,并能够推荐新的链接关系或在已知数 据集上推导出潜在知识。其构建标准为: 使用统一资源标识符(Uniform Resource Identifier,URI)标识所有资源,确保所有标识符都可以被人和计算机进行解析,支持 W3C(The World Wide Web Consortium) 的 RDF 和 SPARQL(SPARQL Protocol and RDF Query Language)查询语言,发 布的数据需包含与使用 URI 标识的其他相关 内容的链接。集成的数据均需采用 RDF 数 据模型,因此先保留来源数据的原始 RDF 结构,对没有 RDF 来源的数据源使用可解 析的 URI 以规定的形式进行构建。在所有 数据都被表示成 RDF 格式后,必须在资源 之间建立额外的链接,最终形成“linked” 数据。