当前知识图谱的构建方法主要分为机器构建 和人工构建两种。
在医学知识图谱的构建中,机器构建主要用 于解决人工效率低的问题,所以机器构建的 技术方法选择应以最大化减少人力为主要判 断标准。具体来说有以下几点原则:
1)技术成熟度优先: 知识图谱构建技术的研究和发展速度很快, 大量的新理论和新技术在科研中被应用。但 是构建临床实际应用级别的医学知识图谱不 应执着于高新技术,技术的成熟性和稳定性 才是保证数据质量的关键。
2)技术按需选取: 医学知识图谱的构建不能寄希望于依靠单技 术或少量几种技术解决所有问题,而应该更 加细致地拆分任务,针对不同的细分任务选 取合适的技术方法,才能达到更好的效果。
3)技术准确率优先: 医学知识图谱质量要求高,机器自动处理的 结果中错误率过高不但会降低整体数据质 量,而且人工纠错会带来更多的工作量。因此技术应定位在保证简单知识的准确抽取, 并且准确率的考量要优先于召回率。
人工构建医学知识图谱可以一定程度上解 决机器构建的数据质量的问题,同时人工 产生的标注数据也可以用于机器学习的模 型训练,但人工构建的主要问题是效率相 对比较低下。近些年,随着互联网技术的 发展,知识型众包正逐渐发展起来。众包 (Crowdsourcing)是一种通过将工作先分 配给很多非特定的参与者再合成为最终结果 的模式 [64]。众包相较于传统的人工方式, 在效率和灵活性上更有优势,所以众包适合 用于知识图谱的构建。采用众包的方式进行 医学知识图谱构建有以下几点原则:
1)较高的准入资质: 医学专业性很强,要确保众包构建出的医学 知识图谱不出现质量问题,就一定要保证参 与人员的资质。需要针对不同的领域,选取 不同的医学从业者,如临床医生、护士、医 学生和医技专业人员等,同时也要做好资质 审核。
2)全面的知识培训 :医学知识图谱构建是一个跨学科的任务,需 要医学专业人员有一定的知识图谱的基础 知识。因此,在正式开始任务前,需要对任 务执行者进行知识图谱基础知识的培训和讲 解,然后可以安排测试,通过测试后方可正 式开始任务,确保任务执行者充分理解任务。
3)精细的任务划分: 在医学知识图谱的构建流程中,不同工作所 需要的人工参与度不同。如何选取出其中最 重要且最需要人工的部分来进行众包构建是 关键。例如,构建 Schema 一定需要领域专 家大量参与,知识抽取和知识融合则需要人 工对机器的结果做审核和质量控制,而知识 推理则一般只需要人工定义规则。 其次,尽量选取易达成共识性的知识源,从 而避免在任务过程中相关专业人员因个人的 原因出现分歧。例如,可以选取医学教科书、 临床指南、临床路径和药品说明书等权威性 较高的知识源,尽量避免个人经验类的知识。
4)易用的协作平台: 医学知识图谱构建任务比较繁琐,所以搭建 一个易用的协作平台很有必要。通过协作平 台,任务管理者可以更简单的设置任务和分 发任务,任务执行者可以更方便和简单的完 成任务。例如,通过协作平台将大任务拆分 成小任务,分多次的分发以保证参与度与完 成度;通过将填空型任务转换为选择型任务, 将选择型任务转换为判断型任务等方式来简 化任务 [7]。
5)健全的质控机制: 由于参与人数众多,采用人工众包的方式构 建医学知识图谱同样也会存在质量隐患, 所以建立一个良好的质量控制体系也尤为关 键。常见的方法有:相同任务安排双人独立 完成后,对一致性进行检测;任务结果的人 工抽样检测;与成熟的医学知识图谱对比评 估等。