知识图谱互联互通在安全方面的重点任务主要包括两部分:数据安全风险评估与分级开放共享,以下分别介绍这两部分的细节及相关要求。
知识图谱数据在开放共享前,应进行数据安全风险评估。知识图谱数据是对源头数据经过加工处理后的资源。由于知识图谱数据与源数据相比有较大的形式差别,安全风险会有一定的隐蔽性。通常涉及个人数据、隐私、商业数据、业务数据、知识产权保护、国家安全和商业秘密等受限内容。相关数据的存储及表示形式也往往呈现非显式的特点。因此有必要在互联互通的数据源头进行事前安全评估和审查。
知识图谱数据的安全互联互通还需要考量知识图谱数据的知识产权、分发、演绎、溯源以及数据出境评估等因素。知识图谱数据的知识产权主要指数据的作者对知识产权的申明和要求情况,即数据是否可以共享、共享的人员范围、可否供商业使用、使用数据是否需要引用和申明作者的贡献等。知识图谱数据的分发主要是指能否由数据所有者以外的人提供给其他人,以及可否再分发等。知识图谱数据的演绎主要是指是否允许用户对数据进行更改,以及更改以后的再发布权限要求等。知识图谱数据的溯源主要指是否需要记录数据资源被谁在何种目的下使用等。
由于开放共享的知识图谱数据主要通过互联网传播,数据共享过程中会存在数据流向境外的风险,在风险评估环节需要关注是否符合国家数据出境安全相关规定。国家互联网信息办公室于2022 年5 月发布了《数据出境安全评估办法》(国家互联网信息办公室第11 号令)[5],对数据处理者向境外提供在我国境内运营中收集和产生的重要数据和个人信息安全的评估工作提出了具体要求。 该办法提出,对于数据处理者向境外提供重要数据、关键信息基础设施运营者和处理 100 万人以上个人信息的数据处理者向境外提供个人信息、每年累计向境外提供 10 万人个人信息或者1 万人敏感个人信息的数据处理者向境外提供个人信息等情况,应当通过所在地省级网信部门向国家网信部门申报数据出境安全评估。
对知识图谱的开放数据进行分类分级处理是实现知识图谱安全管理与共享的可行方法。分类分级是实现数据安全的基石,是知识图谱数据有序管理各项资源的基础,能够有效平衡知识图谱数据安全与数据开放之间的关系[6]。国际通用的知识共享协议(Creative Commons License,又称 CC 协议)包含了以下授权要素:署名(BY)、非商业性使用(NC)、相同方式共享(SA)、禁止演绎(ND)[7],以及公共领域奉献(又称CC0 协议),即完全放弃数据所有权[8]。
根据授权要素的不同组合形式,知识图谱互联互通的数据开放共享可划分为 5 个级别,即匿名公共开放、常规开放共享、非商业开放共享、常规授权共享和非商业授权共享。不同级别的知识图谱资源有相应的知识图谱共享等级(Knowledge Graph Share Level)标识代码。按照知识图谱互联互通数据资源的开放程度从宽松到严格的顺序,知识图谱开放共享等级可分为五种。

匿名公共开放(KG-S0):知识图谱数据作者完全放弃数据所有权及署名权,对应于 CC0 级别。此类知识图谱数据完全开放,任何用户都可以随意查询、使用、下载和传播该资源,并可用于商业目的,数据进行分发及二次共享时不需注明数据的所有者。
常规开放共享(KG-S1):知识图谱数据由作者开放共享,在标注数据署名的前提下无访问权限限制,对应于CC-BY 级别资源。用户可以查询、使用、下载和传播该资源,并可用于商业目的。用户还可以对该级别资源进行二次修改,修改后的知识图谱数据需要以相同的授权方式予以共享,共享时需要注明数据的所有者。
非商业开放共享(KG-S2):知识图谱数据由作者开放共享,在标注数据署名的前提下可用于非商业用途,对应于CC-BY-NC 级别资源。用户可以查询、使用、下载和传播该资源,不可用于商业目的。用户对数据加工共享时需要注明数据的所有者。
常规授权共享(KG-S3):知识图谱数据由作者开放共享给特定用户,可用于商业或非商业用途,对应于CC-BY-SA 级别资源。授权用户可以查询、使用、下载和传播该资源,一般签署独立协议限定用于特定范围及用途。
非商业授权共享(KG-S4):知识图谱数据由作者开放共享给特定用户,仅可用于非商业用途,对应于 CC-BY-NC 级别资源。授权用户可以查询、使用、下载和传播该资源,一般签署独立协议限定用于特定范围及用途。
由于知识图谱数据通常为知识加工层面的中间数据,以上分级中均未包括“禁止演绎”。知识图谱在进行互联互通的业务实践中,建议按照以上知识图谱共享等级明确开放共享范围,并在知识图谱共享过程中明确各方机构与人员的知识产权意识,提高知识图谱互联互通的整体安全保障能力。