当前,境内平台使用境外生成式人工智能服务的合规要点主要在资质要求、数据跨境 合规、数据训练合规等方面,具体如下:
(一)算法备案 为满足生成式人工智能服务的透明度要求,根据《AIGC 管理办法》《深度合成管理 规定》《算法推荐管理规定》,平台运营方、技术支持方均应当履行算法备案的义务。因 此,在境内平台使用境外生成式人工智能服务的场景下,境外的技术支持方以及境内的平 台运营方均应当进行算法备案,具体而言 4 : • 在算法类型方面,境外的技术支持方以及境内的平台运营方均应当选择“生成合 成类(深度合成)算法”这一算法类型进行算法备案; • 在备案角色方面,境外的技术支持方应当作为深度合成服务技术支持者进行算法 备案,境内平台的平台运营方应当作为深度合成服务提供者进行算法备案; 《算法推荐管理规定》进一步明确,如技术支持方以及平台运营方未依法履行备案手 续的,由网信部门和电信、公安、市场监管等有关部门依据职责给予警告、通报批评,责 令限期改正;拒不改正或者情节严重的,责令暂停信息更新,并处一万元以上十万元以下 罚款。
(二)安全评估 根据《AIGC 管理办法》《深度合成管理规定》《算法推荐管理规定》《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》(“《安全评估规定》”),境外的 技术支持方、境内平台的平台运营方还应当完成以下两种类型的安全评估:一是按照《安 全评估规定》通过全国互联网安全管理服务平台完成具有舆论属性或社会动员能力的互联 网信息服务安全评估;二是针对生成式人工智能服务进行新技术新应用安全评估(即双新 评估),而关于双新评估的具体流程以及要求仍有待监管部门进一步公开。 根据《安全评估规定》,如技术支持方、平台运营方拒不依法开展安全评估的,网信部 门和公安机关将通过全国互联网安全管理服务平台向公众提示其提供的服务存在安全风险。
在境内平台使用境外生成式人工智能服务的场景下,中国境内用户在境内平台的输入 端口提出问题后,该问题会传输到位于境外的技术支持方,技术支持方模型给出相应回答 后,该回答便会传输到境内平台的用户端口以实现对问题的反馈。按照该服务模式,境内 平台的平台运营方向境外技术支持方传输用户输入数据的过程中,平台运营方有可能涉及 将中国境内用户的个人信息传输至境外。 在此种情形下,对于平台运营方而言,平台运营方应当按照《中华人民共和国个人信 息保护法》(“《个人信息保护法》”)《数据出境安全评估办法》《个人信息出境标准 合同办法》等相关法律法规履行个人信息跨境传输相关的合规要求,包括数据出境安全评 估 / 个人信息保护影响评估、个人信息出境标准合同签订和备案、用户告知等。 对于境外技术支持方而言,在技术支持方与平台运营方签订个人信息出境标准合同的 情形下,技术支持方应当履行该等标准合同项下境外接受方的义务,例如确保个人信息的 保存期限为实现处理目的所必要的最短时间,保存期限届满的,应当删除个人信息(包括 所有备份)。同时,技术支持方还应当按照标准合同的约定,结合其所在国家或者地区的 个人信息保护政策和法规,对于该等政策和法规对于技术支持方履行标准合同约定义务的 影响进行评估。
根据《个人信息保护法》,如平台运营方、技术支持方违反上述要求,平台运营方、 技术支持方将被中国境内的主管部门处以责令改正、给予警告、没收违法所得、罚款等行 政处罚;违法处理个人信息的应用程序,将被责令暂停或者终止提供服务;直接负责的主 管人员和其他直接责任人员将被处以一万元以上十万元以下罚款。此外,平台运营方、技 术支持方还可能因违反技术支持方所在国家或者地区可适用的个人信息保护政策和法规面 临相应的处罚风险。
如我们在本书《大模型合规之现实初探》一文中所述,数据是大模型最底层的“原料”, 而数据训练是对“原料的使用”,数据训练合规是满足服务生成内容合规的重要前提,技 术支持方、平台运营方应当按照《AIGC 暂行办法》5 的要求,开展预训练、优化训练等 训练数据处理活动。 在境内平台使用境外生成式人工智能服务的场景下,境内平台运营方应当特别关注数 据和基础模型来源合法、知识产权合规以及个人信息保护等方面的要求。具体而言,
(一)数据和基础模型的来源合法 关于数据和基础模型,一般由境外技术支持方提供基础模型以及该等基础模型的训练 数据。为满足相应的合规要求,平台运营方应对于境外技术支持方提供的基础模型和数据 来源的合法性进行必要的审查,对技术支持方数据安全保护能力开展尽职调查。在平台运 营方与技术支持方签署的相关技术服务合同中,平台运营方可以要求技术支持方对数据和 基础模型来源的合法合规性进行陈述保证,明确双方的权利义务,避免因技术支持方所提 供的基础模型和 / 或数据来源合法性问题影响平台运营方业务的持续开展。
(二)知识产权合规 如我们在本书《ChatGPT 许可应用,知识产权和数据怎么看?》一文中所述,在模 型训练的过程中,在数据收集阶段、数据预处理阶段、结果生成阶段分别可能涉及对于数 据的复制、翻译、改编、汇编、信息网络传播等受到著作权法等知识产权相关法律法规规 制的行为。而在模型的训练数据库涉及未经授权使用他人享有知识产权的数据及内容的情 形下,天然具有知识产权侵权风险。以 ChatGPT 为例,ChatGPT 的数据源包括用户输入 内容和训练数据库。其中,用户输入内容包括用户使用 ChatGPT 等非 API 服务提供的数据; 训练数据库则包括以下三种类型的数据:公有领域内容、通过签订合同获得合法授权的内 容、未经授权的信息及内容。倘若技术支持方提供的模型的训练数据库涉及未经授权的信 息及内容,在境内平台生成内容与该等信息及内容存在实质性相似的情形下,技术支持方、 平台运营方往往并不属于合理使用,从而均有可能承担相应的侵权责任。为降低前述侵权 风险,在要求技术支持方确保数据来源合法合规性的同时,我们也建议技术支持方、平台 运营方对于生成内容进行一定程度的审核,确保生成内容在表达方面与原始的信息及内容 在存在显著区分。
(三)个人信息保护 如前文所述,在部分情形下,用户输入内容将成为技术支持方模型的训练数据。例如, 根据 OpenAI 官网的说明,用户通过 ChatGPT、DALL-E 等非 API 服务提供的数据将成为 ChatGPT 的训练数据,除非用户选择关闭训练模式;而用户通过 API 提供的数据将不会 作为 ChatGPT 的训练数据,除非用户另行进行授权 6 。而该等用户输入内容中可能包含 用户的个人信息。参考全国信息安全标准化技术委员会发布的《信息安全技术 机器学习 算法安全评估规范》的要求 7 ,我们建议平台运营方针对将用户个人信息用于数据训练取 得用户同意 ( 针对人脸信息等敏感个人信息还应取得用户的单独同意 ),并向用户提供不 使用个人信息用于数据训练的选项;此外,平台运营方、技术支持方还可以考虑对于收集 的个人信息进行必要的匿名化处理,以降低数据训练活动对于用户个人权益的影响。 如技术支持方、平台运营方未按照《AIGC 暂行办法》的规定开展训练数据处理活动, 除《个人信息保护法》《中华人民共和国著作权法》等法律法规明确规定的法律责任以外, 技术支持方、平台运营方还可能被处以警告、通报批评、责令限期改正、责令暂停提供相 关服务等行政处罚。