大模型生成的内容是服务使用者和模型交互的结果。
模型训练阶段奠定了大模型的能力基础,对模型自身的安全性也至关重要;该阶段主 要与技术支持者相关,其面临的风险源主要来自训练数据,如数据来源不合规、包含 违法不良信息、缺乏多样性、数据标注不规范、被投毒等,可能导致如模型“幻觉” 问题、有害数据内化进模型、二次开发破坏安全对齐等。 模型训练阶段的安全控制措施包括:
(一)训练数据: 数据源筛选。采集时对数据源进行审核,一是充分考虑数据源的合规性,如:使用具备开源许可或相关授权文件的开源数据集,自采数据时不采集所有者已明确不可 采集的数据,使用商业采购数据时应签署具备法律效力的交易合同、合作协议等以获 得充分授权;二是通过不同数据源的搭配,以提高多样性;三是开展有效的安全检测, 及时发现并避免使用有害内容含量过高的数据源。 数据清洗过滤。采集后对各模态的训练数据进行清洗,通常采用关键词匹配、分类 模型、人工抽检等方式进行检测过滤,去除训练数据中的违法不良信息、个人信息等。
数据标注安全管理。数据标注主要涉及有监督微调阶段、基于人类偏好的强化学习 阶段,其质量和安全在很大程度上决定了模型能力和安全性的上限。对于数据标注的 安全管理需要规范化的管理,一是选用安全可靠的标注工具,通过访问控制、安全传 输等手段保证标注过程的合法合规,记录标注操作及系统活动日志;二是建立详细的 标注规则体系,在规则中区分功能性标注和安全性标注;三是对人员进行安全管理, 包括数据标注人员的安全培训、考核筛选、合理的角色分配等;四是建立严谨的质量 核验流程,进行机器和人工相结合的审核,并建立不达标数据的处置响应措施。
(二)模型算法:增量预训练 + 强化学习。增量预训练指在已有预训练模型的基础上,使用特定领域 的语料继续进行训练,以提高模型在特定任务上的性能,通过注入新的领域知识来减 少模型对错误数据的依赖,降低幻觉问题的发生概率;强化学习包括基于人工反馈的 强化学习(RLHF)和基于人工智能反馈的强化学习(RLAIF),其核心都是帮助模型 更好地与人类的判断和选择对齐,通过优化模型的行为来减少幻觉的产生。
安全性对齐。通过技术手段将人类安全价值观量化并嵌入模型,令生成式人工智能 “理解”人类的安全价值观,保障在运行实施阶段能够遵循。具体包括:一是安全语 料生成,通过安全评测发现模型的安全缺陷,依据“风险指令生成模型”生成特定风险类型的攻击指令,同时利用“安全回复模型”生成对应该风险指令的安全回复,从 而形成安全的语料,用于修正大模型的安全缺陷。二是安全对齐技术,通过使用安全 语料数据对语言大模型进行 SFT 以及 RLHF,在保持模型可用可靠的前提下,大幅提 升模型的安全性。
防止灾难性遗忘技术:大模型的灾难性遗忘问题是指在进行领域预训练或者微调过 程等二次开发时,模型往往会“遗忘”之前已经学到的大量通用知识,也包括安全能 力。这一现象限制了模型的泛化能力和实用性,尤其是在需要持续学习和适应多种任 务的情境下。缓解此问题的一些方法包括: (1)权重冻结:将一些重要的权重冻结,以保持在预训练阶段学到的知识。 (2)LoRA 微调加速技术:通过调整模型参数的低秩近似来加速训练过程。 (3)数据复习:在微调过程中定期复习之前训练的数据,以减少遗忘。 (4) 使用 MoE(Mixture of Experts):通过引入特定领域的多个专家网络来保持和 增强预训练知识。
在服务上线阶段,服务提供者和技术支持者需要协作完成安全评估并选择安全有效的 模型作为基座构建完整的服务,这个阶段会决定模型的核验、模型的使用方式、调用 的工具集等,面临的主要风险源包括模型评估不完备、系统平台中的工具 / 插件和部 署环境的安全问题、模型应用功能场景设计中的伦理风险。 服务上线阶段的安全控制措施包括:
(一)模型评估: ●模型安全评估:服务提供者和技术支持者协同开展算法安全自评估,对算法目的、 使用的数据、模型、训练方法、评测过程、干预策略等进行评审。并且通过测试数据 集、红队测试等对大模型的理解、生成、安全等能力进行评估,确定大模型的质量和 安全性水平,确保模型的持续稳定和安全。●模型筛选:服务提供者结合安全评估结果、自身或外采的风险控制能力,筛选合适 的基础大模型、二次开发大模型或开源大模型,避免在上线运行后出现不可控风险。
(二)系统安全 ●插件安全保护:大模型的能力需要结合第三方工具 / 插件时才能最大化发挥价值, 第三方工具 / 插件的安全可信问题正在受到越来越多的关注,服务提供者需要采取相 应的控制措施进行应对,一是安全审计与更新,对使用的插件、工具等进行定期安全 审计,及时发现并修复安全漏洞,确保插件代码的安全性;二是插件权限管理:限制 插件的访问权限,仅授予必要的功能权限,减少潜在的攻击面,保证插件操作不会影 响系统整体安全。 ●部署环境加固:随着产业需求的升级,大模型应用服务所需的工具链越来越复杂, 这一开发过程中存在与硬件、多个软件之间的频繁交互,因此大模型的部署环境安全 也是影响大模型应用服务安全的重要考虑因素,其应对控制措施:一是软硬件环境安 全:评估并确保计算系统(包括芯片、软件、工具、算力等)的供应链安全,关注供 应的持续性和稳定性;二是环境隔离:实现模型训练环境与推理环境的物理或逻辑隔 离,防止数据泄露和不当访问,维护系统安全边界;三是定期开展漏洞检查工作:综 合运用静态分析、动态分析和渗透测试等技术手段,识别潜在的安全漏洞;四是构建 有效的安全响应机制:制定详细的大模型系统应急响应预案,涵盖安全事件分类分级、 事件响应、责任人分配、通信渠道保障、决策流程高效等环节。
大模型生成的内容是服务使用者和模型交互的结果。服务使用者的输入,以及文档环 境等上下文信息,都影响到模型当前的生成;实践中,内容安全的风险一方面是模型 运行时可能遇到的生成风险内容、数据和隐私泄漏风险,另一方面是来自用户的恶意 输入、诱导、滥用等风险。 内容生成阶段的安全控制措施包括:
( 一 ) 模型运行 ● 输入输出审核过滤:一方面需要通过业务沉淀的一系列特定问题与标准回复,形成 标准问题问答库。当用户的问题命中标准问题,就给予标准回答,从而做到可以及时 干预大模型的回复,减少因自由生成内容带来的不确定性和幻觉风险;另一方面,对 于未命中标准问答库的输入问题,需进行风险识别,发现安全风险则进行拦截并给予 安全回复,对于未拦截的问题,需要对大模型的生成内容进行监测,并过滤掉潜在的 违规或有害信息,维护良好的用户体验和社会责任。

检索式增强技术:大模型可以从外部知识库中检索关联信息,既加快了模型知识更 新速度,又确保生成结果更契合用户实际需求,有效缓解模型产生不实或偏离事实的 “幻觉”问题。经历了优化训练的大模型虽然具备了一定的聚焦能力,但无法完全避 免“幻觉”特点带来的一些输出内容的风险,因此还需要重点在运行输出环节增加辅 助回答的措施来帮助匹配真实答案和防止错误回复。 例如,训练数据截止到 2023 年, 如果让模型回答 2024 年的问题必然会出现幻觉问题,此时则需要 RAG 等检索式增强 技术对大模型知识进行补充。
生成内容标识:显式标识主要作用是告知用户该内容由人工智能生成,避免造成混 淆和误导;隐式标识主要作用是对制作平台、传播平台等更多可追溯信息进行记录, 用于对 AIGC 滥用和恶意使用等行为的定位和溯源。 ● 思维链技术:旨在优化大型模型输出信息的逻辑连贯性,借助展示少许富含深度推 理步骤的实例,引导大型模型在生成信息过程中,不仅呈现答案,还同步揭露推理脉络。 该方法在帮助缓解大模型不可解释性的同时,可显著提升生成信息的准确性和质量。
数据安全保护:大模型及其应用环节,数据来源众多、数据流转链路复杂,需要保 障数据在不同存储设备或云服务之间传输、存储、使用的安全。通常的数据安全保障 措施包括: (1)访问控制:通过用户名 / 密码、多因素认证(MFA)等方式确保只有授权用户 才能访问数据。精细的权限控制系统,确保用户只能访问其权限范围内的数据,防止 未经授权的访问。 (2)数据隔离:确保不同用户的数据在物理或逻辑层面上相互隔离,防止数据混淆 或泄露。 (3) 数据加密:存储在云中的数据在静止状态下进行加密,即使数据被非法获取, 也无法直接读取内容。精细的权限控制系统,确保用户只能访问其权限范围内的数据, 防止未经授权的访问。 (4) 用户可审计:记录所有对数据的操作,便于事后审计和问题追踪。通过监控工 具实时检测异常活动,及时发现并响应潜在的安全威胁。提供“看得见的数据安全”。 (5) 合规性:遵守相关法律法规和标准规范,确保数据处理符合安全要求。定期接 受第三方认证或者审计,确保安全措施的有效性和符合性。 (6)容灾与备份:定期备份数据,确保在数据丢失或损坏的情况下能够迅速恢复。 制定详细的灾难恢复计划,确保在发生重大事件时能够快速恢复正常运营。
随着人工智能技术快速发展,人工智能生成合成内容日益逼真,对于普通公众而言, 分辨网络传播内容是否由人工智能生成合成日益困难。特别是近期文生视频、文生音 频等技术取得重大突破,生成合成内容的逼真程度惊人,“眼见为实”的人类社会经 验已被彻底打破,生成合成内容被滥用、误用、恶意使用导致严重后果的事件层出不 穷。在此背景下,我们需要在内容传播阶段采取必要的安全措施,以应对人工智能对 信息传播带来的新挑战。 内容传播阶段的安全控制措施包括: ● 内容标识识别:内容传播平台对图片、视频、音频等内容进行标识检测,识别在 内容生成阶段打上的内容标识,判断其是否由人工智能生成合成。