大模型各阶段安全控制措施包括哪些？ - 问答集锦

最佳答案由匿名用户编辑于2025/02/13 15:22

大模型生成的内容是服务使用者和模型交互的结果。

1.模型训练阶段

模型训练阶段奠定了大模型的能力基础，对模型自身的安全性也至关重要；该阶段主要与技术支持者相关，其面临的风险源主要来自训练数据，如数据来源不合规、包含违法不良信息、缺乏多样性、数据标注不规范、被投毒等，可能导致如模型“幻觉” 问题、有害数据内化进模型、二次开发破坏安全对齐等。模型训练阶段的安全控制措施包括：

（一）训练数据：数据源筛选。采集时对数据源进行审核，一是充分考虑数据源的合规性，如：使用具备开源许可或相关授权文件的开源数据集，自采数据时不采集所有者已明确不可采集的数据，使用商业采购数据时应签署具备法律效力的交易合同、合作协议等以获得充分授权；二是通过不同数据源的搭配，以提高多样性；三是开展有效的安全检测，及时发现并避免使用有害内容含量过高的数据源。数据清洗过滤。采集后对各模态的训练数据进行清洗，通常采用关键词匹配、分类模型、人工抽检等方式进行检测过滤，去除训练数据中的违法不良信息、个人信息等。

数据标注安全管理。数据标注主要涉及有监督微调阶段、基于人类偏好的强化学习阶段，其质量和安全在很大程度上决定了模型能力和安全性的上限。对于数据标注的安全管理需要规范化的管理，一是选用安全可靠的标注工具，通过访问控制、安全传输等手段保证标注过程的合法合规，记录标注操作及系统活动日志；二是建立详细的标注规则体系，在规则中区分功能性标注和安全性标注；三是对人员进行安全管理，包括数据标注人员的安全培训、考核筛选、合理的角色分配等；四是建立严谨的质量核验流程，进行机器和人工相结合的审核，并建立不达标数据的处置响应措施。

（二）模型算法：增量预训练 + 强化学习。增量预训练指在已有预训练模型的基础上，使用特定领域的语料继续进行训练，以提高模型在特定任务上的性能，通过注入新的领域知识来减少模型对错误数据的依赖，降低幻觉问题的发生概率；强化学习包括基于人工反馈的强化学习（RLHF）和基于人工智能反馈的强化学习（RLAIF），其核心都是帮助模型更好地与人类的判断和选择对齐，通过优化模型的行为来减少幻觉的产生。

安全性对齐。通过技术手段将人类安全价值观量化并嵌入模型，令生成式人工智能 “理解”人类的安全价值观，保障在运行实施阶段能够遵循。具体包括：一是安全语料生成，通过安全评测发现模型的安全缺陷，依据“风险指令生成模型”生成特定风险类型的攻击指令，同时利用“安全回复模型”生成对应该风险指令的安全回复，从而形成安全的语料，用于修正大模型的安全缺陷。二是安全对齐技术，通过使用安全语料数据对语言大模型进行 SFT 以及 RLHF，在保持模型可用可靠的前提下，大幅提升模型的安全性。

防止灾难性遗忘技术：大模型的灾难性遗忘问题是指在进行领域预训练或者微调过程等二次开发时，模型往往会“遗忘”之前已经学到的大量通用知识，也包括安全能力。这一现象限制了模型的泛化能力和实用性，尤其是在需要持续学习和适应多种任务的情境下。缓解此问题的一些方法包括：（1）权重冻结：将一些重要的权重冻结，以保持在预训练阶段学到的知识。（2）LoRA 微调加速技术：通过调整模型参数的低秩近似来加速训练过程。（3）数据复习：在微调过程中定期复习之前训练的数据，以减少遗忘。（4）使用 MoE（Mixture of Experts）：通过引入特定领域的多个专家网络来保持和增强预训练知识。

2.服务上线阶段

在服务上线阶段，服务提供者和技术支持者需要协作完成安全评估并选择安全有效的模型作为基座构建完整的服务，这个阶段会决定模型的核验、模型的使用方式、调用的工具集等，面临的主要风险源包括模型评估不完备、系统平台中的工具 / 插件和部署环境的安全问题、模型应用功能场景设计中的伦理风险。服务上线阶段的安全控制措施包括：

（一）模型评估： ●模型安全评估：服务提供者和技术支持者协同开展算法安全自评估，对算法目的、使用的数据、模型、训练方法、评测过程、干预策略等进行评审。并且通过测试数据集、红队测试等对大模型的理解、生成、安全等能力进行评估，确定大模型的质量和安全性水平，确保模型的持续稳定和安全。●模型筛选：服务提供者结合安全评估结果、自身或外采的风险控制能力，筛选合适的基础大模型、二次开发大模型或开源大模型，避免在上线运行后出现不可控风险。

（二）系统安全 ●插件安全保护：大模型的能力需要结合第三方工具 / 插件时才能最大化发挥价值，第三方工具 / 插件的安全可信问题正在受到越来越多的关注，服务提供者需要采取相应的控制措施进行应对，一是安全审计与更新，对使用的插件、工具等进行定期安全审计，及时发现并修复安全漏洞，确保插件代码的安全性；二是插件权限管理：限制插件的访问权限，仅授予必要的功能权限，减少潜在的攻击面，保证插件操作不会影响系统整体安全。 ●部署环境加固：随着产业需求的升级，大模型应用服务所需的工具链越来越复杂，这一开发过程中存在与硬件、多个软件之间的频繁交互，因此大模型的部署环境安全也是影响大模型应用服务安全的重要考虑因素，其应对控制措施：一是软硬件环境安全：评估并确保计算系统（包括芯片、软件、工具、算力等）的供应链安全，关注供应的持续性和稳定性；二是环境隔离：实现模型训练环境与推理环境的物理或逻辑隔离，防止数据泄露和不当访问，维护系统安全边界；三是定期开展漏洞检查工作：综合运用静态分析、动态分析和渗透测试等技术手段，识别潜在的安全漏洞；四是构建有效的安全响应机制：制定详细的大模型系统应急响应预案，涵盖安全事件分类分级、事件响应、责任人分配、通信渠道保障、决策流程高效等环节。

3.内容生成阶段

大模型生成的内容是服务使用者和模型交互的结果。服务使用者的输入，以及文档环境等上下文信息，都影响到模型当前的生成；实践中，内容安全的风险一方面是模型运行时可能遇到的生成风险内容、数据和隐私泄漏风险，另一方面是来自用户的恶意输入、诱导、滥用等风险。内容生成阶段的安全控制措施包括：

( 一 ) 模型运行 ● 输入输出审核过滤：一方面需要通过业务沉淀的一系列特定问题与标准回复，形成标准问题问答库。当用户的问题命中标准问题，就给予标准回答，从而做到可以及时干预大模型的回复，减少因自由生成内容带来的不确定性和幻觉风险；另一方面，对于未命中标准问答库的输入问题，需进行风险识别，发现安全风险则进行拦截并给予安全回复，对于未拦截的问题，需要对大模型的生成内容进行监测，并过滤掉潜在的违规或有害信息，维护良好的用户体验和社会责任。

检索式增强技术：大模型可以从外部知识库中检索关联信息，既加快了模型知识更新速度，又确保生成结果更契合用户实际需求，有效缓解模型产生不实或偏离事实的 “幻觉”问题。经历了优化训练的大模型虽然具备了一定的聚焦能力，但无法完全避免“幻觉”特点带来的一些输出内容的风险，因此还需要重点在运行输出环节增加辅助回答的措施来帮助匹配真实答案和防止错误回复。例如，训练数据截止到 2023 年，如果让模型回答 2024 年的问题必然会出现幻觉问题，此时则需要 RAG 等检索式增强技术对大模型知识进行补充。

生成内容标识：显式标识主要作用是告知用户该内容由人工智能生成，避免造成混淆和误导；隐式标识主要作用是对制作平台、传播平台等更多可追溯信息进行记录，用于对 AIGC 滥用和恶意使用等行为的定位和溯源。 ● 思维链技术：旨在优化大型模型输出信息的逻辑连贯性，借助展示少许富含深度推理步骤的实例，引导大型模型在生成信息过程中，不仅呈现答案，还同步揭露推理脉络。该方法在帮助缓解大模型不可解释性的同时，可显著提升生成信息的准确性和质量。

数据安全保护：大模型及其应用环节，数据来源众多、数据流转链路复杂，需要保障数据在不同存储设备或云服务之间传输、存储、使用的安全。通常的数据安全保障措施包括：（1）访问控制：通过用户名 / 密码、多因素认证（MFA）等方式确保只有授权用户才能访问数据。精细的权限控制系统，确保用户只能访问其权限范围内的数据，防止未经授权的访问。（2）数据隔离：确保不同用户的数据在物理或逻辑层面上相互隔离，防止数据混淆或泄露。（3）数据加密：存储在云中的数据在静止状态下进行加密，即使数据被非法获取，也无法直接读取内容。精细的权限控制系统，确保用户只能访问其权限范围内的数据，防止未经授权的访问。（4）用户可审计：记录所有对数据的操作，便于事后审计和问题追踪。通过监控工具实时检测异常活动，及时发现并响应潜在的安全威胁。提供“看得见的数据安全”。（5）合规性：遵守相关法律法规和标准规范，确保数据处理符合安全要求。定期接受第三方认证或者审计，确保安全措施的有效性和符合性。（6）容灾与备份：定期备份数据，确保在数据丢失或损坏的情况下能够迅速恢复。制定详细的灾难恢复计划，确保在发生重大事件时能够快速恢复正常运营。

4.内容传播阶段

随着人工智能技术快速发展，人工智能生成合成内容日益逼真，对于普通公众而言，分辨网络传播内容是否由人工智能生成合成日益困难。特别是近期文生视频、文生音频等技术取得重大突破，生成合成内容的逼真程度惊人，“眼见为实”的人类社会经验已被彻底打破，生成合成内容被滥用、误用、恶意使用导致严重后果的事件层出不穷。在此背景下，我们需要在内容传播阶段采取必要的安全措施，以应对人工智能对信息传播带来的新挑战。内容传播阶段的安全控制措施包括： ● 内容标识识别：内容传播平台对图片、视频、音频等内容进行标识检测，识别在内容生成阶段打上的内容标识，判断其是否由人工智能生成合成。

参考报告

阿里巴巴-大模型技术发展及治理实践报告.pdf
- 查看报告