大模型自身安全框 架涵盖安全目标、安全属性、保护对象、安全措施四个层面,这四个层面基于自顶向下、层层递进的方式提出 了构建大模型自身安全的整体解决方法。
目前,欧盟、美国、中国等世界主要地区和国家以及微软、谷歌等科技企业均提出大模型伦理准则。本安全框 架在充分借鉴国内外大模型伦理准则要求的基础上,在我国战略层面提出的“确保大模型安全、可靠、可控” 总体目标基础上,基于大模型面临的安全风险和挑战,根据大模型应用的实际需要,提出以下四个方面安全目标。 训练数据安全可信:训练数据是大模型的基石,大模型从训练数据中汲取知识的同时,也面临着数据泄露、数 据偏见、数据投毒等诸多安全隐患。因而,应确保大模型的训练数据不被窃取,不会泄露用户隐私,且未被篡 改,能够真实反映物理世界和人类社会情况。
算法模型安全可靠:大模型技术正逐渐应用于智慧医疗、无人驾驶等安全关键性场景,大模型算法模型的鲁棒 可靠愈加重要。然而,大模型存在的鲁棒性不足、模型“幻觉”、可解释性差等自身技术局限,以及指令注入、 对抗样本、算法后门等新型安全攻击方式,都可能使大模型应用产生非预期的错误输出。因而,应当确保大模 型的算法模型在规定的运行条件和时间周期内始终产生预期的行为和结果,且一直处于可控状态。系统平台安 全稳定:构建大模型系统是各行各业使用大模型技术解决实际问题的主要方式,同时,大模型研发平台承担着 为设计研发人员提供高效、便捷的研发环境的重要作用。然而,大模型系统和研发平台自身安全漏洞被攻击者 利用也将带来应用系统被控制、敏感数据泄露、智能服务中断等严重安全问题。因而,应及时检测发现并修复 大模型系统和研发平台的安全漏洞,做好大模型与插件间交互的安全监测与认证。
业务应用安全可控:大模型已在交通、医疗等领域展现出了强大的能力。滥用或恶意使用大模型应用将会给物 理世界和国家社会带来巨大的负面影响。因此,首先应确保大模型系统应用目标符合国家法律法规和社会伦理 的规范要求。
参考 ISO/IEC 22989:2022《信息技术 人工智能 人工智能概念和术语》国际标准、GB/T 41867-2022《信息技 术 人工智能术语》国家标准等标准文件,将大模型安全属性概括如下
真实性:训练数据能真实反映物理世界客观规律和人类社会实际运转情况的性质。 多样性:训练数据应覆盖尽可能多的样本,以确保大模型能对不同情况进行泛化的性质。 准确性:针对所规定的各项安全要求 , 大模型展现其正确实现这些要求的性质。 机密性:确保大模型的参数、架构和训练过程的信息对未授权的个人、实体或过程不可用或不泄露的性质。 可问责性:大模型及其利益相关方对其行动、决定和行为负责任的状态。 可预测性:大模型满足利益相关方所提出输出做出可靠假设的性质。 公平性:尊重既定事实、社会规范和信仰,大模型产生的行为或结果不受偏袒或不公正歧视影响的性质。 透明性:大模型系统与利益相关方交流关于该系统适当信息的性质。 可解释性:大模型系统以人能理解的方式,表达影响其执行结果的重要因素的能力。 合规性:用户对大模型系统的应用方式以及大模型系统自身行为和输出信息满足法律法规和规章要求的性质。 可靠性:大模型实施一致的期望行为并获得结果的性质。 可控性:大模型被人类或其他外部主体干预的性质。 鲁棒性:大模型在任何情况下都保持其性能水平的性质。

保护对象包括系统、数据、用户、行为。 系统:系统即大模型系统,一般由服务器、传感器等硬件,数据库、操作系统等基础软件,基于大模型的算法 模型,以及支持大模型研发运营的框架平台等主要组件组成。 数据:数据是大模型系统的核心。从大模型系统生命周期视角来看,主要包括训练数据、测试数据和运行时输 入数据三类。从类型来看,主要包括文本、图像、视频、音频以及来自于数据库的结构化数据等。 用户:用户指使用大模型系统的组织或实体,可以是自然人和法人,也可以是账户、软件、网络设备等具有唯一性身份的与大模型系统进行交互的信息收发源。 行为:行为指用户与大模型系统的交互过程,这不仅包括用户对大模型的日常操作,还包括大模型系统与其 他系统间的调用操作。
在国家法律法规、各行业监管政策以及社会伦理规则指引下,从训练数据、算法模型、系统平台、业务应用 等层面提出相应的安全保护措施。 训练数据安全措施:训练数据安全措施指对大模型训练数据部署的安全防御能力。训练数据安全措施主要包 括数据合规获取、数据标注安全、数据集安全检测、数据增广与数据合成、安全对齐数据集构建五个方面。 算法模型安全措施:算法模型安全措施指针对大模型算法模型部署的安全防御能力。算法模型安全措施主要 包括模型内生安全评测、模型鲁棒性增强、模型“幻觉”缓解、模型偏见缓解、模型可解释性提升等五个方面。 系统平台安全措施:系统平台安全措施指针对大模型框架平台部署的安全防御能力。系统平台安全措施主要 包括系统安全加固保护、大模型插件安全保护两个方面。 业务应用安全措施:业务应用安全措施指在大模型业务层部署的安全防御能力。业务应用安全措施主要包括 输入输出安全保护、生成信息标识、账号恶意行为风控、用户协议和隐私政策四个方面。