整体看,从小模型向大模型的演进经历了如下三个时期。
1.1 探索期:预训练语言模型(2017 年 -2021 年)
2017 年,谷歌提出了基于自注意力机制的深度神经网络结构——Transformer,奠定了此后大模型发展的算法 架构基础。2018 年,基于 Transformer 的 GPT-1 和 BERT 的成功应用,标志着预训练模型成为自然语言处理 领域的主流。2020 年,OpenAI 推出了模型参数规模高达 1750 亿的 GPT-3,因其在多类语言任务上的性能大 幅提升获得了广泛关注和认可。这个阶段,预训练语言模型在多任务领域内生成语义连贯的类人文本方面展现 出了极强潜力,全球为不断提高大模型性能不遗余力扩大模型的参数规模。
1.2 爆发期:语言大模型(2022 年 -2023 年)
2022 年末,OpenAI 发布的 ChatGPT 引爆了全球大模型技术竞赛。此后,谷歌的 PaLM、Meta 的 LLaMA、 Anthropic 的 Claude、阿联酋技术创新研究所的 Falcon 和 NOOR、阿里云的通义千问、百度的文心一言等语 言大模型争相发布,全球呈现“千模大战”态势。这个阶段,大模型拥有了对自然语言的理解、生成、记忆和 推理能力,实现了与人类的顺畅交流。与此同时,全球开始对大模型的经济性和安全性给予更多关注,研究焦 点正从单纯扩大模型参数规模和提升模型智能水平,转向追求模型参数效率和确保模型与人类价值观的一致性。
1.3 提升期:多模态大模型(2024- 至今)
2024 年,OpenAI 发布的 Sora 和 GPT-4o 凭借强大的视频语义理解和高质量的文生视频能力震惊全球,开启 了全球多模态大模型研发和应用热潮。谷歌的 Gemini Ultra、阿里云的 Qwen-VL Max、百度的 Ernie-ViLG 3.0、华为云的 MindSpore 等多模态大模型快速涌现,进一步推动了这一领域发展。区别于语言大模型,多模态大 模型能同时处理来自语言、图像、声音等不同感知通道的信息,极大提高了场景理解准确度,促使大模型初步 拥有了类似人类的感知和理解物理世界的能力。
此外,得益于大模型强大的泛化、自适应和持续学习能力,研究人员在语言、多模态等基础大模型之上,通过 使用行业专有数据进行微调,形成适用于金融、医疗、交通等特定行业和任务场景的定制化大模型。基础大模 型的智能和安全水平,是影响面向特定行业和任务场景的定制化大模型性能表现的关键因素。
随着各类大模型与经济社会的深度融合,其技术局限和潜在恶意使用不仅威胁大模型系统自身的安全稳定运行, 也可能为使用大模型的各行各业带来非预期安全影响。 为尽可能全面应对大模型领域的基础共性安全挑战,本报告优先对语言、多模态等各类基础大模型系统的安全 风险进行系统梳理。与此同时,参考 ISO/IEC 5338-2023 《人工智能系统生命周期过程》国际标准,将基础大 模型系统抽象为训练数据、算法模型、系统平台和业务应用四个重要组成部分,并通过描绘这四个组成部分面 临的重要和一般安全风险,形成大模型安全风险地图,如图 1 所示。其中,重要风险是发生概率高和影响程度 大的风险,一般风险则反之。
2.1 训练数据安全风险
在训练数据部分可能存在训练数据泄露等一般风险,其重点风险包括: (1)训练数据违规获取:通过不正当手段或未经授权的方式获取训练数据,可能违反法律法规、数据质量受 损和发生安全事故。 (2)训练数据含有违法不良信息:训练数据中可能包含违法不良、涉及商业机密或个人隐私等信息。 (3)训练数据投毒:攻击者可能在训练数据中植入恶意样本或对数据进行恶意修改,影响模型的准确性和安 全性。 (4)训练数据质量低下:训练数据集中可能存在错误或噪声数据,影响模型训练的效果。(5)训练数据缺乏多样性:数据来源、特征和分布可能过于单一,不能全面覆盖各种实际应用场景。

2.2 算法模型安全风险
在算法模型部分可能存在测试验证不充分等一般风险,其重点风险包括: (1)模型鲁棒性不足:主要体现在分布外鲁棒性不足和对抗鲁棒性不足两个方面。分布外鲁棒性不足主要指 模型在遭遇实际运行环境中的小概率异常场景时,未能展现出预期的泛化能力,从而生成非预期的结果。而对 抗鲁棒性不足则主要指模型面对攻击者利用精心设计的提示词或通过添加细微干扰来构造对抗样本输入时,模型可能无法准确识别,影响输出的准确性。 (2)模型“幻觉”现象:模型在回答用户问题时,可能产生看似合理但包含不准确、虚构或违背事实的信息, 这种现象被称为模型“幻觉”。 (3)模型偏见和歧视:模型在处理数据时可能表现出某种偏好或倾向,这可能导致不公平的判断或生成带有 歧视性的信息。 (4)模型可解释性差:模型的决策过程和结果难以被详细准确地解释,使得用户难以理解模型输入如何影响 输出,以及模型产生特定结果的原因。
2.3 系统平台安全风险
在系统平台部分可能遭受非授权访问和非授权使用等一般风险,其重点风险包括: (1)机器学习框架安全隐患:流行的机器学习框架(如 TensorFlow、Caffe、Torch)可能存在漏洞,攻击者 可能利用这些漏洞发起攻击,造成系统受损、数据泄露或服务中断。 (2)开发工具链安全风险:大模型系统开发过程中使用的工具链(如 Langchain、Llama-Index、pandasai)可能存在安全漏洞,例如 SQL 注入、代码执行或命令注入等,攻击者利用这些漏洞可能导致数据损坏、信 息泄露或服务中断。 (3)系统逻辑缺陷风险:大模型系统可能存在数据权限和隔离、访问控制、业务逻辑等方面的缺陷,这些缺 陷可能使得系统容易受到未授权访问、API 滥用、数据窃取或滥用、越权访问等攻击,进而可能导致法律纠纷 和监管处罚。 (4)插件相关安全风险:大模型的插件可能存在缺陷,在与大模型服务交互时可能引发敏感信息泄露、提示 词注入、跨插件请求伪造等安全问题,这可能导致系统遭受攻击、数据泄露或服务中断。
2.4 业务应用安全风险
在业务应用部分可能存在测试验证数据更新不及时等一般风险。其重点风险包括: (1)生成违法不良信息:大模型可能产生包含对国家安全、公共安全、伦理道德和行业规范构成威胁的内容。 (2)数据泄露问题:存在攻击者通过逆向工程、成员推理攻击或提示词注入等手段窃取训练数据的风险,这 些数据可能包含敏感的个人信息或商业机密,可能导致隐私泄露、知识产权侵权和经济损失。此外,用户在与 大模型互动时,也可能由于疏忽或不熟悉相关风险,无意中泄露自己的隐私或保密信息。(3)用户恶意使用风险:在大模型应用中,存在一些用户或实体不遵守道德规范和法律法规,使用模型进行 恶意活动的风险。 总体来说,大模型在人工智能的发展中引入了模型“幻觉”、提示注入攻击、大模型插件缺陷等新风险,并加 剧了数据泄露、模型偏见、系统缺陷等传统人工智能技术已有风险。
当前网络空间安全面临攻击隐蔽难发现、数据泄露风险高和违法信息审核难等挑战。大模型展现出强大的信息 理解、知识抽取、意图和任务编排等能力,为网络空间安全瓶颈问题提供了新的解决思路和方法。与此同时, 大模型发展也催生了恶意软件自动生成、深度伪造等新型攻击方式,已有安全措施无法有效检测和防御,亟待 利用大模型技术创新保护机制抵御新型威胁。 大模型可显著提升网络威胁识别防御响应的精准度和时效性。在威胁识别阶段,大模型通过整合威胁情报、挖 掘零日漏洞、执行代码审计和网络攻击溯源,可有效识别系统业务风险,提供针对性防御措施。在安全防御阶 段,大模型通过对安全策略进行动态推荐与调整,强化安全防御效果。在安全检测阶段,大模型通过告警分析、 报文检测、钓鱼邮件识别和未知威胁检测,深度识别攻击意图,研判攻击样本,提升攻击识别准确度。在安全 响应阶段,大模型针对实际攻击行为提供自动化响应策略与处置流程,并撰写事件分析报告。在安全恢复阶段, 基于运营目标执行全面的模拟演练,为安全恢复提供最佳实践指导。
大模型能有效提升数据安全技术的普适性和易用性。大模型通过深度学习和自然语言处理技术,能够理解和分 析复杂的非结构化数据,自动识别并提取关键特征。这种智能分析能力极大地降低了对人工分析的依赖,使得 数据分类分级等数据安全技术更加易于普及。同时,大模型的自学习能力意味着它可以不断从新的数据安全标 准及样例集中学习并优化其安全策略,无需频繁的人工干预。这不仅提高数据安全的适应度和响应速度,也提 高了数据安全技术的易用性。 大模型能有效提升内容安全技术的鲁棒性和准确性。与传统的内容安全技术相比,大模型在多模态数据处理上 具有显著优势,正在成为提升内容安全技术鲁棒性和准确性的关键。大模型的鲁棒性体现在其对不同格式、风 格和质量的内容均能保持稳定的检测性能,即使面对攻击者采用隐喻、漫画等形式刻意规避检测手段,也能保 持较高的识别率。大模型的自学习能力,使其能够不断从新数据中学习,适应不断变化的虚假信息、深度伪造 (Deepfake)等网络威胁,从而提高检测的准确性。