先进人工智能行业安全国际科学报告：中期报告

The Republic of Korea and the United kingdom2024/05/30
举报

由The Republic of Korea and the United kingdom发布了《先进人工智能行业安全国际科学报告：中期报告》这篇报告。以下是对该报告的部分摘录，完整内容请获取原文查看。从革命性的医疗保健和运输到自动化复杂任务和解锁科学突破，人工智能的积极影响潜力是不可否认的。

1.能力

通用AI如何获得其能力？

通用AI模型依赖于深度学习 (15) 或人工神经网络的训练，这是由多层互连节点组成的AI模型，松散地受到生物神经网络大脑结构的启发。大多数最先进的通用人工智能模型都基于 “变压器” 神经网络架构(16 )，该架构已被证明在将越来越多的训练数据和计算能力转换为更好的模型性能方面特别有效。从广义上讲，通用AI模型的开发和部署遵循相同的一系列不同阶段: 预训练，微调，系统集成，部署和部署后更新。每个都需要不同的方法和资源。

预训练和微调都是 “训练” 通用AI模型的方法。在训练过程中，通用AI模型会获得一些数据，并对其进行处理以预测其他数据。例如，该模型可以被给定维基百科文章的前500个单词，然后预测第501个单词。最初，它是随机预测的，但随着它看到更多的数据，它会自动适应从错误中学习，它的预测也会提高。每个预测都需要一定量的计算资源 (“计算机”)，因此训练需要数据和计算。由开发人员设计的模型架构决定了模型进行预测时发生的广泛类型的计算，并且在训练期间调整了这些计算中使用的确切数字。

预培训: 预培训的目标是将一般背景知识构建成通用的AI模型。在预训练期间，通用AI模型通常从大量数据(通常来自互联网) 的模式中学习。收集和准备训练前数据是大规模的操作，在大多数情况下，训练前是计算最密集的发展阶段。如今，通用AI模型的预训练需要数周或数月，并使用数千个图形处理单元(gpu)-专门的计算机芯片，旨在快速处理复杂的并行计算。例如，Falcon-180B模型使用4,096个gpu。

多个月，PaLM (540B) 使用6,144芯片50天 (13 )。如今，与2010中的最先进模型训练(17) 相比，此过程使用的计算量大约是其100亿倍。一些开发人员使用自己的计算进行预培训，而其他开发人员则使用专业云计算提供商提供的资源。

微调: 经过预训练后，大多数通用AI模型都会经历一个或多个额外的微调阶段，以完善其完成int结束任务的能力。微调可以包括各种技术，包括从期望示例 (18) 、成对的期望和不期望示例 (19) 或奖励和惩罚(20、21*) 中学习。微调通常需要大量的人工参与，并且往往是培训中最劳动密集型的部分，微调现代模型需要数百万个人工反馈实例 (22 * )。通常，这种反馈是由成千上万的签约知识工作者提供的。

系统集成: 模型经过训练后，可以通过将其与旨在增强功能和安全性的其他系统组件集成来构建通用AI系统。在实践中，通用AI模型通常与用户界面、输入预处理器、输出后处理器和内容过滤器集成。部署: 经过训练后，可以部署模型以供使用。部署可以是 “内部的”，其中系统仅由开发人员使用，也可以是 “外部的”，允许公共或其他非开发人员实体使用它。外部部署可以是 “封闭源” 或“开放源”。闭源意味着公众只能通过有限的界面使用该系统。开源意味着整个系统，包括所有的模型参数，都是可用的。一些最先进的通用人工智能系统，如GPT-4 (2 *)，是闭源的，而其他像Llama-3 (6*) 是开源的。从减轻风险的角度来看，开源模型有其优缺点，这是科学界正在进行的讨论的主题。这份中期报告没有详细讨论开源模型的优缺点。

部署后监控和更新: 部署后许多通用AI系统会不断更新。这使开发人员可以更新功能并尝试在发现缺陷和漏洞时解决它们。这些变化通常相当于一种 “猫和老鼠” 的游戏，开发人员不断更新高调的系统，以应对新发现的漏洞 (22 * )。

当前通用AI系统的能力

难以定义能力- 通用人工智能系统通常是根据其能力来描述的，但在人工智能领域，“能力” 一词并没有被广泛接受的定义。定义能力的部分困难在于它不能被直接观察到 -- 人工智能研究人员只能观察人工智能系统的行为: 系统实际产生的一组输出或动作以及它这样做的背景 (例如，导致观察到的行为的提示) (23 )。人工智能研究人员只能总结在许多情况下观察到的系统行为，从而得出系统的能力-能力的印象。即使在模型建立之后，也很难定义和衡量新的通用AI模型的全部功能; 研究人员和用户通常会在模型部署后发现新的方法来获取功能，例如，通过提示模型 “逐步思考” (25 24，)。定义通用人工智能系统功能的另一个复杂之处在于，它们是由其环境中的能力 -- 它可以访问的工具和资源 -- 塑造的。例如，当一个通用人工智能系统连接到互联网并配备网络浏览器时，它会获得新的affor信息检索和与现实世界互动，有效地扩展其功能(26)。

能力及其驱动因素的最新趋势

计算、数据和算法的最新趋势：在过去十年中，对计算资源的投资增加，硬件效率的提高，易于在线访问的数据集的存在以及算法的渐进式创新为通用AI的发展做出了贡献。本节研究计算能力、数据和算法的最新趋势。

训练和推理中使用的计算趋势：用于训练AI模型的计算资源一直在快速增加。计算资源 (通常称为 “计算机”) 表示所执行的操作的数量。自21世纪10年代初以来，这一数字呈指数级增长，用于训练机器学习m模型的平均数量大约每六个月翻一番(17 )。2010，著名的机器学习模型 (62， 63， 64) 平均使用了大约1e15个浮点运算 (FLOP) (65 )，但2023年拐点-2，这是公开报告计算预算的最大模型。二手1e25翻牌 (66*) -增加100亿倍。这一进展是由行业实验室愿意将更多数据中心容量用于大规模通用AI培训推动的。没有足够的数据来确定这种趋势是否在较短的时期内发生变化，例如21世纪20年代。

在过去的十五年里，每美元的计算量增加了大约50到200倍 (68 67， 67)。然而，用于训练通用人工智能模型的计算总量远远超过了计算成本的降低: 例如，谷歌的Word2vec模型使用了大约3e16个FLOP 2013年进行训练，比目前的frontier模型 (65) 小10亿倍。虽然GPU性能的改进有所帮助，但这些改进部分受到数据中心GPU短缺和AI应用程序中使用的顶级GPU价格高昂的限制。高端处理器，包装，高带宽内存和其他组件的供应链短缺正在延迟技术部门满足对AI服务器等人工智能硬件的巨大需求的能力 (69 )。通用AI计算使用的扩展主要是行业实验室越来越愿意将数据中心资源和工程人员分配给大规模通用AI培训运行的结果。

神经 “缩放定律” 的发现，描述了计算量，模型和数据的大小以及性能之间的可预测关系，促成了以计算为中心的AI开发观点，这在一些领先的AI实验室中很突出。1 ，Google Gemini Ultra和OpenAI的GPT-4等旗舰通用AI模型的开发是由扩展法则 (2 *， 3*) 的工作指导的。因此，对硬件基础设施专业知识的需求更大，并且AI 实验室与微软和谷歌等技术巨头之间的合作更加紧密。

用于部署的计算资源也出现了显著增长。公司正在快速扩展基础设施以满足这些不断增长的需求。推理所需的计算资源 (向用户提供通用AI系统的关键部分) 经历了显着增长 (76 )，因为部署通用AI系统的用户数量快速增长。据报道，在2023年4月，OpenAI的人工智能系统估计会产生700美元/天的推理成本(77 )。一些估计表明，用于通用人工智能推理的总计算量已经超过了用于训练新模型的计算量，例如，人工智能推理代表了谷歌人工智能基础设施排放的60% 2022年 (78 )。

2.评估和理解通用AI系统的方法

通用人工智能评估用于评估模型的功能和影响

评估通用AI模型和系统有两个主要原因:1. 确定一般功能和限制: 模型评估表明模型设计选择与模型结果之间的关系。这种性能分析有助于研究人员了解这些系统在受控和自然环境中如何满足我们的期望。对模型功能的更深入了解有助于判断其是否适合使用。每次评估都有局限性和不确定性，必须记录下来以正确解释其结果。2. 评估社会影响和下游风险: 对通用人工智能系统的更广泛影响进行预测和评估，可以为与部署或治理相关的问题提供信息。然而，这些评估是一个复杂的跨学科挑战。社会风险评估可以评估产品安全、安全漏洞和不必要的外部性，如劳动力和环境影响，以及其他问题。这通常涉及在预期产品使用期间可能导致事故的因素，以及解决意外和恶意使用。

模型性能分析方法

各种利益相关者 (即人工智能开发人员、用户、受影响的人口成员等) 对通用人工智能系统在模型功能和防止负面下游社会影响方面的表现抱有期望。研究人员已经开发了多种方法来比较模型结果与这些预期(160 )。此模型性能分析对于了解模型的执行方式以及部署中可能出现的限制，收益或风险是必不可少的。

模型透明度、解释和解释

与研究通用AI模型输出相反，评估模型的另一种常见方法是研究模型产生输出的内部机制。这可以帮助研究人员对模型性能进行上下文评估，并加深对模型功能的理解。研究通用人工智能模型和系统如何在内部运行是一个热门的研究课题，产生了数千篇学术论文。旨在提高透明度的研究领域包括文档，第三方访问机制，黑盒分析，解释模型动作以及解释模型的内部工作原理。

文档模板记录做出的决策，并促进运营层面的透明度。目前，提高通用AI模型透明度的最实用方法之一是通过记录和传达定义模型的工程决策。已经提出了几种文档解决方案，以将此类决策传达给更广泛的内部和外部利益相关者。其中一些努力，例如模型卡的开发 (257) 已经成功。最近的一项研究表明，“在AI commu nity中广泛使用模型卡” (258 )。有文档t em板可用于交流数据集实践 (259， 260，261 )，更广泛的系统功能 (262， 263) 和更广泛的程序 264决策 ()。

模型解释和可解释性技术可以提高研究人员对通用人工智能系统内部运行方式的理解。有几种工具允许对通用AI系统进行外部审查，使ext ernal参与者能够直接查询通用AI系统，或者以其他方式获得模型细节的可见性 (213 )。一种突出的技术方法涉及研究如何将模型的输出解释为给定输入 (265， 268 266，267，) 的结果。这些解释可以在支持问责制方面发挥独特的作用，通过帮助确定责任，在人类可能受到自动化人工智能系统 (271 269， 270，) 的错误伤害或歧视的情况下。另一种方法用来研究神经系统中的计算网络orks参与了口译the rolepar的参数 (272) 、神经元 (273， 274，275) 、子网 (276，277) 或图层表示(278，279，280，281) 在人工智能系统内部。对模型的解释有时有助于研究人员发现漏洞。的例子包括红线组合 (207 )，ide确定虚假特征的内部表示(282 )，b rittle特征表示 (283， 285， 286) 以及transformers中事实召回的限制 (287 )。

3.风险

通用AI的开发和部署会带来一些风险，本节将对此进行讨论。本报告区分了 “风险” 和“交叉风险因素”。就本报告而言，“风险” 是指发生伤害的可能性和该伤害的严重程度的组合 (339 )。“交叉风险因素” 是指导致不是一个而是几个风险的条件。

恶意使用风险

由于通用人工智能涵盖了广泛的知识领域，它可以被重新用于恶意目的，可能会造成广泛的伤害。本节讨论了恶意使用的一些主要风险，但还有其他风险，新的风险可能会继续出现。虽然本节中讨论的风险范围广泛，但在某些情况下，有证据表明它们目前可能根本不是严重的风险，但我们将它们包括在内，以全面概述与通用AI系统相关的恶意使用风险。

故障风险

产品功能问题带来的风险

如果通用人工智能模型和系统不符合产品安全和产品功能的一般原则，可能会产生风险。与许多产品一样，通用人工智能产品的风险是由于对功能的误解以及对适当和安全使用的指导不足。在这方面，通用的基于人工智能的产品可能没有什么不同 (430 )。产品功能问题及其带来的风险可能由潜在的故障模式聚集在一起 (见表1)。不可能的任务源于尝试使用通用AI系统实现目标的实例，该系统超出了通用AI系统的功能。很难确切地说在现代环境中什么是不可能完成的任务。从历史上看，大型语言模型无法考虑训练结束后发生的事件或发展。然而，使人工智能产品能够从数据库中检索信息，提高了他们考虑训练后发生的事情的能力-- 尽管模型在需要新信息 (431) 的测试中表现仍然较差。另一个可能不可能完成的任务可能是需要本质上无法访问的数据的任务-例如以可计算媒体的格式不存在的信息，或者由于法律或安全原因而无法进行培训的数据。

不可能完成的任务会带来风险，因为通常情况下，突出类型的故障-包括许多工程故障，部署后故障和通信故障 (见表1) -可能是错误测量，误解或误解的副产品。模型可以做什么，以及导致错误的部署。例如，GPT-4模型取得了 “通过模拟律师考试，得分在前10% 名测试一下考生左右” 的成绩，并且在LSAT测试一下考生 (2 *) 中排名第88位。对这一结果的信心甚至导致一些律师将该技术用于其专业用途(432 )。在不同的情况下，例如更改测试一下设置或与通过考试的首次酒吧考生进行比较时，该模型的百分位数结果要低得多 (433 )。

那些试图在实际法律实践中使用该模型的人遇到了这些不足之处，因为这些模型产生的错误(即不准确的法律引用、不适当的格式和措辞等) 而面临严重的专业后果。( 434 )。关于模型性能的类似误解被认为适用于医学背景 (435 )，现实世界的使用和重新评估揭示了这些模型的复杂性，这些模型包含可靠的临床知识(436) 或通过MCAT (2*) 或USMLE (437) 等医学测试。更一般地说，一些部署的大型语言模型在某些语言环境下会遇到困难: 例如，它们可能难以导航否定，因此无法区分支持和反对行动的建议-尽管一些研究表明这些问题可以通过一般能力增益 (439 438，) 来解决。

一些缺点仅在部署后才显露出来。尽管许多彻底的评估已经检查了大型语言模型在代码生成中的使用(440* )，包括在相关的实际任务中 (441 )，实际部署用于编码的大型语言模型的实例，这些模型的使用可能导致潜在引入关键的被忽视的错误 (442 )，以及在指导工程程序员时可能特别有影响的混乱或误导性的编辑(443 )，特别是在自动化部分工作流 (444) 的应用程序中。

在现实世界的现实环境中表现不同，即使提供信息模型评估也不足以对通用AI系统和产品功能进行稳健的陈述。第三，失败不仅可能是由于评估不足，还可能是由于缺乏与产品用户就产品的局限性和潜在后果进行适当的沟通。误导性广告，因为它发生在许多市场，可能成为一个重大的风险来源的功能在通用人工智能(AI 445 )。通常，对于许多基于机器学习的产品，可能不清楚哪个部署上下文在数据中很好地表示并且适合于模型。然而，更通用的人工智能工具比能力较低或更窄的人工智能系统更难以审查部署准备情况: 使用通用人工智能，可能很难明确定义和限制可能不合适或可能不成熟的潜在用例。尽管在限制用例方面取得实质性进展是可行的。

偏见和代表性不足的风险

人工智能系统中的有害偏见和代表性不足一直是挑战，早在人们对通用人工智能的关注增加之前。它们仍然是通用AI的一个问题，并且在可预见的未来可能会成为通用AI系统的主要挑战。如果人工智能的决策基于受保护的特征 (如性别、种族等) 而扭曲，那么他们的决策可能会有偏见。因此，当这种偏见使决策对这些受保护群体的成员不利时，它们可能是歧视性的; 从而损害公平。本节讨论了人工智能中由偏见和代表性不足风险导致的当前和未来风险。由于这一领域丰富的研究历史，本节探讨了狭义人工智能和通用AI。

人工智能系统可能会因训练数据倾斜、模型开发过程中做出的选择或过早部署有缺陷的系统而表现出偏见。尽管进行了广泛的研究，但完全减轻任何歧视的可靠方法仍然难以捉摸。人们特别担心先进的通用人工智能系统会复制和放大其训练数据 (446) 中存在的偏见。这在工作招聘、金融贷款和医疗保健(447) 等高影响力的应用中构成了很大的歧视风险。在这些领域，通用人工智能系统的输出可能会对个人产生深远的负面影响，可能会限制就业前景 (449 448， )，阻碍向上的金融流动性，并限制获得基本医疗服务(451 450， )。

有几个有据可查的人工智能系统案例显示基于种族、性别、年龄和残疾状况的歧视行为，造成重大伤害。鉴于人工智能系统在各个部门的应用越来越广泛，这种行为可能会延续各种类型的偏见，包括种族、性别、年龄和残疾。如果这些系统被赋予越来越高风险的决策，这可能会对个人造成严重后果，这可能会造成严重损害。人工智能系统中的种族偏见已被证明存在于商业上可用的面部识别算法(452) 中，并导致在预测累犯结果方面无效有色人种的被告，对边缘化种族和民族背景的患者需求的低估 (454 453， )，以及在文本生成模型的反应中不适当的基于种族的医学的延续 (450 435， )。

人工智能系统输出中的性别偏见是另一个关键问题。研究发现，通用AI (456 455，) 产生了性别歧视，女性歧视和性别刻板印象的内容，而使用窄AI alg orithms (457) 进行的性别中立的互联网搜索则产生了男性主导的结果。年龄偏见也是一个关键问题: 一些人工智能系统对年长的求职者表现出偏见 (458 )，而年龄偏见出现在情感分析模型 (459) 的一些输出中。其中一个原因可能是训练数据中的偏差。例如，LLM驱动的人力资源筛选工具可能会针对偏向年轻员工的简历进行培训，这些简历可能会无意中打折年长申请人的经验和技能。类似地，由健康保险公司开发的医疗保健分配算法可能基于与年龄相关的健康风险而不利于年长的个体，即使这些个体是健康的。贷款算法可能无法适当处理老年人的财务状况，特别是在可能影响批准结果的社会保障收入方面 (460 )。

研究还表明，人工智能系统和工具可能会歧视残疾用户，例如，按比例拒绝有复杂医疗需求的残疾个人的保险索赔 (461 )，复制社会对残疾的刻板印象 (462 )，以及不准确地对残疾人的情绪进行分类(463 )。尽管对手语r ecognition (464) 的研究越来越多，但人工智能系统对手语使用者 (143) 的自动转录能力有限，手语数据集的有限多样性也可能加剧高级通用人工智能系统的残疾偏见。因为大多数手语数据集代表美国手语。例如，最近的工作为六种非洲手语开发了数据集 (465) 是朝着实现更公平地纳入手语方言迈出的一步，尽管是适度的一步。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）