OpenAI模型进展如何？ - 问答集锦

最佳答案由匿名用户编辑于2024/10/08 14:07

OpenAI 发布 o1 系列大模型，AI 大模型进入新纪元。

9 月 12 日，OpenAI 宣布开发了一系列全新 AI 模型，旨在在回应前投入更多时间思考。与之前的模型相比，这些模型能够更好地进行推理，并在科学、编程和数学等领域解决更为复杂的问题。作为早期模型，它还没有许多 ChatGPT 上的实用功能，例如浏览网络信息或上传文件和图片。然而，对于复杂的推理任务而言，这是一项重大进展，代表了 AI 能力的新高度。因此，OpenAI 将计数器重臵为 1，并将该系列命名为 OpenAI o1。 OpenAI 训练这些模型在做出响应前花更多时间思考问题，类似于人类的思维方式。通过训练，它们学会了优化思维过程、尝试不同策略并识别错误。在 OpenAI 的测试中，OpenAI o1 在物理、化学和生物学等困难的基准任务中表现与博士生相似。此外，OpenAI o1 在数学和编程领域也表现优异。在国际数学奥林匹克竞赛（IMO）的资格考试中，GPT-4o 仅正确解答了 13%的问题，而 OpenAI o1 的正确率达到了 83%。在 Codeforces 编程比赛中，OpenAI o1 的表现达到了第 89 个百分位。在 OpenAI 看来，这些增强的推理能力可能对解决科学、编程、数学等领域的复杂问题特别有用。例如，o1 模型可以帮助医疗研究人员注释细胞测序数据，物理学家生成量子光学所需的复杂数学公式，开发者在各个领域构建和执行多步工作流。 9 月 12 日，OpenAI 宣布在 ChatGPT 和 API 中推出了 OpenAI o1 系列的首个模型，这是一个预览版本，其被命名为 OpenAI o1-preview。

为了突出相较于 GPT-4o 在推理能力上的提升，OpenAI 对模型进行了多样化的人类考试和机器学习基准测试。结果显示，o1 在绝大多数推理密集型任务中明显优于 GPT-4o。

在许多推理密集型的基准测试中，o1 的表现与人类专家相媲美。OpenAI 评估了 o1 在 AIME 考试中的数学表现，该考试旨在挑战美国最优秀的高中数学学生。在 2024 年的 AIME 考试中，GPT-4o 平均仅能解答 12%的问题（即 1.8/15），而 o1 平均解答正确率为 74%（即 11.1/15），单次样本测试的结果为 83%（即 12.5/15）时通过 64 个样本的共识，若通过学习得分函数对 1000 个样本进行重新排名，其正确率达到了 93%（即 13.9/15）。得分 13.9 足以让其跻身美国全国前 500 名学生，并超过参加美国数学奥林匹克竞赛（USA Mathematical Olympiad）的分数线。 OpenAI 还对 o1 在 GPQA-diamond 基准测试上的表现进行了评估，该测试是一个困难的智力基准，评估在化学、物理和生物学方面的专业知识。为了将模型与人类进行比较，OpenAI 邀请了拥有博士学位的专家来回答 GPQA-diamond 的题目。结果显示， o1 超越了这些人类专家的表现，成为首个在该基准测试中表现优于人类专家的模型。这一结果并不意味着 o1 在所有方面都比博士更有能力，而仅表明模型在解决某些问题上比博士生预期的表现更为出色。在其他多个机器学习基准测试中，o1 也超越了当前的最先进水平。启用了视觉感知功能后，o1 在 MMMU 测试中得分为 78.2%，成为首个在人类专家中具备竞争力的模型。此外，o1 在 MMLU 的 57 个子类别中，有 54 个超越了 GPT-4o 的表现。

o1 在编程领域表现优异，OpenAI 训练了一款模型，命名为 o1-ioi，这个模型在 2024 年国际信息学奥林匹克竞赛（IOI）中获得了 213 分，排名在第 49 百分位。该模型基于 o1 进行初始化，并进一步训练以提升编程技能。 o1-ioi 在 2024 年 IOI 比赛中与人类参赛者在相同条件下竞争，有 10 小时的时间解决 6 道复杂的算法问题，每题允许提交 50 次解答。对于每个问题，OpenAI 的系统生成了多个候选解答，并根据测试时的选择策略提交了 50 次解答。提交选择基于 IOI 公开测试案例、模型生成的测试案例以及学习到的评分函数。如果 OpenAI 随机提交解答，平均分数仅为 156 分，这表明该策略在比赛条件下贡献了近 60 分的提升。当放宽提交次数限制时，模型的表现显著提升。在每题允许提交 10000 次的情况下，o1-ioi 的得分达到 362.14 分，超过了金牌门槛，且不需要任何测试时的选择策略。最后，OpenAI 模拟了 Codeforces 平台上举办的竞争性编程比赛，以展示 o1-ioi 的编程能力。OpenAI 的评估严格遵循比赛规则，并允许 10 次提交。GPT-4o 的 Elo 评分为 808，位于人类竞争者的第 11 百分位。而 o1-ioi 远远超越了 GPT-4o 和 o1，达到了 1807 的 Elo 评分，表现超过了 93%的参赛者。

除了考试和学术基准测试外，OpenAI 还评估了在各种领域中 o1-preview 与 GPT-4o 在应对复杂、开放式问题上的人类偏好。在此评估中，人类训练师们会看到来自 o1-preview 和 GPT-4o 的匿名响应，并投票选择他们更喜欢的回答。结果显示，在推理密集型的任务类别中，如数据分析、编程和数学，o1-preview 相较于 GPT-4o 有显著优势。然而，在某些自然语言任务中，o1-preview 的表现不如 GPT-4o，这表明它并不适合所有应用场景。不同领域的偏好差异表明，o1-preview 虽然在推理和计算密集型任务上表现优异，但在某些自然语言任务中仍未超越 GPT-4o。

o1 在 AI 推理方面取得了显著的突破，推动了技术的前沿发展。OpenAI 计划随着持续优化，发布该模型的改进版本。OpenAI 预期，这些新的推理能力将提升 OpenAI 将模型与人类价值观和原则对齐的能力。OpenAI 相信，o1 及其后续版本将为科学、编程、数学及相关领域的 AI 应用开启许多新的应用场景。

在模型的安全性方面，OpenAI 也做出了相当程度的提升。在将新模型部署到 ChatGPT 或 API 中之前，OpenAI 会彻底评估新模型是否存在潜在风险，并建立适当的保护措施。OpenAI 发布了 OpenAI o1 系统卡和准备框架评分表，以对 o1 进行严格的安全评估。作为开发这些新模型的一部分，OpenAI 提出了一种全新的安全培训方法，充分利用这些模型的推理能力，使其遵循安全和对齐的准则。通过能够在具体语境中推理 OpenAI 的安全规则，模型可以更有效地应用这些规则。 OpenAI 评估安全性的一种方式是测试模型在用户尝试绕过这些规则时（俗称为“越狱”）能否继续遵循其安全规则。在 OpenAI 最难的越狱测试之一中，GPT-4o 的得分为 22（满分 100），而 o1-preview 模型得分为 84。

在基于过去模型的安全评估和缓解措施基础上，OpenAI 加大了对 o1 高级推理能力的关注。OpenAI 通过公开和内部评估，衡量了诸如不允许的内容、人口公平性、幻觉倾向和危险能力等风险。基于这些评估结果，OpenAI 在模型和系统层面都实施了相应的安全防护措施，例如黑名单和安全分类器，以有效缓解这些风险。 OpenAI 的研究表明，o1 的高级推理能力通过使模型能够更好地推理安全规则并在上下文中应用它们，增强了生成有害内容的抗风险能力。在“准备框架”体系下，o1 的总体风险等级为“中等”，且被评估为安全可部署，因为它并未使现有资源之外的风险变得更为可能。其网络安全和模型自主性风险等级为“低”，而化学、生物、放射和核（CBRN）风险及说服性风险等级为“中等”。 o1 系列模型通过大规模强化学习进行训练，采用链式推理来提升推理能力。这些先进的推理能力为提高模型的安全性和稳健性提供了新的途径。尤其是在回应潜在不安全提示时，模型可以在上下文中推理 OpenAI 的安全政策，从而在生成非法建议、选择刻板印象化回应以及抵御已知的越狱攻击等风险基准测试中达到业内领先的表现。训练模型在回答之前进行链式推理不仅能够带来显著的好处，还可能因更高的智能性而增加潜在风险。OpenAI 的研究结果强调了构建稳健的对齐方法、广泛测试其有效性以及保持严谨风险管理协议的必要性。

此外，o1 使用的“思维链条（CoT，Chain of Thought）”推理为模型的对齐和安全性带来了新的契机。OpenAI 发现，将模型行为的政策融入推理模型的思维链中，是一种有效且稳健的方式，可以传授人类的价值观和原则。通过教导模型在具体情境中推理并遵循 OpenAI 的安全规则，OpenAI 的研究表明，推理能力直接提升了模型的稳健性：o1-preview 在关键的绕过安全限制评估和我们最严格的内部安全边界测试中表现显著提升。OpenAI 认为，使用链式思维推理能够为安全性和对齐带来重大进展，因为它一方面使 OpenAI 能够以可解释的方式观察模型的思维过程，另一方面使模型对安全规则的推理在处理分布外情况时更加稳健。

我们认为，OpenAI o1 的发布代表了 AI 大模型的发展进入了新纪元，其整体推理水平相比较 GPT-4o 模型有了跨越式的提升，在复杂推理和科学计算等方面，o1 模型表现出了广阔的潜力，此外，o1 在推理准确性和安全性上有显著提升，有望推动 AI 技术的进一步发展。