大模型百家争鸣,模型平权与 AI Agent 续写 AI 新篇章。
2024 年下半年至 2025 年期间,海外 AI 大模型领域竞争白热化。OpenAI 虽在该 领域仍占据领先地位,但其优势已不再像以往那般显著。Google、Anthropic、xAI 等公司凭借技术创新和持续的算力投入,不断缩小与 OpenAI 的差距。 在推理能力方面,OpenAI 发布的 o 系列模型为基座大模型扩展变缓进程中的重大 突破。o1-preview 及其后续迭代版本在处理复杂推理任务时表现卓越,尤其在数 学运算和编程领域优势明显。o3 模型通过结构化的内部推理机制,在 Codeforces、 SWE-bench 等权威基准测试中刷新了当前最优(SOTA)成绩,为行业树立了新的 技术标杆。尽管 OpenAI 在基座模型的研发方面遭遇瓶颈,其系列推理模型 o3、 o4-mini 等以及最新推出的 GPT-4.1 系列在多项关键测评指标上依旧表现优异。

Google 积极布局推理模型领域,推出了 Gemini 2.0 Flash Thinking 和 Gemini 2.5 Pro。其中,Gemini 2.5 Pro 在 Humanity's Last Exam 基准测试中成绩优异,还在大 模型竞技场 Chatbot Arena 中脱颖而出,展现出强大的推理性能。Anthropic 则推出 了首款混合推理模型 Claude 3.7 Sonnet,该模型支持双重输出模式,既能实现即时 响应,也能逐步呈现推理过程。Claude 3.7 Sonnet 在任务指令响应、通用逻辑推理 等方面表现突出,在数学与科学领域的任务处理效率得到显著提升。xAI 通过大 规模算力投入,推出了 Grok-3 及其推理版本 Grok-3 Reasoning。Grok-3 在 AIME2024 数学考试中达到了 96%的准确率,性能接近 OpenAI 的 o3 模型,并且 在大模型 LMSYS Arena 排行榜中位居前列。
以开源作为差异化竞争策略的 Meta 发布了开源大模型 Llama4 系列,该系列包含 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth 三个版本。Llama 4 Scout 在 各类测评集中均取得了当前最优(SOTA)成绩,而 Behemoth 版本尚处于训练阶段,有望在开源模型领域实现新的突破。此外,xAI 也宣布将在推出新模型时开 源上一代模型,以此推动开源生态的进一步发展。
国内 AI 大模型领域发展态势强劲,呈现出“百家争鸣”的繁荣景象。DeepSeek 凭借算法创新脱颖而出,成为国产 AI 的头部玩家。其通过优化大模型基础架构并 高效整合资源,以较低的算力投入实现与全球顶尖模型相媲美的性能。例如, DeepSeek-V3 参数量高达 671B,在预训练过程中,通过混合专家系统(MoE)架 构等技术创新,有效控制了成本,且保持优异性能。随后推出的 DeepSeek-R1 在 多项基准测试中表现突出,其 API 服务定价仅为 OpenAI 同类产品的 3%,显著降 低了使用门槛。此外,DeepSeek 在开源活动中发布了深度适配 GPU 特性的技术, 通过五大 Infra 核心技术构建大模型-算力全栈协同体系,充分挖掘硬件潜力,大 幅提升了千亿参数模型的训练和推理效率,降低了开发成本。
国产 AI 厂商追求极致性能,持续提升模型投入产出比。与此同时,国内其他大模 型企业也在积极探索创新路径。腾讯混元 Turbo S 用创新架构,有效降低了训练 和推理成本;MiniMax 将线性注意力机制扩展到商用模型级别,实现了资源的高 效利用;智谱发布的 GLM-Z1-Air 以较小的参数规模实现高性能,具备较高的性 价比;阿里推出的开源模型 Qwen3 采用“混合推理”模式,在特定场景下,以相 对较低的硬件资源消耗实现了性能突破。随着算力基础设施的完善、数据质量的 提升以及算法的持续创新,国产大模型有望在全球 AI 竞争中从规则的跟随者转 变为规则的共建者。