海内外大模型落地进展如何？ - 问答集锦

最佳答案由匿名用户编辑于2025/11/07 14:05

海内外大模型持续迭代升级，多模态场景加速落地。

一、海外方面：巨头领衔大模型市场方向

1、ChatGPT：高性能 AI 大模型龙头

OpenAI 以 GPT 系列为基石，持续推进多模态更新落地。OpenAI 成立于 2015 年，由 Sam Altman、Elon Musk 等人联合创立，是一家专注于人工智能研究与开发的前沿科技公司。其核心产品包括 GPT 系列大语言模型及 ChatGPT。GPT 是模型，而 ChatGPT 是基于该模型开发的智能聊天机器人程序，ChatGPT 功能性能依托于 GPT 模型的性能与容量。2018 年，OpenAI 发布了初代预训练语言模型 GPT-1。2021 年 3 月，OpenAI 正式推出基于 GPT-3 架构的 ChatGPT 程序。首个多模态模型 GPT-4 于 2023 年 3 月发布，GPT 模型持续迭代升级，并推出 GPT-4o，GPT-4.5、、 o3、o4mini、GPT-4.1 和 ChatGPT Agent 等系列产品。 OpenAI 新品多项测试创新高。OpenAI 于 7 月发布了 ChatGPT Agent 新功能模块，该智能体整合了此前 GPT-4 系列两个功能模块 Operator 和 DeepResearch，是一块能够自主地完成复杂任务多 Agent 聚合产品。ChatGPT Agent 在 Humanity's Last Exam、DSBench、 WebArena 等基准测试上取得优异成绩。。2025 年 8 月，OpenAI 发布了融合 GPT 与 o 系列的新代模型 GPT-5，集成了快速响应与深度推理双模型并由即时路由器智能分流，GPT5 Pro 在 SWE - bench Verified 测试得分 74.9%，在 Aider Polyglot 测试中达到 88%，优于 o3，展现出强大的编程能力。

2、Claude：专注代码智能，行业编程基准领先

Anthropic 核心成员多数由前 OpenAI 班底组成，是 Claude 系列大模型的创造者。 Anthropic 于 2021 年创立，创始团队成员多数来自前 OpenAI 的研究成员。，包括前 OpenAI 研究副总裁 Dario Amodei、安全政策副总裁 Daniela Amodei 等七位资深研究人员。2023 年 3 月，Anthropic 公司发布了其第一代大语言模型 Claude 1；同年 7 月，该公司进一步推出了 Claude 2 系列模型。2024 年 3 月，Anthropic 正式发布 Claude 3 系列模型，该系列包含旗舰版 Opus、均衡版 Sonnet 和轻量版 Haiku 三个版本。后续持续推出了多模态升级 Claude 3.5 Sonnet 以及快速版 Claude 3.5 Haiku。 Claude 4 在软件编码能力功能上表现卓越。截止到 2025 年 8 月已经迭代到了 Claude 4， Claude 4 在编码和复杂推理方面表现出色，Opus 4 版本适用于复杂长程任务和智能体工作流。该系列支持并行工具使用，可边思考边调用工具完善回答。Anthropic 还推出了 Claude Code 系列的编程工具，如 VS Code 插件和 GitHub Actions。目前，Claude 4 通过 Amazon Bedrock 和 Google Vertex AI 等平台提供服务。在 SWE-bench Verified 软件工程能力测试中，Claude 4 系列模型展现出行业领先的软件工程能力：Claude Sonnet 4 准确率达到 80.2%，Claude Opus 4 达到 79.4%，两项成绩均超越 GPT-4.1 和 Google Gemini 2.5 Pro。 8 月，Anthropic 正式发布了 Claude Opus 4.1 新版本，在智能体任务处理、现实世界编程应用及逻辑推理能力三大领域，对 Claude Opus 4 进行了了全面升级。在编程基准 SWE-bench Verified 上，从 Opus 4.0 的 72.5%提升到了 Opus 4.1 的 74.5%准确率。

3、Gemini：谷歌旗下全能型多模态大模型

Google 谷歌推出全能型大模型产品。Google DeepMind 是谷歌于 2023 年整合旗下 DeepMind 与 Google Brain 两大团队成立的工智能 AGI 核心部门。DeepMind 于 2023 年 12 月发布 Gemini 1.0；随后推出 Gemini 1.5 Pro 与 Gemini 2.0 Flash。Gemini 2.5 Pro 是谷歌目前性能最高的模型，截止 2025 年 7 月谷歌一共发布了两个版本模型。2025 年 5月，Gemini 2.5 Pro Preview 0506 版本发布，模型新增了深度思考功能模块；6 月，谷歌推出了 Gemini 2.5 Pro 正式版，此次整合修复了上一版在处理非编码任务时的性能问题，扩展了上下文窗口容量，同时创新性地引入思维预算功能模块。在官方数学、编程及推理基准测试中，该模型的表现全面超越 o3 和 Claude 4 的最新版本；同时在 GPQA、AIME 2025 等顶级学术评估中，Gemini 2.5 Pro 也取得了优异成绩。

二、国内方面：大模型多点突破，性价比优势显著

国内大模型多点突破，算力与成本优势明显。截至 6 月底，我国生成式人工智能服务与应用的备案及登记体系已进入规模化落地阶段，全国累计完成备案的生成式人工智能服务达 439 款，登记应用 233 款，国产基础模梯队包括 Kimi k2、DeepSeekV3 和 Alibaba 的 Qwen3，在 SWE-Bench、Tau2 和 AceBench 评测中，Kimi k2 表现突出，评分能力超过 Claude 4 Opus。DeepSeek-V3 和 Qwen3 在中文语义理解和垂直领域任务中保持优势。算力效率上，Kimi k2 将参数规模增至 1T。DeepSeek-V3 通过动态缓存机制优化，缓存命中时成本仅 0.5 元/百万 Tokens。这些突破增强了国产大模型的国际竞争力，并加速了智能化产业的发展。

1、DeepSeek： R1 多维度测评成绩优异

DeepSeek 持续进行技术迭代与产品升级，当前最新发布的 R1-0528 版本是该系列的最高的性能旗舰模型。DeepSeek 是由初创企业杭州深度求索 DeepSeek-AI 研发的大型语言模型， DeepSeek-AI 成立于 2023 年 7 月 17 日。2024 年 1 月，DeepSeek 发布了其首个公开大语言模型 DeepSeek LLM，5 月推出 DeepSeek-V2，同年 12 月，同步开源了视觉模型 DeepSeek-VL2 与第三代大语言模型 DeepSeek-V3。2025 年 1 月，公司正式发布 DeepSeek-R1 模型，并同步开源模型权重。2025 年 5 月 29 日，DeepSeek-R1 模型已完成小版本升级，更新为 DeepSeek-R1-0528 版本。新版本延用了 V3 Base 模型作为基座，在后训练过程中投入了更多算力。DeepSeek R1 在深度逻辑推理与代码解析领域表现卓越，而 V3 作为多模态大型语言模型，目前是 DeepSeek 的核心模型基底。更新后的 R1 在数学、编程及逻辑推理等基准测评中成绩优秀，整体性能上已接近国际顶尖模型 o3 与 Gemini-2.5-Pro。2025 年 8 月 19 日 DeepSeek-V3.1 正式发布，新版本大幅提升模型灵活性与思考效率，并基于 Post-Training 优化显著增强 Agent 能力，在工具使用与智能体任务执行上表现突出。

2、月之暗面：KimK2 综合性能领跑国内大模型

月之暗面最新产品 Kimi K2，性能逼近国际头部水平公司成立于 2023 年 4 月 17 日，由前清华大学助理教授杨植麟创立。2023 年 10 月，公司正式推出第一代智能助手产品 Kimi Chat，2025 年 1 月 20 日，Kimi 正式发布新一代多模态思考模型 K1.5。2025 年 7 月 11 日，月之暗面正式发布采用新一代 MoE 架构的基础模型 Kimi K2，并同步实现模型开源。在官方发布的基准测试中，Kimi K2 在代码生成、工具使用、数学推理及通用理解四大核心维度上全面领跑国内开源模型，其综合性能已逼近国际头部模型水平。在代码能力与模型性能方面，在 SWE-bench Multilingual 评测和 Tau2-bench 测试中的表现接近 Claude 4 系列。在 AceBench 测试中与 GPT-4.1 不相上下。Kimi K2 的数学与推理同样突出： AIME 2025 和 GPQA-Diamond 测试中显著领先。

3、通义千问：阿里开源国内最强代码模型

通义千问系列（Qwen）是由阿里巴巴集团旗下达摩院开发大语言模型系列。2023 年，阿里开源第一代模型 Qwen 1.0；2024 年 2 月发布 Qwen-1.5，同年 7 月推出 Qwen 2，并于同年 8 月进一步拓展模型矩阵，发布面向数学、音频及视觉领域的 Qwen2-Math、Qwen2- Audio 以及 Qwen2-VL，9 月更新过渡版本 Qwen2.5；2025 年 4 月，Qwen3 系列大模型正式发布，其中包括 Qwen3-235B-A22B 版本。7 月 22 日，阿里巴巴对该 235B-A22B 版本进行了优化升级，推出 Instruct-2507 新版本。7 月 23 日，阿里巴巴正式发布了对标 Claude 4 的 Qwen3 Coder 编程模型。Qwen3 Coder 在多个编码基准测试中表现优异，展现出超强的代码生成与模型能力，在代理编码、浏览器应用和工具调用三大指标获得出色成绩，性能得分媲美 Claude Sonnet 4。

参考报告

计算机行业深度研究报告：Grok，xAI引领Agent加速落地.pdf
- 查看报告