海内外大模型落地进展如何?

最佳答案 匿名用户编辑于2025/11/07 14:05

海内外大模型持续迭代升级,多模态场景加速落地。

一、海外方面:巨头领衔大模型市场方向

1、ChatGPT:高性能 AI 大模型龙头

OpenAI 以 GPT 系列为基石,持续推进多模态更新落地。OpenAI 成立于 2015 年,由 Sam Altman、Elon Musk 等人联合创立,是一家专注于人工智能研究与开发的前沿科技 公司。其核心产品包括 GPT 系列大语言模型 及 ChatGPT。GPT 是模型,而 ChatGPT 是 基于该模型开发的智能聊天机器人程序,ChatGPT 功能性能依托于 GPT 模型的性能与容 量。2018 年,OpenAI 发布了初代预训练语言模型 GPT-1。2021 年 3 月,OpenAI 正式推 出基于 GPT-3 架构的 ChatGPT 程序。首个多模态模型 GPT-4 于 2023 年 3 月发布,GPT 模型持续迭代升级,并推出 GPT-4o,GPT-4.5、、 o3、o4mini、GPT-4.1 和 ChatGPT Agent 等系列产品。 OpenAI 新品多项测试创新高。OpenAI 于 7 月发布了 ChatGPT Agent 新功能模块,该智 能体整合了此前 GPT-4 系列两个功能模块 Operator 和 DeepResearch,是一块能够自主 地完成复杂任务多 Agent 聚合产品。ChatGPT Agent 在 Humanity's Last Exam、DSBench、 WebArena 等基准测试上取得优异成绩。。2025 年 8 月,OpenAI 发布了融合 GPT 与 o 系 列的新代模型 GPT-5,集成了快速响应与深度推理双模型并由即时路由器智能分流,GPT5 Pro 在 SWE - bench Verified 测试得分 74.9%,在 Aider Polyglot 测试中达到 88%,优于 o3,展现出强大的编程能力。

2、Claude:专注代码智能,行业编程基准领先

Anthropic 核心成员多数由前 OpenAI 班底组成,是 Claude 系列大模型的创造者。 Anthropic 于 2021 年创立,创始团队成员多数来自前 OpenAI 的研究成员。,包括前 OpenAI 研究副总裁 Dario Amodei、安全政策副总裁 Daniela Amodei 等七位资深研究人 员。2023 年 3 月,Anthropic 公司发布了其第一代大语言模型 Claude 1;同年 7 月,该公 司进一步推出了 Claude 2 系列模型。2024 年 3 月,Anthropic 正式发布 Claude 3 系列模 型,该系列包含旗舰版 Opus、均衡版 Sonnet 和轻量版 Haiku 三个版本。后续持续推出了 多模态升级 Claude 3.5 Sonnet 以及快速版 Claude 3.5 Haiku。 Claude 4 在软件编码能力功能上表现卓越。截止到 2025 年 8 月已经迭代到了 Claude 4, Claude 4 在编码和复杂推理方面表现出色,Opus 4 版本适用于复杂长程任务和智能体工 作流。该系列支持并行工具使用,可边思考边调用工具完善回答。Anthropic 还推出了 Claude Code 系列的编程工具,如 VS Code 插件和 GitHub Actions。目前,Claude 4 通过 Amazon Bedrock 和 Google Vertex AI 等平台提供服务。在 SWE-bench Verified 软件工程 能力测试中,Claude 4 系列模型展现出行业领先的软件工程能力:Claude Sonnet 4 准确 率达到 80.2%,Claude Opus 4 达到 79.4%,两项成绩均超越 GPT-4.1 和 Google Gemini 2.5 Pro。 8 月,Anthropic 正式发布了 Claude Opus 4.1 新版本,在智能体任务处理、现实 世界编程应用及逻辑推理能力三大领域,对 Claude Opus 4 进行了了全面升级。在编程基 准 SWE-bench Verified 上,从 Opus 4.0 的 72.5%提升到了 Opus 4.1 的 74.5%准确率。

3、Gemini:谷歌旗下全能型多模态大模型

Google 谷歌推出全能型大模型产品。Google DeepMind 是谷歌于 2023 年整合旗下 DeepMind 与 Google Brain 两大团队成立的工智能 AGI 核心部门。DeepMind 于 2023 年 12 月发布 Gemini 1.0;随后推出 Gemini 1.5 Pro 与 Gemini 2.0 Flash。Gemini 2.5 Pro 是 谷歌目前性能最高的模型,截止 2025 年 7 月谷歌一共发布了两个版本模型。2025 年 5月,Gemini 2.5 Pro Preview 0506 版本发布,模型新增了深度思考功能模块;6 月,谷歌 推出了 Gemini 2.5 Pro 正式版,此次整合修复了上一版在处理非编码任务时的性能问题, 扩展了上下文窗口容量,同时创新性地引入思维预算功能模块。在官方数学、编程及推 理基准测试中,该模型的表现全面超越 o3 和 Claude 4 的最新版本;同时在 GPQA、AIME 2025 等顶级学术评估中,Gemini 2.5 Pro 也取得了优异成绩。

二、国内方面:大模型多点突破,性价比优势显著

国内大模型多点突破,算力与成本优势明显。截至 6 月底,我国生成式人工智能服务与 应用的备案及登记体系已进入规模化落地阶段,全国累计完成备案的生成式人工智能服 务达 439 款,登记应用 233 款,国产基础模梯队包括 Kimi k2、DeepSeekV3 和 Alibaba 的 Qwen3,在 SWE-Bench、Tau2 和 AceBench 评测中,Kimi k2 表现突出,评分能力超过 Claude 4 Opus。DeepSeek-V3 和 Qwen3 在中文语义理解和垂直领域任务中保持优势。算 力效率上,Kimi k2 将参数规模增至 1T。DeepSeek-V3 通过动态缓存机制优化,缓存命中时成本仅 0.5 元/百万 Tokens。这些突破增强了国产大模型的国际竞争力,并加速了智能 化产业的发展。

1、DeepSeek: R1 多维度测评成绩优异

DeepSeek 持续进行技术迭代与产品升级,当前最新发布的 R1-0528 版本是该系列的最高 的性能旗舰模型。DeepSeek 是由初创企业杭州深度求索 DeepSeek-AI 研发的大型语言模 型, DeepSeek-AI 成立于 2023 年 7 月 17 日。2024 年 1 月,DeepSeek 发布了其首个公 开大语言模型 DeepSeek LLM,5 月推出 DeepSeek-V2,同年 12 月,同步开源了视觉模 型 DeepSeek-VL2 与第三代大语言模型 DeepSeek-V3。2025 年 1 月,公司正式发布 DeepSeek-R1 模型,并同步开源模型权重。2025 年 5 月 29 日,DeepSeek-R1 模型已完成 小版本升级,更新为 DeepSeek-R1-0528 版本。新版本延用了 V3 Base 模型作为基座,在 后训练过程中投入了更多算力。DeepSeek R1 在深度逻辑推理与代码解析领域表现卓越, 而 V3 作为多模态大型语言模型,目前是 DeepSeek 的核心模型基底。更新后的 R1 在 数学、编程及逻辑推理等基准测评中成绩优秀,整体性能上已接近国际顶尖模型 o3 与 Gemini-2.5-Pro。2025 年 8 月 19 日 DeepSeek-V3.1 正式发布,新版本大幅提升模型灵活 性与思考效率,并基于 Post-Training 优化显著增强 Agent 能力,在工具使用与智能体任 务执行上表现突出。

2、月之暗面:KimK2 综合性能领跑国内大模型

月之暗面最新产品 Kimi K2,性能逼近国际头部水平公司成立于 2023 年 4 月 17 日,由 前清华大学助理教授杨植麟创立。2023 年 10 月,公司正式推出第一代智能助手产品 Kimi Chat,2025 年 1 月 20 日,Kimi 正式发布新一代多模态思考模型 K1.5。2025 年 7 月 11 日,月之暗面正式发布采用新一代 MoE 架构的基础模型 Kimi K2,并同步实现模型开源。 在官方发布的基准测试中,Kimi K2 在代码生成、工具使用、数学推理及通用理解四大核 心维度上全面领跑国内开源模型,其综合性能已逼近国际头部模型水平。在代码能力与 模型性能方面,在 SWE-bench Multilingual 评测和 Tau2-bench 测试中的表现接近 Claude 4 系列。在 AceBench 测试中与 GPT-4.1 不相上下。Kimi K2 的数学与推理同样突出: AIME 2025 和 GPQA-Diamond 测试中显著领先。

3、通义千问:阿里开源国内最强代码模型

通义千问系列(Qwen)是由阿里巴巴集团旗下达摩院开发大语言模型系列。2023 年,阿 里开源第一代模型 Qwen 1.0;2024 年 2 月发布 Qwen-1.5,同年 7 月推出 Qwen 2,并于 同年 8 月进一步拓展模型矩阵,发布面向数学、音频及视觉领域的 Qwen2-Math、Qwen2- Audio 以及 Qwen2-VL,9 月更新过渡版本 Qwen2.5;2025 年 4 月,Qwen3 系列大模型正 式发布,其中包括 Qwen3-235B-A22B 版本。7 月 22 日,阿里巴巴对该 235B-A22B 版本 进行了优化升级,推出 Instruct-2507 新版本。7 月 23 日,阿里巴巴正式发布了对标 Claude 4 的 Qwen3 Coder 编程模型。Qwen3 Coder 在多个编码基准测试中表现优异,展现出超强 的代码生成与模型能力,在代理编码、浏览器应用和工具调用三大指标获得出色成绩, 性能得分媲美 Claude Sonnet 4。