海内外基础大模型发展趋势及技术展望分析 - 问答集锦

最佳答案由匿名用户编辑于2025/08/21 11:00

自 ChatGPT 发布后，大模型行业发展不断加速，目前呈现推理模型深化、智能体模型爆发的发展格局。

1.海外基础大模型发展趋势及技术展望

OpenAI

OpenAI成立于 2015 年，由萨姆·奥尔特曼（Sam Altman）、埃隆·马斯克（Elon Musk）等硅谷科技领袖联合创立，初期为非营利组织，2019 年转型为“封顶”营利性实体，现由非营利母公司 OpenAI Inc.与营利性子公司 OpenAI LP 组成，微软为最大投资者（持股 49%）。创始团队早期聚焦开源工具开发，随后转向大型语言模型研究。 OpenAI 于 2018 年发布 GPT-1，2019 年升级至 GPT-2 并开源部分模型，2020 年推出参数达 1750 亿的 GPT3，2022 年 11 月 ChatGPT 上线，5 天用户破百万，引发全球 AI 热潮，2023 年用户数突破 1 亿，成为史上增长最快的消费级应用。多模态领域，2021 年推出图像生成模型 DALL-E，2024 年 2 月推出文生视频模型 Sora ，被视为 AI 内容创作的里程碑，推动公司估值不到 10 个月增至 800 亿美元。2024 年 9 月，公司发布推理模型 o1，标志着 AI 正式迈入推理时代。 OpenAI地位优势显著，从 2018 年推出基于 Transformer 架构的 GPT-1 以来，公司始终走在 AI大模型的最前沿。技术层面来看，openAI 的具备大模型全栈领先技术，推理模型、智能体等产品能力始终保持在全球领先水平；此外，公司不断推行与大模型相关的行业基准、未来观点等，进一步强化公司在细分市场的绝对影响力。2024 年，公司以 7100 亿元估值位列胡润全球独角兽榜第三，2023 年营收突破 16 亿美元，用户覆盖 92%的财富 500 强企业，全球访问量跻身前 50 大网站。其技术领先性、微软 Azure 云的算力支持等优势使其在全球 AI 领域的龙头地位持续巩固。

2024 年 12 月，OpenAI发布最新 o3 模型。作为目前最强大的推理模型，o3 在图像推理、编程、工具调用等方面表现出色。o3 能够将图像内容融合入思维链中，能在思考全程任何时刻进行视觉推理，多模态能力显著提升。同时，o3 通过扩展强化学习提升了工具能力，研究团队在模型强化学习阶段进行了大规模 Scaling，训练了模型使用工具的能力。此外，o3 也是未来 Agent 的强力基底模型，可以通过 API 中的函数调用访问自定义工具，结合模型自身强大的推理能力，能够自主完成更多更加复杂的任务，特制版本的 o3 已经作为 OpenAI Deep Research 的基底模型提供服务。OpenAI o3 拥有强大的图像推理能力，首次实现了图像与思维链的整合。模型不仅能“看到”图像，更能“用图像进行推理”。这一突破实现了视觉与文本推理的深度融合，使其在多模态基准测试中达到最先进水平。o3 强大的图像推理能力基于视觉理解与工具调用的有机结合实现。一方面，o3 的视觉理解能力十分强悍，根据用户测试，不论是手写内容，还是拍摄照片，模型都能实现准确理解。即使图像存在模糊、倒置或低质量的情况，模型仍能准确解析。另一方面，模型具有很强的工具调用能力，配合 Python 数据分析、网络搜索和图像生成等工具，o3 能在推理过程中即时操控图像，让图像处理成为其思考的一部分。

OpenAI的基础模型目前受到 scaling law的限制，开发进度显著不及预期。2025 年 2 月，OpenAI发布 GPT4.5，定价$75(150)/百万 tokens 输入(输出)，比 GPT-4o 高 15-30 倍，模型研发过程中更是出现耗时严重超期、计算集群频繁故障等问题。4 月发布 4o 续作 GPT4.1 系列(GPT4.1、GPT4.1 mini、GPT4.1 nano)，性能较 GPT-4o 有所增强，在多模态处理、代码能力、指令遵循和成本方面显著提升，且上下文窗口提高到了 100 万 tokens。 OpenAI 未来或将致力于打通基础模型与推理模型，逐渐实现现阶段 AI 大模型的“泛化”。公司将于未来数月推出 GPT5。GPT-5 不同于前代仅仅只是基础模型，更将成为一个打通 o 系和 GPT 系的“全能系统”。GPT5 整合多项尖端技术(包括 o3)，或将同时具备博士级学科专业能力、更快的推理速度、全感官多模态。GP T 5 将成为 OpenAI 在 AGI 路上的重要里程碑。

Anthropic

Anthropic 于 2021 年由 Dario Amodei 和 Daniela Amodei 兄妹及一批前 OpenAI核心研究人员共同创立，公司自创立之初便将“AI 安全”置于核心，致力于构建可靠、可解释和可控的 AI 系统。Anthropic 的技术核心是其独创的“宪法 AI（Constitutional AI）”方法。该方法通过一个由多份文件（包括《联合国世界人权宣言》）组成的“宪法”来训练和约束模型，指导其生成更可靠、诚实且无害的回答。技术发展方面，Anthropic 推出的 Claude 系列模型是其核心产品。2023 年 3 月发布 Claude 1、2023 年 7 月发布 Claude 2、2024 年 3 月发布 Claude 3，模型迭代速度惊人。其模型在长文本处理、推理能力和安全性方面表现出色，成为 OpenAI 最强有力的竞争者之一。Anthropic 的财务增长堪称爆炸性。截至 2025 年 5 月，其年化收入（ARR）已达到 30 亿美元，五个月内增长了两倍。目前，Anthropic 的总融资额已超过 127.5 亿美元，公司估值也达到了 615 亿美元。 2025 年 2 月，Claude-3.7 Sonnet 发布，首次引入混合推理功能，结合了普通大型语言模型和专门的推理模型能力。Claude-3.7 Sonnet 有两项关键升级：一是超强的多模态能力：能准确解读图片内容，理解图表、截图中的文字，甚至可以分析复杂的技术图像。二是超长上下文支持：能够处理高达 20 万 tokens 的内容，相当于一本小说的长度。此外，AI 编程工具 Claude Code 为 Claude 提供强大的编程能力基础。能够通过自然语言指令帮助开发者高效编写代码，简化开发过程，并在 AI Agent 领域展现出强大潜力。Claude 3.7 Sonnet 扩展思考模式计费标准为每百万输入/输出 tokens 3/15 美元。

2025 年 5 月，Claude4 系列发布，共包括两款模型：Opus 4（旗舰款）和 Sonnet 4（标准款）。据 Anthropic 介绍，新发布模型专为高级推理、代码生成、智能体任务等新一代人工智能功能设计，在复杂长时间任务方面展现出强大的性能。Claude Opus 4 在 SWE-bench 和 Terminal-bench 测试中，分别以 72.5%和 43.2%的得分全面领先，碾压 OpenAI 刚刚发布的编程智能体 Codex-1 和最强推理模型 o3。而标准款 Claude Sonnet 4 的编码能力突出，在 SWE-bench 测试中取得 72.7%的成绩。Sonnet 4 在内部及外部应用场景中，均实现了性能与效率的良好平衡，可操控性也大大增加，在能力与实用性之间达到了最佳平衡。

Claude 4 具备一系列新的强大功能：一是使用工具进行扩展思考，在推理和使用工具之间交替切换，提升了其推理能力；二是与 Claude Code 深度集成，大幅提升其代码能力与任务执行能力；三是一系列新 AP I 功能，包括 MCP、代码执行、本地文件 API、提示词长缓存，使其综合实力非常完备。Claude 4 出色的编程能力也表明，在人工智能从推理 AI 迈向智能体 AI 的过程中，大模型的能力拓展方向已经开始向编程、工具调用等方向转变。

Google

Google 在人工智能领域的探索与投入根植于其公司历史。2023 年，Google 整合了 Google AI、DeepMind 两大团队，成立了 Google DeepMind，由杰夫·迪恩（Jeff Dean）和戴密斯·哈萨比斯（Demis Hassabis）等传奇人物领导，旨在加速其通用人工智能（AGI）的研发进程。作为 Transformer 架构的诞生地，Google 在 AI 领域拥有深厚的技术积淀和人才储备。受到组织架构以及初期 BERT 技术路线选择的影响，Google 在大模型方面发力较晚。2023 年底，Google 正式推出其对标 GPT 系列的多模态大模型 Gemini 系列，整整比 ChatGPT 晚了一年时间。Gemini 包括能力最强的 Ultra、性能均衡的 Pro 和轻量化的 Nano，并将其全面融入搜索、云、Android 和 Workspace 等核心产品生态中。自 Gemini 1.0 发布以来，Google 的模型迭代不断加速，于 2024 年 2 月推出 Gemini 1.5、2024 年 12 月发布 Gemini 2.0、2025 年 3 月发布 Gemini 2.5。 Google 在 AI 竞赛中具备两大核心优势。一是 AI 应用生态构建完备。Google 更新 AI mode 搜索引擎，能够处理多重查询，提供更深入多样化的搜索结果。此外，Google 还在测试“深度搜索”和实时视觉数据功能，计划将其整合到常规搜索中，力图通过 AI 重塑其搜索引擎业务。此外在 XR 方面，Google 推出了首个 Ge min i 时代的 Android XR 平台。该系统专为 XR 头显、智能眼镜等扩展现实设备设计，通过与 AI 深度整合实现“无接触辅助”功能。二是 Google 具备垂直领域全方位整合突破的能力，Google 是目前全球唯一一家在算力芯片、基础模型、云推理计算、AI应用方面全栈深度布局的公司，反映出 Google 全面推进 AI战略的宏图壮志。根据 SemiAnalysis 分析，全球 AI 工作负载中，NVIDIA GPU 占 70%，而 Google TPU 则占据了 28.6%，Google 在 AI 领域的硬件优势也十分显著。强大的硬件则为公司大模型和各种端侧模型设备提供了良好的算力支撑，进一步奠定了 Google 打造 AI 应用全家桶的坚实基础，形成数据-算力-模型-场景的正向循环。

Gemini 2.5 pro 的发布正式标志着 Google 在 AI模型竞赛中取得了实现后进者超越的成效。Gemini 2.5 Pro 是 Google Gemini 2.5 系列模型的专业版，于 2025 年 3 月首次发布，并在 2025 I/O 大会发布升级版本。Gemini 2.5 pro 编程能力强大，在测试中优于领域标杆 Claude 3.7 Sonnet，在 Mensa Norway 的 IQ 测试中突破 130，同时具有很高的性价比。

在升级版本中，Gemini 2.5 pro 新增“Deep Think”模式，推理能力大幅提升，通过并行探索多种假设并交叉验证，在 USAMD 2025、LiveCodeBench、MMMU 等模型基准测试中均位列第一，全方面超过 OpenAI 的 o3 和 o4-Mini。Gemini 2.5 Pro 在多模态处理方面也取得了显著进展，能够无缝集成分析视频、音频、图像、文字和代码等多种数据格式，VideoMME 基准测试中得分高达 84.8%，能够处理长达 6 小时的视频内容，优于同类模型。此外，Gemini 2.5 Pro 的编程与开发能力增强，模型可将描述性语言直接转化为可运行的代码，并进一步提升了处理复杂的前端开发任务的能力。

Gemini 2.5 Flash 于 2025 年 4 月发布，定位是“提供强大性能的同时注重效率”的推理模型。Google 计划从第三季度开始，将 2.5 Flash 模型引入本地部署环境。Gemini 2.5 成本优势极高，在 Aider polyglot 编程基准测试中成本仅次于 DeepSeek。端侧模型方面，Google 基于 Gemini 2.0 开源发布本地化轻量级模型 Gemma 3(包括 1B、4B、12B、27B 版本)，在预训练和后训练过程中，Gemma 3 使用了蒸馏技术与强化学习进行了优化，是谷歌迄今最先进、最便携的开源模型，专为端侧设备本地化部署、运行而设计，完全可以在 3090 GPU 的消费级设备上运行。

2.国内基础大模型发展趋势及技术展望

中美差距不断缩小，国产模型百花齐放

从全球视角来看，中美处于大模型研发领导地位，两国大模型发布数量也在不断增加。从地理分布上看，全球已经形成人工智能的“两极格局”，且未来这一格局仍将长期保持。至 2024 年，两国自研大模型数量占全球 80%以上，中国大模型数量已经接近 100 款。目前，两国大模型性能迭代速度齐平。中美大模型在性能迭代上呈现出交替追赶态势。中国大模型应用广泛落地，具有显著的比较优势，AI 产品占据全球市场半壁江山。公司角度，国内大厂已有多家跻身大模型前十，大厂的技术与资本实力是中国 AI 发展的重要支撑。另一方面，以 DeepSeek 为代表的新势力也在强势参与竞争。

聚焦中美两国，中美 AI实力的差距正不断缩小，OpenAI一枝独秀的优势已开始受到各方冲击。根据斯坦福以人为本人工智能研究所（Human-Centered Artificial Intelligence, HAI，领导者为李飞飞）发布《2025 年人工智能指数报告》，2024 年结束后，中美顶级 AI 模型的能力（多项基准测试得分加权平均）差距已由前一年的 20% 缩小至 0.3%。从企业角度来看，美国仍保持较明显的领先优势。2024 年全球知名模型中，有 40 个来自美国，而中国只有 15 个。中国视角来看，DeepSeek-R1 迈出了中国 AI 全面追赶美国的关键一步。DeepSeek-R1 通过架构创新、软件优化及前沿方法，在推理能力上逼近国际顶尖水平，且训练成本大幅降低。其开源策略为本土 AI 发展提供了技术参考，缩小了与美国的技术差距。

DeepSeek-R1 的发布加剧了中美 AI竞争的激烈程度，全球 AI格局向更激烈的“两极竞争”方向发展。根据《2025 年人工智能指数报告》，中国等亚洲国家对人工智能表现出较高的兴奋度，信心优势显著。全面竞争的格局或导致未来中美 AI 产业路径分道扬镳。算力禁售的约束仍在加强, 而国产芯片自主可控需要长周期的解决。伴随着 Agent/MCP 的繁荣与应用的增多，未来国内 AI 发展或将走上具有本土特色的 AGI 之路：不再堆砌算力，而是寻求模型的“性价比 Scaling”；并通过大量 Agent 应用获取“经验数据”，相互高效传导(如 MCP)进而实现 AI 能力跃迁和泛化。

自 DeepSeek 发布以来，中美竞争进入全方位、白热化的全新阶段，美国基本已形成自上而下的技术封锁体系。OpenAI 公开呼吁美国政府立法禁止 DeepSeek，同时给予 AI 公司豁免权。Anthropic 强调美国应该加强出口管制，包括控制 H20 等高端芯片出口中国、加强对二级国家的芯片流通监管审查，等等，以此巩固并扩大美国的领先优势。美国总统特朗普也于 1 月签署总统行政命令 14179，通过降低国内 AI 产业监管、调整出口管制战略方向等措施减缓中国模型技术创新的快速发展，拖慢中国自主可控的节奏，以此消除美国在 AI 领域领导地位的障碍。在这场人工智能科技革命中，美国对中国的制裁可以总结为以算力芯片贸易、算力芯片制造、A I 模型开发三个方面“三位一体”的限制。同时美国制裁也是一个动态的、不断更新的系统，在持续的博弈中不断调整和升级。美国的精准制裁无疑给中国 AI 产业带来了严峻的挑战，尤其是在短期内面临着高端算力短缺和先进制程工艺“卡脖子”的困境。然而，从长远看，这种外部压力也正以前所未有的力度，倒逼中国加速构建自主可控的 AI 技术体系。从芯片设计、制造到软件框架、应用生态，中国正走上一条“全栈自研”的道路。中国视角来看，DeepSeek-R1 迈出了中国 AI 全面追赶美国的关键一步。DeepSeek-R1 通过架构创新、软件优化及前沿方法，在推理能力上逼近国际顶尖水平，且训练成本大幅降低。其开源策略为本土 AI 发展提供了技术参考，缩小了与美国的技术差距，如今豆包 Seed1.6、阿里通义千问、Kimi K2 等国产模型呈现百花齐放局面，并且开源的 Kimi K2 再次体现国产模型更高效的特点。从大模型的技术本质与人才储备来看，中国的大模型企业的能力并不落后，2025 年是世界认知中国人工智能潜力的第一年，未来有望走出国门走向世界。

回到国内，2023 年至今，国内外大模型能力持续发展，目前依旧呈现百花齐放的态势。国内模型经历了一年多的迭代周期后，与 OpenAI 的差距从 2023 年 5 月的 30.12%，缩小至 2024 年 8 月的 1.29%。DeepSeek R1、 Qwen 系列、豆包、MiniMax 等模型相继发布，模型能力滚动提升。2025 年“人工智能+”被写入政府工作报告，未来中国大模型行业或将呈现以下趋势：一是技术创新加速，聚焦多模态、具身智能等前沿领域；二是应用场景深化，垂直行业渗透（如医疗、制造）与消费级终端（AI 手机、智能汽车）齐头并进，API 调用量爆发式增长；三是生态构建起步，通过开源开放降低门槛。

DeepSeek

DeepSeek（深度求索）是一家专注于通用人工智能的中国初创公司，创始人为梁文锋，由私募股权巨头幻方量化（High-Flyer Quant）支持创立。公司自成立以来便秉持“技术驱动”的理念，低调而务实地在底层技术上进行深耕。DeepSeek 的核心团队在高性能计算、模型架构和数据处理方面拥有深厚积累，这使其在模型训练效率和性能优化上具备显著优势。

DeepSeek-R1 在全球范围形成有力竞争。2025 年 1 月，深度求索 Deepseek 发布 R1 模型。模型在推理任务上表现出色，取得了与 OpenAI o1 相媲美的成绩。在知识密集型任务基准测试中，性能显著超越了 DeepSeek V3 基础模型，同时在开放式问答领域也展现出了强大能力。DeepSeek R1 在长 CoT 数据微调基础上应用强化学习，除性能提升外，DeepSeek R1 采用 GRPO 强化学习策略，专门优化数学推理任务，减少计算资源消耗，实现更低的成本。此外，DeepSeek R1 能够通过蒸馏将 R1 的推理能力迁移到更小的模型中，经过 R1 蒸馏的小模型，在推理能力上得到了显著提升。推理成本来看，R1 模型价格只有 OpenAI o1 模型的几十分之一，具有极高的性价比优势。

DeepSeek V3 是 R1 的基底模型，由深度求索公司于 2024 年 12 月推出，是一款自研混合专家（MoE）模型，目前已开源。该模型拥有 6710 亿参数，激活参数 370 亿，并在 14.8 万亿 token 上进行了预训练，DeepSeek - V3 还率先采用了无辅助损失的负载均衡策略，并设置了多令牌预测训练目标，以增强模型性能。模型 AP I 服务定价为每百万输入 tokens0.5 元（缓存命中）/2 元（缓存未命中），每百万输出 tokens8 元。3 月，DeepSeek -V3- 0324 更新版本公布，新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术，大幅提高了在推理类任务上的表现水平，相较于第一代 V3，基准测试的准确率最高提升了近 20%。在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。

DeepSeek 近期发布一系列技术进展，不断压实 R2 发布预期。2025 年 4 月，DeepSeek 团队联合清华大学发表论文，提出 DeepSeek-GRM-27B，运用“自我原则点评调优(SPCT)”的学习方法，增加了推理阶段的计算资源，实现了推理优化，显著提升模型性能。DeepSeek 同期开源发布 DeepSeek-Prover-V2，参数规模分别为 7B 和 671B，是一款专为数学/编程打造的模型，通过递归+强化学习的模式大幅增强了数学推理能力。DeepSeekProver-V2 的技术亮点有两个，一是通过递归证明搜索方法生成冷启动推理数据，利用 DeepSeek-V3 作为统一工具进行子目标分解；二是基于冷启动数据进行强化学习，采用 GRPO(同样用于 DeepSeek-R1)的强化学习算法。

1.3.3 阿里千问

Qwen 3 占据全球开源模型领先地位。2025 年 4 月，阿里发布开源 Qwen3，训练过程为：在 36 万亿 token 上进行三阶段预训练，之后通过长 CoT 冷启动、RL、思维模式融合等方式进行后训练。全球开发者、研究机构和企业均可免费在 HuggingFace 等平台下载模型并商用。Qwen3 系列模型包含两款 MoE模型以及六款密集模型，其中较大的三款模型也已经上线了 Qwen Chat 网页版和手机 App。性能方面，在代码、数学、通用能力等基准测试中，旗舰模型 Qwen3-235B-A22B 与 DeepSeek-R1、o1、o 3- mini、Grok-3 和 Gemini-2.5-Pro 等主流模型表现相当。小型 MoE 模型 Qwen3-30B-A3B 比 QwQ-32B 表现更优，实现“以小博大”。模型核心亮点有以下几方面：①支持思考/非思考模式，使用户能够根据具体任务实现精准高效的回答；②多语言能力，Qwen3 模型支持 119 种语言和方言；③Agent 能力，Qwen3 模型的 Agent 和代码能力得到增强，同时加强了对 MCP 的支持。

2024 年 09 月，阿里发布 Qwen2.5 系列，以及专门针对编程的 Qwen2.5-Coder 和数学的 Qwen2.5-Math 模型。Qwen2.5 所有系列模型都在 18Ttokens 的数据集上进行了预训练，在编程和数学方面有了大幅提升。 Qwen2.5-1M 在处理长文本任务表现出色。全新的视觉开源模型 Qwen2.5-VL-72B 在 13 项权威评测中夺得视觉理解冠军。大规模 MoE模型 Qwen2.5-Max 使用精选的监督微调 SFT 和从人类反馈中强化学习 RLHF 方法进行了进一步的后训练，性能全面超越 DeepSeek V3。 2025 年 3 月，阿里开源发布新推理模型 QwQ-32B，性能比肩 DeepSeek-R1 671B 满血版，并发现大规模 RL Scaling 能够实现与超大型 MoE模型媲美的性能。同月底，通义团队又发布并开源首个端到端全模态大模型 Qwen2.5-Omni-7B，采用首创全新 Thinker-Talker 双核架构，未来或在国行 IOS 系统上搭载。目前，阿里通义团队已累计开源 200 多款模型，Qwen 已经稳居全球最大规模 AI 大模型族群。未来还将持续拓展多模态能力边界，发展全面的通用模型。

参考报告

人工智能行业分析：AI新纪元，砥砺开疆·智火燎原.pdf
- 查看报告