2025年计算机行业月报：谷歌推出Gemini 3 Pro，国产AI生态加速突围

中国银河证券2025/12/09
举报

市场行情回顾

（一）整体行情

A 股人工智能指数（884201.WI）截至 11 月 30 日收盘价为 10933.04，月涨跌幅为-1.7%。计算机行业指数（801750.SI）截至 11 月 30 日收盘价为 5224.25，月涨跌幅为-5.26%。

（二）代表企业

A 股 Wind 人工智能指数（884201.WI）截至 11 月 30 日总市值 30361.23 亿，含成分股 85 支，权重等分。板块上市公司分布为主板 16 支，创业板 34 支，科创板 13 支，中小板 22 支。

（三）板块估值

人工智能指数（884201.WI）重要成分股 2021-2024 年近三年整体营业收入复合增长率 15.62%，净利润复合增长率-2.63%，截至 11 月 30 日平均估值 PE（TTM）70.89 倍，PS（TTM）4.51 倍。

前沿行业动态

（一）前沿技术动态

1.华南理工团队重构扩散模型推理，质量效率双 SOTA

从 Stable Diffusion 的文生图到 Sora 的文生视频，扩散模型凭借其卓越的生成质量始终占据着图像和视频生成领域的主导地位。然而，这种高质量的生成往往伴随着巨大的代价、，它需要通过数十甚至上百步的迭代，从纯噪声中逐步恢复图像。这就带来了两个让业界头疼的核心矛盾：推理效率与质量的博弈：想快、，画质就崩；想画质好，就得忍受漫长的生成时间。理论与实践的割裂：为了加速，业界提出了各种基于微分方程的求解器。但这些方法往往更像是一种数值近似技」，缺乏对扩散过程本质的解释。更棘手的是，现有的许多 SOTA 加速算法都依赖于参考轨迹进行优化或者蒸馏。在实际应用中，不仅增加了巨大的计算开销，也限制了基础模型的泛化能力。华南理工大学统计推断，数据科学与人工智能团队提出的 EVODiff，正是为了解决这两种核心的问题，不再修补 ODE 求解器的数值误差，而是回到了扩散模型的物理本源——熵。 EVODiff 的核心洞察非常深刻：扩散模型的去噪过程，本质上就是一个不断减少不确定性、恢复信息的过程。

研究团队不仅在数学上严格证明了数据预测在推理生成过程中优于噪声预测，还提出了一种免参考的自适应方差优化框架(EVODiff )。该框架首次展现出，在不依赖于高成本参考轨迹优化的前提下，就能够获得比一些依赖参考轨迹的方法更高效、且更优的生成质量。在 CIFAR-10 上，仅需 10 步推理，FID 评测指标即达到 2.78，相比于同样是无需参考轨迹优化的 DPM-Solver++，生成误差率降低了 45.5% (从 5.10 到 2.78)。

2.谷歌 DeepMind 最新论文揭秘 IMO 最强数学模型

AlphaProof 是 DeepMind 最新研发的数学解题 AI 系统，专门为证明复杂数学命题而设计。不同于我们常见的 ChatGPT 这类纯粹用自然语言思考的模型，AlphaProo 在计算机可验证的形式化语言中进行推理，从而确保每一步推导都严格正确。 AlphaProof 使用了数学领域流行的形式化证明语言 Lean 来书写证明。Lean 的语法接近数学和编程语言的合合体，允许 AI 输出的每一步推理都被自动检查验证，避免了常规语言模型可能出现的谬误。AlphaProof 给出的答案不是靠人类评审的文字解释，而是一份计算机逐行检验通过的严谨证明。 AlphaProof 成功的核心秘诀在于将预训练大语言模型的聪明直觉和 AlphaZero 强化学习算法的勤学苦练巧妙合合。

语言模型擅长从海量数据中学习人类解题的经验和模式；而强化学习则让 AI 通过不断尝试错误，不断改进策略。 DeepMind 团队先利用大模型为 AlphaProof 打下学识基础，然后让它在模拟的数学环境中反复练习，自己发现解题策略。研究者首先收集了近一百万道数学题（涵盖不同领域和难度），利用谷歌最新的 Gemini 将这些自然语言描述的题目自动翻译成形式化的 Lean 代码表述。这一过程相当于为 AlphaProof 打造了一个规模空前的题库——团队共获得了约 8000 万条形式化的数学命题，可以让 AI 来练习证明。有了这个题海后，AlphaProof 先经过监督学习微调，掌握基本的 Lean 语言证明技巧。接着，它进入强化学习阶，：像 AlphaGo 下棋自我对弈一样，AlphaProof 在 Lean 证明环境中与自己切磋。每当 AlphaProof 找到一道题的正确证明并通过验证，就用这一成功案例来立即强化自身的模型参数，使它下次能更有效地解决更有难度的新问题。这种边练边学的训练循环持续进行，AlphaProof 在数以百万计的问题证明中不断进步，逐渐掌握高难度问题所需的关键技能。 AlphaProof 在搜索证明的时候并非毫无头绪地暴力穷举。它采用了类似于棋类 AI 中蒙特卡罗树搜索的策略，会智能地将复杂问题拆解成若干子目标各个击破，并灵活调整搜索方向。

3.加州大学新指标：组合推理基准首次超越人类

前沿的人工智能模型虽然在众多任务上取得了显著进展，但研究发现，它们在组合推理方面仍表现不佳，在多个经典基准测试上甚至低于随机猜测（数理与计算机领域专有名词）水平。加州大学河滨分校 Yinglun Zhu 研究团队重新审视了这一问题，发现其根源之一在于评测指标本身——它系统性地低估了模型的真实能力。团队据此提出了新的 GroupMatch 指标，能够挖掘被现有评测掩盖的潜在能力，使 GPT-4.1 首次在 Winoground 基准测试上超越人类表现。基于这一洞见，团队进一步提出一种无需外部监督、能够自我改进的迭代算法 Test-Time Matching（TTM），可在模型推理阶，显著提升性能。得益于 TTM，仅 0.2B 参数的 SigLIP-B16 就在 MMVP-VLM 基准测试上超越了 GPT-4.1，刷新了当前最优合果。加州大学河滨分校（UCR）研究团队发现，模型在组合推理任务中的低分，部分源自评测指标本身。当前广泛使用的 GroupScore 指标过于严格：它要求每量图像都与正确的文本匹配、每，文本也与正确的图像匹配，但并不检查整个群组的全局一致性。只要有一次错配，整组得分就会被判为 0。假设每组包含 k 量图像和 k 条文本描述，GroupScore 只逐一检查图像与文本之间的匹配情况，而忽略整体关系。在随机匹配（数理与计算机领域专有名词）下，成功率仅为 (k−1)! / (2k−1)!；当 k = 2 时，这个概率只有六分之一。为解决这一问题，团队提出了新的 GroupMatch 指标，用于评估群组内的整体最优匹配，而不是孤立的成对比较。GroupMatch 会考虑所有可能的匹配方式（共 k!种），并选择最可能的那一个。

这样，在随机猜测下的成功率提升为 1 / k!——当 k = 2 时为二分之一，比原来的六分之一大幅提高。更关键的是，如果模型能在 GroupMatch 下找到正确匹配，只需在测试阶，对该匹配进行过拟合，就能在原始 GroupScore 下获得满分。基于这一发现，团队提出了一个简单的 SimpleMatch 两步法： 1. 使用 GroupMatch 选择最可能的匹配； 2. 在测试阶，对该匹配进行过拟合。

4. 终结 Transformer 统治，剑指 AI「灾难性遗忘」

灾难性遗忘，是神经网络最根深蒂固的毛病之一。它的存在，使得大模型难以像人类那样持续学习。在过去十年中，得益于强大的神经网络合构及其训练算法，机器学习取得了较大进步。但灾难性遗忘并没有被根治。为破解这一难题，来自谷歌的研究人员提出了一种持续学习的全新范式— —嵌套学习，并且已被 NeurIPS 2025 接收。嵌套学习将模型视为一系列更小的、相互嵌套的优化问题，每个问题都有其独立的内部工作流程。这样的设计旨在缓解甚至完全避免大模型的灾难性遗忘。在嵌套学习的框架下，一个复杂的机器学习模型，是由多个一致且相互连接的优化问题组成的系统。这些优化问题可以是层层嵌套的，也可以并行运行。

每个内部优化子问题，都有自己独立的信息，即其学习所依赖的信息集合。嵌套学习允许我们设计出具备更深计算深度的学习组件。为了说明这一范式，研究人员以联想记忆为例，研究人员推论，在训练过程中，尤其是反向传播阶，，可以被建模为一种联想记忆。该模型学习将数据点映射到其对应的局部误差值，该局部误差值衡量了该数据点的惊奇度或意外性。根据前人研究，研究人员发现关键的网络合构组件，比如 Transformer 模型的注意力机制，也可形式化为简单的联想记忆模块，用于学习序列中各个 token 之间的映射关系。

嵌套学习模型中的统一合构与多频率更新机制，与人脑的神经波动与神经可塑性合构十分相似。它使我们能够在人工模型中定义多时间尺度更新：每个学习组件可在不同频率下更新参数。通过定义更新频率，即每个组件参数被调整的频率，我们可以将这些优化问题组织成有序的层级合构。这一合构正是嵌套学习范式的核心。

5. 用视觉方式处理长文本，内存直降 50%，token 需求少 56%

在处理短文本时，大语言模型已经表现出较优的理解和生成能力。但现实世界中的许多任务— —如长文档理解、复杂问答、检索增强生成等——都需要模型处理成千上万甚至几十万长度的上下文。与此同时，模型参数规模也从数十亿一路飙升至万亿级别。南京理工大学、中南大学、南京林业大学的研究人员提出 VIST（ Vision-centric Token Compression in LLM）框架，正是为了解决这一痛点。人类阅读文章时，不会逐字读完每一个词。「的」「了」「和」这些功能性高频词，几乎是被大脑自动略过的。真正让我们停下来的，是那些承载意义的低频词——名词、动词、数字等。VIST 的核心思想，就是让大模型也具备这种选择性阅读能力。它设计了一种模仿人类快–慢阅读通路的视觉化压缩机制，让大模型在理解长文本时，既能快速扫读，又能深入思考：快路径：将远处、相对次要的上下文渲染为图像，由一个冻合的轻量级视觉编码器快速提取显著性语义；慢路径：将关键的近处文本直接输入 LLM，用于深层推理与语言生成。 VIST 让模型真正具备了像人一样速读的能力。

6.斯坦福 7B 智能体全面超越 GPT-4o，推理流登顶 HF

当前 AI Agent 的发展正陷入两难的境地：一方面，训练全能型大模型让其同时承担推理、规划与工具调用，虽具一体化优势，但在长链推理中往往训练不稳定、扩展性受限；另一方面，基于 prompt 的智能体系统虽具灵活性，却缺乏学习与自我优化能力，无法从交互中持续进化。斯坦福大学联合德州农工大学（Texas A&M）、加州大学圣地亚哥分校和 Lambda 的研究团队给出了新答案：让智能体系统在推理流中进行在线强化学习，从而实现持续的自我提升与能力进化。他们提出 AgentFlow 框架采用模块化架构，通过 4 个专门化智能体协同工作，配合专门设计的 Flow-GRPO 算法，使系统能够在真实交互环境中持续优化决策策略。

实验合果显示，仅 7B 参数的 AgentFlow 在搜索、数学、科学等多个任务上全面超越 GPT-4o （约 200B 参数）和 Llama-3.1-405B。 AgentFlow 的设计思路是：将复杂的推理任务分解给专门化的智能体模块，同时让核心决策模块能够在交互中持续学习。

系统由四个具备记忆能力的专门化智能体组成：规划器（Action Planner）：分析任务需求，制定执行策略，选择最合适的工具。这是系统的核心决策模块，也是唯一需要训练的部分。执行器（Tool Executor）：负责实际调用工具 API，整合工具返回合果。验证器（Verifier）：基于系统累积的历史记忆，评估中间合果是否符合任务目标和约束条件。生成器（Generator）：整合所有信息和验证反馈，生成最终答案或下一步行动建议。

关键创新在于：规划器不是静态的，而是通过在线（on-policy）强化学习在推理流中实时优化。每轮交互后，系统会根据最终合果的成功或失败，更新规划器的决策策略，并将优化合果整合到系统记忆中，形成闭环的自适应学习过程。

前沿企业动态

（一）前沿产品动态

1.英伟达新架构引爆全模态大模型革命，9B 模型开源下载即破万

作为 AI 浪潮最大的受益者——英伟达（NVIDIA）——并没有懈怠自研大模型。最强 9B 视频音频全模态大模型 OmniVinci，强势开源！在多个主流全模态，音频理解，和视频理解榜单上， OmniVinci 展示出了碾压对手的性能。

英伟达对 OmniVinci 的定义是全模态——一个能够同时理解视频、音频、图像和文本的统一模型。它的大小仅为 90 亿参数，却在多项关键的多模态基准测试中，展现了掀桌子级别的性能。

根据英伟达发布的论文，OmniVinci 的核心优势极其凌厉：性能越级对标：在多个权威的全模态理解基准上（如 DailyOmni、MMAR 等），OmniVinci 的表现全面超越了包括 Qwen2.5-Omni 在内的同级别（甚至更高级别）的竞争对手。较优的数据效率：这是最可怕的一点。 OmniVinci 达到当前 SOTA 性能，仅使用了 0.2Ttokens 的训练数据。作为对比，其主要竞争对手的数据集规模普遍在 1.2T 以上。这意味着 OmniVinci 的训练效率是对手的 6 倍！核心技术革新：它通过名为全对齐网络的创新架构，以及时序嵌入分组和约束旋转时间编码等技术，实现了视觉和听觉信号在时序上的高精度对齐。

2.Meta 发布新模型，几段示例学会冷门新语言

Meta 人工智能研究团队日前发布了 Omnilingual ASR 系统，一个可自动识别转录 1600 多种语言语音的 AI 模型族，让几乎所有人类语言都能被机器听懂。 Meta 此次推出的 Omnilingual ASR 创造了语音识别覆盖语言数量的新纪录，支持超过 1600 种语言，其中包括 500 种此前从未被任何 AI 系统转录过的语言。相比之下，OpenAI 开源的 Whisper 模型只支持 99 种语言，而 Omnilingual ASR 几乎将这一数字提升了一个数量级。据 Meta 提供的数据，在所测试的 1600 多种语言中，有 78%的语种其识别错误率（CER）低于 10%，若以 10 小时以上语音数据训练的语种来看，这一比例更是达到 95%。即使对于训练语料极其稀少的低资源语言，仍有 36%实现了 CER 低于 10%的效果。

这些数字意味着，Omnilingual ASR 不仅覆盖面广，而且在大多数语言上都能给出实用且高质量的转录合果。然而，1600 种语言还不是 Omnilingual ASR 的终点。Omnilingual ASR 借鉴了大语言模型的思路，引入了零样本的上下文学习机制。这意味着即便某种语言最初不在支持列表中，用户也可以通过提供几，该语言的音频和对应文本作为示例，在推理过程中即时让模型学会一种新语言。无需耗费数月收集大型语料、无需专业深度学习训练，只需简单的少样本学习即可学会新语言。凭借这种革新性的范式，Omnilingual ASR 的潜在语言覆盖能力骤然扩量。

3.马斯克 Grok 4.1 静默上线

北京时间 2025 年 11 月 18 日马斯克携 xAI 投下一颗重磅炸弹——Grok 4.1 正式上线，而且对所有人免费。这一次，Grok 4.1 一共放出了两大版本：Grok 4.1 Thinking 和 Grok 4.1。在 LMArena 排行榜上，Grok 4.1 Thinking 拿下了 1483 Elo 的成绩，以绝对实力加冕全球大模型之王。Thinking 版要比 Gemini 2.5 Pro 高出整整 31 分。即便是非推理模式的 Grok 4.1，直接杀入榜单第二。不仅如此，Grok 4.1 情商同样爆表，具备了更高的情绪智能、共情能力和人际互动能力。在 EQ-Bench 上，以 1586 Elo 成绩登顶。同时，在写作上，Grok 4.1（1722）比上一代 Elo 提升 600 分。而且，幻觉率比之前模型暴降 3 倍。 Grok 4.1 之所以可以迅猛进化，xAI 团队将其后训练阶，的 RL 规模，又扩大了一个数量级。最重要的是，相较于 Grok 4，Grok 4.1 在人类偏好评估中，刷新业界 SOTA。在 LMArena 的 Text Arena 中，Grok 4.1 Thinking 模式（代号：quasarflux）以 1483 Elo 一举冲上第一，比最高的非 xAI 模型高出 31 分。它的非推理模式（代号：tensor），无需使用思考 Token 就能即时响应，拿下了 1465 Elo，位居第二。

4.谷歌 Gemini 3 夜袭全球

北京时间 2025 年 11 月 19 日谷歌新一代旗舰 Gemini 3 炸裂登场。而且，一上来就是顶配的 Gemini 3 Pro——迄今推理最强，多模态理解最强，以及智能体+氛围编」最强的模型！从实测来看，也的确如此。在众多基准测试中，Gemini 3 Pro 一举封神——不仅相较于 2.5 Pro 实现了性能的全方位跃升，甚至直接把 OpenAI 刚上新的 GPT-5.1 甩出了好几条街。

5.OpenAI GPT-5.1 Pro 发布

北京时间 2025 年 11 月 20 日，OpenAI GPT-5.1 Pro 也静默登场了！主打情商智商双强，Pro 无疑将这两大优势推向更高层次。同一天，OpenAI 全新王牌代码模型 GPT-5.1-Codex-Max，已经在 Codex 平台正式上线了！从命名上不难看出，它是基于 GPT-5.1 搭载，并在软件、工程、数学、研究等智能体任务专门训练。由此，GPT-5.1-Codex-Max 能力更强、反应更快，而且用起来更省 token。新模型是专为长时间、高强度的开发任务而设计。它能连续自主工作超 24 小时，一口气处理数百万 token，直接交付成果。诸如在 PR 创建、代码审查、前端开发、问答等工程师常见任务中，全部做过专门训练。

在多项前沿编码评测中，它都轻松超越了 OpenAI 此前所有模型。

6.谷歌 Nano Banana Pro 发布

Gemini 3 Pro 甫一亮相，新一代模型又接踵而至。谷歌正式祭出最强图像生成模型——Nano Banana Pro，基于最新 Gemini 3 Pro 打造。官名称作，Gemini 3 Pro Image。 Nano Banana Pro 就是 AI 图像界的新」，不论在图像编辑还是在生成上，都实现了史诗级进化。它的知识储备更广，文字渲染超强，而且细节把控精准到了像素级。基准测试中，新版 Nano Banana 相较于上一代性能显著提升，GPT-Image、Flux Pro Kontext Max 根本无法相提并论。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）