1.1、 Tokens 跟踪
根据 OpenRouter 公开数据,2025 年 12 月 22 日至 12 月 28 日,周度 token 消耗量有所 上升,调用量为 5.57T,环比上周-2.28%。在 tokens 规模 leaderboard 前五名中,xAI 旗下 GrokCodeFast1 以 409Btokens 位居榜首;Google 的 Gemini2.5Flash 以 353B 位列第二; DeepSeekV3.2以352B排第三;Anthropic的ClaudeSonnet4.5以352Btokens排第四;xiaomi 的 MiMo-V-Flash 以 351B 位列第五。 从市场份额维度来看,Google 以 247Btokens 占据 23.2%的份额,稳居首位;Anthropic 以 149Btokens 占比 14.1%,位列第二;xAI、Deepseek、OpenAI、则分别以 142B、116B、 95.1Btokens,对应占据 13.4%、11.0%、9.0%的市场份额。

1.2、数据跟踪:算力租赁价格平稳
上周算力租赁价格平稳。具体来看,显卡配置为 A100-40G 中,腾讯云 16 核+96G 价格 为 28.64 元/时,阿里云 12 核+94GiB 价格为 31.58 元/时;显卡配置为 A800-80G 中,恒源云 16 核+256G 价格为 7.50 元/时。
1.3、产业动态:小红书 Video-Thinker 打破工具依赖, 刷新视频推理 SOTA
12 月 底 , 小 红 书 研 究 团 队 推 出 全 新 视 频 推 理 模 型 Video-Thinker , 以 “ThinkingwithVideos”打破行业“工具依赖”困局,其 7B 参数量版本在 Video-Holmes 等 多个高难度基准测试中刷新 SOTA 性能,为视频大模型的动态推理开辟了新路径。 针对现有视频推理方法往往受限于对外部工具的依赖或预设的提示词策略的痛点, Video-Thinker 提出将“时序定位(Grounding)”与“视觉描述(Captioning)”两大关 键能力融入模型思维链(CoT),让模型在推理中自主定位关键帧、提取视觉线索。 Video-Thinker 的技术革新首先体现在高质量数据集的突破性构建上。针对现有开源视 频数据集的二元割裂缺陷,团队整合 ActivityNet、STAR、LVBench 等六大主流数据集,创 新推出 Hindsight-Curation 自动化流水线,构建了高质量样本的 Video-Thinker-10K 数据 集。通过“双向信息补全”、“结构化思维链合成”、“后见之明验证”三步闭环,实现 了时序定位、视觉描述与逻辑推理的深度融合,为模型内生能力培养奠定了坚实数据基础。
其另一核心技术革新在于“监督微调(SFT)+组相对策略优化(GRPO)”的两阶段 训练范式。SFT 阶段先通过标签主动定位关键片段,再利用标签提取视 觉细节,最后通过标签进行逻辑整合,完成模型“冷启动”,强制模型习得“定 位-感知-推理”的结构化思考范式,有效抑制无证据生成答案的幻觉倾向;GRPO 阶段则 突破传统 PPO 算法的局限,通过对同一输入并行采样多组不同的推理轨迹,利用组内输 出的相对优势来指导梯度更新。同时设计结果导向和过程约束的复合奖励函数,引入 KL 散度约束防止策略突变。这种训练模式不仅让模型将时序定位与视觉描述能力内化于思 维链,涌现出顿悟时刻,使模型能主动修正推理偏差,真正摆脱外部工具依赖,实现视 频内容的自主导航与深度推理。 为了全方位验证 Video-Thinker 的视频推理能力,研究团队构建了包含域内(InDomain)与域外(Out-of-Domain)的双重评估体系。Video-Thinker-7B 在域内与域外 双重评测体系中表现亮眼,成功确立 7B 参数量级模型的新 SOTA。评测涵盖 5 个域内测试 集与 6 个高难度域外推理基准,对比了 5+12 个主流基础模型及视频推理模型,结果显示 其域外泛化能力实现质变,Video-Holmes 榜单准确率达 43.22%,VRBench 综合基准准确 率 80.69%,证明模型真正习得通用视频推理能力。帧数鲁棒性测试中,该模型在 16 帧、 32 帧、64 帧不同输入设置下均持续压制基线模型,即便 16 帧低帧率条件下仍保持高推 理精度,体现出高效的时序信息整合机制。深度归因分析表明,其时序定位平均交并比 (mIoU)达 48.22%,较基础模型提升 75.5%,Recall@0.3 指标近乎基础模型两倍;视觉 描述在三大核心指标上全面领先,较基础模型提升 31.2%,较 Video-R1 提升 61.0%,为 推理提供了坚实信息基础。

消融实验进一步验证了模型的核心优势,简单外挂工具会导致性能“负优化”,即便 调用 72B 参数量专家工具,准确率仍低于 7B 基础模型;成熟工具调用方法 VideoMind-7B 虽 超越基础模型,但仍落后 Video-Thinker 约 4.2 个百分点。而 Video-Thinker 的内生思维链 实现“感知-定位-描述-推理”无缝融合,展现压倒性优势。同时实验揭示,SFT 阶段仅负 责规范模型思考格式,GRPO 强化学习才是性能飞跃的关键,使其在 Video-Holmes 和 VRBench 上分别提升 11.70%和 18.29%,两阶段训练成为提升复杂推理能力的有效路径。这 一系列实测结果证明,视频推理能力无需依赖“大参数+大数据”堆砌,通过精准培养内生 能力,7B 量级模型即可实现超越现有方案的性能,为视频推理领域开辟了新范式。
Video-Thinker 的核心价值,在于打破了“视频推理必须依赖外部工具”的固有认知, 通过“高质量数据合成+精准强化训练”的全链路设计,让 MLLM 真正实现内生“时序定位” 与“片段描述”能力,实现了端到端的自主视频思考。
2.1、 周流量跟踪:Character.AI 周访问量环比+8.32%
本期(2025.12.25-2025.12.31)AI 相关网站流量数据:访问量前三位分别为 ChatGPT (1090.0M)、Bing(749.0M)和 Gemini(384.0M),访问量环比增速第一为 Character.AI (8.32%);平均停留时长前三位分别为 Character.AI(00:18:04)、Discord(00:10:42) 和 Kimi(00:08:43);平均停留时长环比增速第一为 Gemini(1.16%)。
2.2、 产业动态:DeepSeek 推出流形约束超连接,引领 AI 架构效率新突破
2026 年 1 月 1 日,由 DEEPSEEK 公司发布、其创始人梁文锋署名的一篇学术论文,正式 公开了一种名为 mHC(流形约束超连接)的全新架构设计。这一方法能够在参数量为 27B 的 模型上,仅引入约 6.7%的额外训练时间开销,即可实现显著的性能提升,标志着在提升模 型能力与效率的探索道路上迈出了关键一步。 DEEPSEEK提出的mHC架构,正是针对传统残差流通道宽度瓶颈痛点的一次突破性尝试。 其核心创新在于,将 Hyper-Connections 的参数空间约束到特定的流形(manifold)上,以恢复恒等映射结构。具体而言,该方法要求矩阵元素非负,且每一行与每一列的元素之和 均为 1。这种双随机性带来了多重理论优势:首先,该类矩阵的谱范数不大于 1,这意味着 映射过程是非扩张的,有助于抑制梯度爆炸;其次,双随机矩阵在乘法运算下具有封闭性, 确保了跨越多层的复合残差映射仍然是双随机的,从而在整个模型深度范围内保持稳定性; 最后,该矩阵可视为一系列置换操作的凸组合,这提供了一种鲁棒的特征融合机制。
在技术实现层面,mHC 架构对每一层参数的处理进行了精心设计。给定某一层的输入, 模型会首先将其展平以保留完整的上下文信息,随后分别计算一个动态映射和一个静态映 射,接着通过 Sigmoid 函数得到最终满足约束的映射。Sinkhorn–Knopp 算子首先通过指数 运算保证所有元素为正,然后执行交替的迭代归一化过程,使矩阵的行和列分别归一到 1。 尽管严格的归一化迭代过程需要无限迭代,但实验中进行约 20 次迭代即可获得一个实用的 近似解,在效率与精度之间取得了良好平衡。
在基础设施设计层面,研究团队也实施了多层次的优化策略:首先,通过“内核融合” 技术和混合精度策略,对高维隐藏状态进行除以范数的操作重新排序,在不牺牲计算速度 的前提下最大化数值精度,并将多个具有共享内存访问模式的算子融合为统一的计算内核, 显著减少了内存带宽瓶颈。其次,为了应对 n 路残差结构带来的内存开销,他们采用了巧妙的重计算策略——在前向传播后丢弃 mHC 产生的中间激活,在反向传播需要时再即时重新计 算。通过最小化与 L_r 对应的总内存占用确定了最优的重计算块大小。最后,在大规模训练 中,团队扩展了现有的 DualPipe 调度策略。通过将部分计算内核置于独立的高优先级计算 流,并避免使用长时间运行的持久化内核,以防止产生长时间的停顿。该设计允许对已重 叠的注意力计算进行抢占,从而在保持计算设备处理单元高利用率的同时,实现更加灵活 的调度。
实验部分全面验证了 mHC 架构的训练稳定性和收敛性。在 27B 参数模型的训练稳定性测 试中,mHC 成功解决了原始 HC 方法中观察到的训练不稳定性问题,其最终训练损失较基线 模型降低了 0.021,并且在整个训练过程中展现出显著优于 HC 的稳定性,与基线相当。在 下游任务性能评估中,mHC 模型在包括 BBH、DROP 等在内的多个基准测试上,其零样本和少 样本性能均持续超越基线模型,并且在绝大多数任务上也优于 HC 模型。特别是在 BBH 和 DROP 任务上,相较于 HC 取得了超过 2 个百分点的额外性能提升,证明了其在大规模预训练 中的有效性。
研究团队还深入分析了 mHC 的扩展特性。通过在不同模型规模——从 3B 到 27B 参数, 和不同计算预算下的对比实验,结果表明 mHC 带来的性能增益在不同规模下均能稳健保持, 在更高的计算预算下仅有轻微衰减,验证了 mHC 架构在大规模训练场景下的普遍有效性。综 上所述,DEEPSEEK 提出的 mHC 架构,成功地将“扩展残差流宽度”这一理论设想推向了实 用化,同时实现了增强模型处理能力和保证训练稳定性的双重目标。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)