2025年高频因子跟踪：Gemini 3 Flash等大模型的金融文本分析能力测评

国金证券2026/01/13
举报

大模型加速技术不断优化，相关模型金融文本分析能力测评

十二月以来，以“响应速度”作为优势的大模型出现了快速迭代： 1. 2025 年 12 月 15 日，英伟达推出了完全开源的 Nemotron 3 Nano 模型，其输出速度达到每秒 358Tokens，是当前所有模型中响应速度最快的模型； 2. 2025 年 12 月 16 日，小米推出 MiMo-V2-Flash 大模型，其每秒 150 Tokens 的输出速度叠加每百万 Tokens 0.15 元的费用，使其成为最具“性价比”的大模型，也是当前国产模型中速度最快； 3. 2025 年 12 月 18 日，Gemini 3 系列推出 Flash 版本，在追求高输出速度的同时兼顾较强的模型智能。

模型能力层面，其输出速度、或是更综合的响应速度已成为一个非常关键的对比维度。语音对话、实时编程辅助、Agent 自主决策、端侧应用等多种应用场景均需要底层大模型有较快的反馈速度，才能带来较好的使用体验。

1.1 底层架构优化显著提升大模型响应速度——以 Nemotron 3 模型为例

英伟达在推出 Nemotron 3 Nano 模型的同时也发布了模型白皮书，因此我们可以了解到模型架构等底层信息。总结来说，Nemotron 在架构层面做了 4 处改进：

a) Mamba-2 + Transformer 混合 Moe 架构

Nemotron 3 系列模型将传统架构中 MoE 之间的自注意力层换为 Mamba-2 模型，实现了更高效的模型输出。传统架构中的自注意力层会在推理过程中维护一个 KV 缓存，其参数量伴随推理的迭代线性增长；而 Mamba 架构中的状态层在多轮迭代中参数量不变。这使得模型在处理百万级的长文本时依旧能保持极快的速度。当然，模型在部分关键层级上依旧保留了自注意力层，保留其处理复杂逻辑推理的能力。

b) 更加稀疏的 LatentMoE 层

此次 Nemotron 3 模型的 MoE 层中的专家数量达到了 128 个，每次激活 6 个。因此，尽管总参数达到 31.6B，但实际每次前向传播仅激活 3.6B 参数，进一步节省推理资源。在单张 4090 显卡上就能实现低于 100 毫秒的首字延迟。

c) 多 Token 预测(MTP)

MTP 在 DeepSeek-V3 模型中就已经得到使用，也证明了其在推动模型进行多步预测、提升模型推理效率方面是有效的。Nemotron 3 模型中使用的集成 MTP 提升了模型在代码生成、推理、阅读理解等多种类任务上的整体表现，也帮助实现了更快速、低延迟的推理效果，加速整体的文本生成速度。

d) 模型参数 NVFP4 量化

Nemotron 3 使用了英伟达显卡所独有的 NVFP4 量化格式，内存占用更小的条件下可实现与 BF16 等更高精度量化模型相类似的效果。为了保证模型能力，架构仅在少数的自注意力层上保留了 BF16 精度，且每个自注意力层只保留两组 KV 缓存，在性能与效率之间进行了精巧的平衡。

以上手段基本囊括了当前业界在模型速度方面可做的所有优化，也因此 Nemotron 3 Nano 在响应速度上做到了极致。不过其作为一个 30B 的小参数模型，模型能力无法与 Gemini 3 Flash 等闭源大模型相比较。

1.2 Gemini 3 Flash 及其他模型的中文金融文本分析能力对比

Gemini 3 Flash 模型实现了真正兼顾响应速度与模型性能两方面。从官方公布的基准对比结果上来看，Gemini 3 Flash 性能显著超越了此前的 Gemini 2.5 Flash 以及其他系列中的 flash 版本模型，整体能力更接近 Gemini 3 Pro 版本。

不过从应用场景上来说，我们更关心模型在金融领域的应用能力。因此，我们使用 CFLUE 测试集对各模型能力进行评测。CFLUE 是一个开源的测评基准，由阿里云与苏州大学联合构建，分为以下两大部分。金融知识评估： 3800 余道来源于 15 类金融资格考试的多项选择题，用于衡量模型对金融基础知识与推理的掌握。

在所有模型中，Gemini 3 Flash 达到了最高的正确率；DeepSeek 系列模型在金融知识的准确度普遍较高，其中 DeepSeek-V3.2 Reasoner 和 Speciale 模型格外突出。在解题思路相似度上，尽管是 DeepSeek-V3 得分最高，但我们认为其背后原因在于 V3 给到的解题思路相对更短，使得对应的词频相似度偏高。这也侧面反映了后续 DeepSeek 系列模型普遍存在的问题，即生成的回答长度普遍偏长。相比之下，Gemini 3 Flash 整体表现最为突出。

在金融应用领域，我们对更多模型进行了能力测试。整体来看，DeepSeek-V3.2 Speciale、 Gemini 3 Pro、GPT 5.2 等各家最先进的大模型在应用领域差异不大，相对来说 DeepSeek 系列在中文金融文本方面得分较高。此外，在各系列中最快大模型的能力对比上， DeepSeek-V3.2 Chat 表现最佳。

高频因子超额收益概览

过去一周，各类高频因子多头组合在中证 1000 指数成分股中的表现稳定。其中，价格区间类因子多空收益率-1.64%，多头超额收益率-1.00%。量价背离因子多空收益率-4.59%，多头超额收益率-2.21%。遗憾规避因子多空收益率为 0.09%，多头超额收益率 0.45%。

高频价格区间因子

在前期研究中，我们从高频数据的角度探究了市场的日内微观结构。利用三秒的快照数据，发现：高价格区间成交笔数与成交量因子与股票未来收益呈现显著的负相关性，即股票在日内高价格区间投资行为聚集程度与成交活跃度越低，未来上涨可能性越大。低价格区间平均每笔成交量因子与股票未来收益呈现显著的正相关性，即低价格区间的平均每笔成交量越大，大资金活跃程度越高，股票未来上涨可能性越大。

高频量价背离因子

在前期深度报告《Alpha 掘金系列之二：基于高频快照数据的量价背离选股因子》中，我们发现，当量价出现背离时，无论当前股价处在上升还是下降通道，未来上涨的可能性均较高；同理，当量价趋同时，股价未来下跌的可能性较高。我们利用高频快照数据对价格和成交量的相关关系进行衡量，分别用快照成交价和快照收益率与快照成交量、成交笔数和每笔成交量计算。

遗憾规避因子

在前期深度报告《Alpha 掘金系列之四：基于逐笔成交数据的遗憾规避因子》中，我们利用行为金融学中的遗憾规避理论发现，利用投资者的遗憾规避情绪可以构造出有效的选股因子。如某只股票买入浮亏占比较高或买入浮亏程度较大时，股票的预期收益会更高；卖出后股价反弹的占比越高或反弹程度越大时，股票的预期收益会更低。我们利用逐笔成交数据区分了每笔交易的主动买卖方向，发现在加入小单和尾盘的限制后，因子的表现有进一步的提升。

斜率凸性因子

股票作为二级市场上被广泛交易的标的，其价格与供需量的变化受到供需弹性的规律影响。而高频快照数据中的限价订单簿所独有的委托量和委托价信息，为我们提供了绝佳的研究数据来源。我们首先将委托量数据按照其档位进行累加，用委托价和累计委托量计算出买卖双方的订单簿斜率。发现日频斜率因子基本符合我们的一般认知：即买方斜率越大，股票的需求弹性越小，买方投资者对于股票的价格敏感程度较低，则股票有更高的预期收益。对于卖方而言，斜率越小则股票的供给弹性越大，即减少相同的价格会有较大程度的委托量降低，表明卖方不愿轻易降价卖出，同样对应到股票更高的预期收益。我们将按照订单所在档位区分为高档位投资者斜率因子和低档位斜率因子，并根据两者的反向关系构建出斜率凸性因子。最后提取出低档斜率因子（Slope_abl）和高档位卖方凸性因子(Slope_alh)进行合成。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）