大模型+强化学习应用于因子挖掘的潜在价值,在于其突破了传统符号回归和遗传算法的诸 多限制。大模型具备广泛的跨领域知识与金融语言模式,可提供初始因子池与可解释性较 强的因子,而强化学习可通过序列决策的方式生成因子,使其具备在海量参数空间中有效 搜索的能力。
因子表达式的 Token 化序列建模
Token 化是强化学习因子挖掘框架的根基。其目标是将任何数学表达式映射为一个可学习、 可生成的离散序列,使强化学习模型能在离散空间中高效操作。逆波兰表达式(Reverse Polish Notation,RPN)是 Token 化的主流方案。逆波兰表达式将表达式按后序遍历编码 成一个线性 Token 序列,例如 BEG/SEP 作为序列起止指示符、Rank/TsRank/Mul 作为算 子符、low 作为行情字段符。

逆波兰表达式的优势在于序列化简单、容易用 PPO 或其他强化学习算法进行序列生成。然 而其同样存在明显缺点,例如表达式无法在生成过程中被解析,必须在序列结束后才能执 行、无法进行实时维度检查、容易生成大量无意义表达式(如 close + volume)、强化学习 奖励只能在序列结束后计算等等。
强化学习与因子挖掘
在完成 Token 化之后,因子挖掘问题便可以转化为一个序列决策问题,即每一步从有限 Token 集中选取一个符号,将其加入表达式序列中,直到构造完成一个可执行的因子表达式。 强化学习(Reinforcement Learning,RL)正是解决这类问题的标准方法。其核心思想在 于,让模型在“试错”中学习如何生成更优质的表达式,通过奖励机制不断向高质量因子 空间逼近。关于强化学习的相关概念可参考我们的前期报告《人工智能 59:强化学习初探 与 DQN 择时》(20220721)。
公式化 Alpha 与强化学习:为什么 RL 合适? 在因子挖掘中,我们希望模型能做到从极大的表达式空间中探索未知结构,能够持续发现 对未来收益有预测力的因子,能够自动学习什么样的 Alpha 表达式是有价值的,尽可能在 不同期限、不同市场中具备稳健性。 而强化学习的本质是在环境中不断尝试不同动作,自主学习哪些动作序列能带来更高的长 期收益。这与因子挖掘的核心目标高度一致:一个 Token 代表一个动作,一个表达式代表 一个决策序列、一个因子的预测能力(IC、IR、收益改善)代表奖励。强化学习的训练过 程就是自主发现优秀因子表达式的过程。
因此,Shin et al.(2025)Alphaforge、Zhu & Zhu(2025)AlphaQCM 等相关研究均将因 子挖掘视作强化学习问题,在因子挖掘效果上取得了显著突破。
因子挖掘如何构建 RL 环境? 要让强化学习能够在因子挖掘任务中真正发挥作用,核心在于将表达式生成过程严格形式 化为一个可交互的环境(Environment)。这一过程遵循标准的马尔科夫决策过程(Markov Decision Process,MDP)框架,包括状态、动作、状态转移与奖励机制的定义。
在因子挖掘场景中,状态(??)可以理解为当前已生成的 Token 序列,例如“BEG → close → open → Sub → SEP”对应于表达式“close - open”的构造;动作(??)则是从候 选 Token 集合中选取下一步的符号,例如算子符(Add、Sub、Div)、行情字段符(open、 volume、high)、常数符(0.1、5、20)以及序列结束符(SEP)等。在实际实现中,随着 算子与字段符的丰富,动作空间可以包含几十、上百个 Token,使得搜索空间维度呈指数级 增长。每一次执行动作时,模型会将 Token 附加到已有序列中,这构成了状态转移规则。 奖励函数则是整个框架的关键,它反映了最终生成的因子是否具备预测力和实际价值。在 因子挖掘中,常用的奖励指标包括 IC、Rank IC、ICIR、因子加入因子池后的收益改善(?IC) 等。基于这些指标与股票数据,可评估特定表达式对应的奖励,用以激励或惩罚 RL 模型, 进而不断提升生成因子的有效性、稳健性。
强化学习+因子挖掘全流程
在因子挖掘任务中,强化学习的运行方式可以直观理解为“在数学表达式空间里下棋”。当 前尚未完成的表达式就像棋盘的局面,而每一步选择一个新的 Token 则相当于在棋盘上落 子;当表达式最终构造完成并被回测系统评价其 IC 或 IR 时,这个分值就成为“棋局得分”。 强化学习的目标,就是通过大量对局学习何种“落子策略”更有可能生成高质量因子。在 具体实施时,策略网络会根据当前表达式结构,给出对不同 Token 的概率偏好。举例而言, 当模型已生成“close - open”这样的基础价差结构时,它可能会偏向继续加入“/ (high – low)”以形成价格区间的归一化,或者选择添加“ts_mean(10d)”形成动量结构等等。这 种偏好并非人为设定,而是强化学习模型在反复试错中自动学习到的“金融结构规律”:哪 些操作可以扩展有效的、稳定的 Alpha 结构,哪些操作在历史数据中表现无效或容易带来 维度冲突。
整个学习过程由奖励信号驱动。每当生成的完整表达式获得较高 IC 或 IR,其对应的 Token 序列就会受到正向强化,从而影响策略网络在未来更倾向于采取类似路径。随着训练不断 推进,模型能逐渐识别出一些通用的有效结构,例如“rank → ts_mean → ts_delta”这 一类动量组合在不同市场中往往表现稳定,“(close–open) → / (high–low)”常用于价格 归一化。强化学习的优势就在于,它能在极大的表达式空间中自动积累这种结构性知识, 而无需人工逐一指定规则。 值得注意的是,因子挖掘中的 RL 环境具有两个潜在难点:其一是奖励相对稀疏,因为奖励 通常只有在整个表达式构造完成后才会计算,这使得模型较难依靠局部反馈调整策略,通用 的解决方案之一是使用 PPO 等算法构造恰当的价值评估模型,包括 Yu et al.(2023)、Zhu & Zhu(2025)AlphaQCM 等;其二是环境本身存在非平稳性,特别是当因子池动态更新时, 同一表达式可能因因子池结构变化而获得不同的收益评价,导致策略学习过程不稳定。
因子挖掘中的强化学习算法:PPO
Actor-Critic 架构(AC 架构),即演员-评委架构,是一种应用极为广泛的强化学习架构。知 名的 PPO、DPG、DDPG、TD3 等算法均基于 Actor-Critic 架构。其中,Actor(演员)对 应于策略模型?,负责选择动作,直接输出策略?(?|?),即在给定状态?下选择动作?的概率 分布;Critic(评委)对应于价值模型 Q,评估 Actor 执行的动作的好坏,这可以协助 Actor 逐步优化策略模型的参数。 该架构有效融合了基于策略(Policy-Based)和基于价值(Value-Based)的方法,结合了 两种方法的优势,通过同时学习策略和价值函数来提升学习效率与稳定性,是一种混合型 方法。

TRPO(Trust Region Policy Optimization,置信域策略优化),可以说是 PPO 的前身。该 算法是对策略梯度算法的改进,基于两个核心概念:置信域和重要性采样(Importance Sampling,其主要功能是修正新旧策略之间的分布差异,使得可以利用旧策略所采集的数 据来优化新策略)。虽然这两个概念并非在 TRPO 中首次提出,但 TRPO 将它们与策略梯 度算法相结合,显著提升了算法的效果。TRPO 的核心思想是在最大化目标函数?(?)的同时, 限制新旧策略之间的差异。
PPO(Proximal Policy Optimization,近端策略优化),有多种变体,例如 PPO-Penalty(应 用 KL 散度惩罚)和 PPO-Clip(应用剪裁),这些算法继承了部分 TRPO 算法的思想。 PPO-Clip 因其更优的效果而获得了更多关注和应用,因此通常所说的 PPO 即指 PPO-Clip。
大模型与因子挖掘
随着以大语言模型为代表的 AI 热潮日趋演化,大语言模型与量化投资的结合也愈发紧密, 一个重要的领域是基于大语言模型的因子挖掘。我们在前期研究中,尝试利用大语言模型 挖掘量价因子(《人工智能 74:GPT 因子工厂:多智能体与因子挖掘》20240220)、基本 面与高频因子(《人工智能 82:GPT 因子工厂 2.0:基本面与高频因子挖掘》20240926), 基本验证了大语言模型在因子挖掘领域的可行性。
在本研究中,正如前文所述,虽然强化学习具备挖掘因子的各项潜在优势,但仍然难以立 足于领域知识构建具备逻辑的选股因子,这或许恰恰是大模型可以融入其中的机会。我们 尝试使用大语言模型增强强化学习在逻辑与可解释性方面的弱势,强强联手下,进一步提 升因子挖掘体系的效果。
强化学习挖掘因子流程
本文参考 Yu et al.(2023)项目构建并优化。简单而言,在因子挖掘流程中,由 RL 模型持 续不断生成 Token,以实现因子的不断挖掘。RL 模型交互的环境可称之为 AlphaPool,对 应特定股票池的 Alpha 因子池。对于 RL 模型生成的任意因子,由 AlphaPool 完成评估,评 估过程包括 IC 的计算、判断该因子是否为之前的失败缓存因子、判断该因子能否入池。在 评估过程中,AlphaPool 可随时产生奖励并终止流程,例如因子为此前的失败缓存因子,则 直接给予相应奖励结束评估,而该奖励可用于训练强化生成因子的 RL 模型。
因子挖掘字段、常数、算符设置
本文因子挖掘主要使用股票行情相关的 6 个字段,高开低收、成交量及 VWAP。构建 alpha 公式时涉及一些常数,本文亦对其做出限制。算子方面,本文主要使用四类算子:一元操 作符、二元操作符、滚动操作符和配对滚动操作符。
奖励设置
因子挖掘流程中涉及了较为复杂的奖励。当 RL 模型输出为 SEP token 时,认为已生成一 个完整因子表达式,此时由 AlphaPool 环境进行因子评估。若因子无效,则直接给予数值 为-1 的奖励;若因子为空值或异常值、超出长度限制,给予数值为 0 的奖励;若因子位于 失败缓存、效果无法入池,则给予当前 AlphaPool 最优评估指标大小的奖励,若使用 IC 评 估 AlphaPool 整体效果,则为最优 IC;若因子成功入池,则给予 AlphaPool 更新后最新评 估指标大小的奖励。
因子组合权重训练模型
在本文的因子挖掘流程中,单因子效果并非是唯一追求,我们希望在特定股票池中的多个 因子合成后效果最优,因此前文提到的 AlphaPool 评估指标实际是指多因子合成后在股票 池中的表现,可使用 IC 或 IC_IR 进行评估。对应的,在 AlphaPool 环境中可设置两种 Pool 用于因子合成,一种是 MSE Pool,使用 IC loss 优化因子组合权重;另一个种是 MeanStd Pool,使用 ICIR loss 优化因子组合权重。
强化学习神经网络模型
对于 RL 模型而言,我们基于 stable_baselines3_contrib 库中的 MaskablePPO 进行训练。 MaskablePPO 是对传统 PPO 算法的扩展,其核心创新在于动作掩码机制,允许模型在训 练和决策时动态忽略无效或非法动作,从而在复杂约束环境中实现更高效、更稳定的策略 学习。在本文设置中,MaskablePPO 依赖的神经网络模型有包括 LSTM 和 Transformer。 在 RL 策略模型训练过程中,我们将截取某段样本集用于模型参数的训练迭代,这里的样本 集可以理解为模型生成的动作序列(BEG、Sub、Close、Open、SEP、BEG、……)及 对应状态等信息。通过类似于深度学习中 Batch 切分,我们可以打乱样本集、截取特定 Batch, 进而对模型(LSTM 或 Transformer)进行更新迭代,最终获得相比于旧策略模型(参数为 ??)更优的新策略模型(参数为??+4)。

大模型的角色
在实际进行强化学习因子挖掘时,我们会发现 RL 模型产出的相当一部分因子存在构造简单 (例如$volume)、不合逻辑(例如 Sub($volume, $close))、符号多余(例如 Abs(Abs(Sub($close, $open))))等问题,原因在于 RL 模型并不具备语义理解能力,难以 构造符合逻辑、具备一定经济学含义的因子,而这恰恰是大模型的优势所在。 因此在本文框架中,我们尝试利用大模型发挥两项功能。一项功能为构造基础池,即为 RL 模型提供一个“热身”过程,在一个较为优质的因子池中,RL 模型可能更容易挖掘出效果更 进一步的因子;另一项功能是定期注入新因子,剔除劣质因子,避免 RL 模型陷入局部最优。
初始测试
首先,我们进行了简易条件下的初始版本测试。这里我们使用 MSE Pool 作为交互环境,以因子组合 IC 为目标,模型方面采用 LSTM 作为 RL 策略模型,模型仅为 1 层,输入及隐藏层维度均为 128,模型结构较为简单。
对于沪深 300 指增策略组合优化参数,具体设置如下表,我们设置得相对宽松,以凸显因 子本身效果。
从指增策略结果上看,自 2021 年以来总体超额可观,但在 2025 年 7 月至 9 月有较大超额 收益回撤。策略年化收益率 12.32%,夏普比率 0.75,年化超额收益率 14.42%,信息比率 1.13。
LSTM 与 Transformer 效果对比
神经网络模型是深度强化学习模型的核心,这里我们尝试对比使用 LSTM 和 Transformer 对于最终因子挖掘效果的影响。
对比 LSTM 和 Transformer 对应的沪深 300 指增策略效果。Transformer 的效果与 LSTM 总体差别不大,但是 Transformer 更为稳定,尤其在 2025 年 7 月至 9 月超额回撤较小。从 业绩指标上看,Transformer 的年化超额收益率为 16.41%,比 LSTM 的 14.42%高约 2 个 点,超额收益最大回撤 Transformer 比 LSTM 低约 4.6 个点。
Transformer 的优势在中证 500 指增策略中体现更为明显,回测区间 Transformer 的年化超 额收益比 LSTM 高约 6 个点。
IC Pool 与 ICIR Pool 效果对比
前文提到我们可以采用不同的因子池效果评估标准,包括 IC 或者 ICIR,这里我们对比两种 评估指标最终对于策略效果的影响(使用 Transformer 作为 RL 策略模型)。在实际测试中, 从训练时长上看,由于 ICIR 计算较 IC 更为复杂,参数优化需要更久,因此采用 ICIR 比 IC 训练更加耗时。从回测结果上看,采用 ICIR 比 IC 的总体超额收益偏低,但总体回撤更小。 IC Pool 的沪深 300 指增策略年化超额收益比 ICIR 高 2.38%,超额收益最大回撤高 3.11%。

因子复杂度约束效果对比
因子复杂度本身并非是因子本身的致命问题,但在自动化因子挖掘框架中,模型目标往往 是训练集上的 IC 等指标,因子过于复杂往往容易导致过拟合,然而,如果不给予一定程度 的宽松约束,因子挖掘框架可能局限于简易构造的因子,进而导致欠拟合。这是因子挖掘 过程中值得考量的取舍问题。 我们尝试对 RL 模型产出的因子表达式进行长度限制,以 action token 为单位,限制其在特 定范围内,包括[3, 7]、[3, 8]、[3, 10]、[3, 12],相比于原始设置[0, 15],因子表达式参数空 间变得更小。
从策略效果上看,当把因子复杂度设置为[3, 8]时,策略最终年化超额收益率最高,但 24 年以来超额平平;以[3, 8]为基础,因子复杂度变小或变大策略超额收益均会变差。超额收 益稳定性上看,原始设置[0, 15]优于其余设置。
奖励设置效果对比
奖励设置是 RL 环境的核心,可能会严重影响 Agent 与环境交互时的策略选择,最终显现在 训练效果中。因此,针对初始版本的奖励设置,我们尝试构建不同的奖励条件,探索是否 存在更优的奖励配置。 从结果上看,奖励 1-5 中未有显著稳定优于初始版本奖励的设置。奖励 3 采用了增量提升 的奖励(即(new_obj-best_obj)*100),是唯一一个显著差于初始版本的设置。奖励 2 相比 于初始版本调整了部分奖励的量纲,效果略有提升。
长训练观察
强化学习往往进行较长时程的训练,常见几十万级步数的训练设置。而前文的测试全部基 于 1 万步训练,为对比训练步数的变化对于因子挖掘效果的影响,我们进行了一次 20 万步 的长时程训练,进而对比不同时点因子挖掘效果的差异。 从指增策略效果上看,在 5 千至 10 万步测试中,策略超额总体效果差异并不大。当步数增 加至 15 万和 20 万步时,策略超额明显变差,其中尤以 15 万步时效果更差,测试区间总体 无超额。在 5 千至 10 万步中,只有 1 万步超额效果最为突出,其余步数效果相差不大。 我们还观察了训练过程中不同数据集表现随训练步数的变化,训练集和测试集 IC 随训练总 体呈上升趋势(测量集 IC 总体为负可能与所选区间有关),而测试集年化超额收益率随着 训练步数的增加呈下降趋势,这可能意味着模型产生了一定程度的过拟合。
因子数量效果对比
因子数量往往被视为解释收益变量的不同维度,更多的因子数量可能意味着更多的解释维 度,不过也可能存在更多的冗余维度,因此特定股票池中的因子数量也可能影响最终因子 组合的效果。这里我们测试挖掘不同因子数量时的指增策略效果。 从沪深 300 指增效果上看,挖掘 5 个或 10 个因子的累计超额收益高于 20/50/100 个因子。 虽然 5 个因子与 10 个因子在回测区间内超额收益相差不大,但 5 个因子的超额收益波动更 大,10 个因子的超额收益曲线更为平稳。
大模型增强效果
如前所述,大模型可以以增强角色融入强化学习因子挖掘流程中,一方面提供初始因子池, 快速启动挖掘流程;另一方面定期“去弱留强”,为因子池注入新因子,避免陷入具备最优。 我们尝试在沪深 300 和中证 500 中验证大模型可能存在的增强效果。 从对比结果中,相比于仅用强化学习驱动的沪深 300 指增策略,融入大模型后,策略年化 超额出现明显提升,由 16.41%提升至 17.85%,夏普比率从 0.89 提升至 0.97,但超额收 益最大回撤有所提升,从 16.71%升至 17.28%。 中证 500 指增策略表现类似,大模型加入强化学习因子挖掘流程后,年化超额收益率提升 由 7.17%提升至 9.78%,夏普比率从 0.55 提升至 0.69,但超额收益最大回撤同样变大,从 17.78%变大至 18.45%。

因子泛化性测试
前文沪深 300 或中证 500 指增组合使用的因子均在各自股票池中训练得来,为了验证因子 的泛化性,我们尝试将沪深 300 的因子组合(大模型增强后)应用于中证 500 指增策略中, 将中证 500 的因子组合(大模型增强后)应用于沪深 300 指增策略中,观察因子是否仍能 带来显著超额收益。 从结果上看,沪深 300 因子组合应用于中证 500 指增策略效果依旧稳定,年化超额收益率 17.85%,信息比率 1.50;中证 500 因子组合应用于沪深 300 指增策略效果也较为亮眼,年 化超额收益率 18.52%,信息比率 1.46。总体显示各因子组合具有一定程度泛化性。
因子评估与因子相关性
为了进一步评估大模型+强化学习挖掘因子的特性,我们进一步对其累计 IC、分层收益及相 关性进行分析。从累计 IC 上看,沪深 300 因子组合与中证 500 因子组合均相对稳定,只有 2021 年 3-6 月与 2025 年 6-9 月出现较为明显回撤。 从分层收益上看,两个因子组合分层均相对单调,沪深 300 因子组合多空分层相对均衡, 中证500因子组合空头分层效应更为突出,两个因子组合近期部分分层超额收益有所回撤。 从因子相关性上看,无论沪深 300 还是中证 500 因子组合在估值(Book to Price)上均有 较高相关性,中证 500 因子组合在市值(Size)上的暴露明显偏负,显现出一定程度的小 盘价值风格暴露。 此外,我们对比两个因子组合与同样基于量价数据的 GRU 因子(《人工智能 72:基于全频 段量价特征的选股模型》20231208)间的相关性,发现二者间的相关性周期性波动,均值 都在 0.2 左右,相对偏低,近几年相关性中枢相对上移,表明二者对于量价信息的捕捉存在 差异之处。
指增策略收紧约束效果
前文指增策略测试中对于组合优化的约束相对宽松,持仓个股权重会超过 10%,为了贴近 实际指增策略设置,我们设置了如下表中的约束,以检查策略效果是否稳定。
从效果上看,收紧约束后,沪深 300 与中证 500 指增效果仍相对突出,沪深 300 年化超额 收益率 11.00%,信息比率 1.03;中证 500 年化超额收益率 6.59%,信息比率 0.50。但相 比于未收紧约束前,超额收益与信息比率均有所下降,超额收益最大回撤也更大。
本文是对大模型+强化学习应用于因子挖掘领域的深入探索,显示出强化学习挖掘因子的可 行性,以及大模型对于强化学习因子挖掘的增强作用。强化学习离不开因子表达式的 Token 化序列建模,Token 化后的因子表达式建模,便转化为 PPO 等强化学习算法擅于模拟的序 列决策问题。换句话说,一个 Token 可以代表一个动作,一个表达式可以代表一个决策序 列、一个因子的预测能力(IC、IR、收益改善)可以代表奖励,强化学习的训练过程就是 自主发现优秀因子表达式的过程。从结果上看,基于强化学习挖掘出的因子组合在沪深 300 指增策略表现优异,回测区间内年化超额收益率可达 16.41%;在中证 500 指增策略中表现 同样较好,回测区间内年化超额收益率达 7.17%。 然而,在实际进行强化学习因子挖掘时,我们会发现强化学习模型产出的相当一部分因子 存在构造简单、不合逻辑、符号多余等问题。原因可能是强化学习模型缺乏语义理解能力, 难以构造符合逻辑、具备一定经济学含义的因子,而这恰恰是大模型的优势所在。因此我 们尝试利用大模型提供初始因子池,同时定期更新因子池,剔除相对差的因子,加入可能 表现更好的因子,使得因子池成为“活水”池。结果显示,大模型增强后的沪深 300 组合 与中证 500 组合年化超额收益率能够提升 1-2%的超额。 在对本文因子框架进行测试时,我们对比了诸多可能影响因子挖掘效果的因素,包括强化 学习策略模型类别、环境评估指标、因子复杂度约束、奖励设置、训练时程、因子数量等。 其中或多或少能够反映出一些可能的结论,但由于资源所限,我们并不能把每项因素的所 有可能取值测试完全,所以尚未测试的参数空间是否存在更优效应尚未可知。 总结而言,本文尝试进行新颖的大模型+强化学习结合的因子挖掘方案,并基于实际测试展 示出强化学习的因子挖掘效果、以及大模型带来的增益效果,不过仍有较多角度未能进行 详尽测试、探索亦有未尽之处,大模型+强化学习的量化投资应用仍颇具潜力。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)