2025年金融工程行业分析：“逐鹿”Alpha专题报告，分钟因子模型

中信建投证券2025/09/09
举报

一、简介

在先前的 Factor Zoo 与 Model Zoo 研究框架中，我们分析了将分钟级数据降频至日线级别进行 Alpha 因子挖掘，并在此基础上对比了各类机器学习模型的表现。本文将在此基础上进行深化：我们将直接在分钟频率上构建预测因子，并结合股票的日内交易模式与微观结构特征，利用机器学习算法训练端到端的分钟频预测模型。通过对 A 股市场日内价格进行分析，其中我们发现“尾盘买入-隔日开盘卖出”的隔夜策略存在显著且持续的超额收益。为精确捕捉此效应，我们设计了一个分钟频率的机器学习交易模型。在特征工程阶段，我们整合了 Factor Zoo 分钟频因子与 Alpha158 因子，构成了一个高维的初始特征集。随后，我们利用树模型的特征重要性对其进行评估筛选，提取最具预测力的核心因子。在模型架构上，我们采用了一种集成策略。融合了两种互补的模型：一是经典的 LightGBM，我们通过滚动训练的方式使其动态适应市场变化；二是一个创新的深度学习模型 pegformer，其采用“Patch Embedding + GRU + Transformer”的结构，旨在高效捕捉时间序列的局部与全局依赖关系，并通过增量学习提高训练效率。最终，我们将两个模型的预测信号进行集成，生成最终的交易决策。结果表明，在中证 1000 指数成分股为交易标的的测试中，该分钟频隔夜模型取得了显著且稳健的 Alpha 收益。

二、日内股价形态特征

在构建分钟频因子模型之前，我们必须解决一个核心的优化问题：如何在现实的交易约束下，确定最优的预测周期与持仓频率。一方面，过于高频的预测与交易虽能捕捉市场的瞬时机会，但由此产生的高昂交易成本极有可能吞噬策略的 Alpha 收益。另一方面，若持仓周期过长，源自高频数据的短期预测信号则会因快速衰减而失效，导致模型难以发挥其信息优势。为找到最佳平衡点，我们首先对股价的日内形态进行深入的统计分析，旨在识别出最具预测价值和交易性价比的时间窗口。以 A 股市场最具代表性的沪深 300 指数为研究对象，我们选取了其 2016 年至 2022 年间的全部成分股，并基于分钟频价格数据进行分析。为实现标准化比较，我们将各股票当日的分钟价格均以其开盘价进行归一化处理。

为了有效提升整体收益，我们必须在择时的基础上叠加选股因子。为此，我们构建一个基于机器学习的 60 分钟频率预测模型。通过个股选择来增强策略的收益，使其具备在真实市场中盈利的能力。

三、因子构建

3.1 Alpha158 因子

Alpha158 与 Alpha360 是 Qlib 中默认的两套因子计算方法： Alpha360 采用枚举法的构建方法，它基于六个基础特征——开盘价、最高价、最低价、收盘价、成交均价及成交量。对这六个特征进行归一化处理，并分别回溯过去 60 个交易日的数据，从而生成最终的因子列表。 Alpha158 借鉴了一系列经典的量价因子构建思想，其结构设计更加复杂。该因子集通过引入一个时间跨度参数 d（短期取值[1-5]，中长期取值[5, 10, 20, 30, 60]），从动量、波动率、流动性等多个维度，深度刻画了股价的短中长期动态特征。

我们此前的研究结果表明，Alpha158 作为机器学习模型的特征输入，其预测效果优于 Alpha360。因此，为了追求更优的模型性能，我们在此次研究中继续采用 Alpha158 作为基础因子构造方式。

3.2 FactorZoo 因子

在我们的 Factor Zoo 系列研究中，我们曾从振幅、标准差、高阶矩、成交占比、流动性、动量、量价相关性、极值位置等多个维度构建了数千个因子。在对每类因子的日内规律进行深入分析后，我们最终筛选出了一批预测效果好且相关性低的有效因子。需要注意的是，原始 Factor Zoo 在构建的最后一步是将因子降频为日频数据，其筛选标准也着眼于对 5 日收益率的预测效果。但得益于我们底层架构的灵活性，绝大多数因子（部分统计类因子除外）只需移除其最后的降频步骤，便可以还原为它们最原始的分钟频序列，从而直接应用于我们的分钟频模型中。

最终筛选保留的因子为：Max($high, 240) / Min($low, 240)-1、Mad($high, 240) / $close、UpStd($close / Ref($close, 4)-1, 240)、Kurt($close / Ref($close, 4)-1, 240)、Corr(Ref($high, 1), $volume, 237)、Peak($close, 240)、 Min($close/Ref($close,7)-1,240)。

3.3 因子筛选

由于 Alpha158 因子数量较多，若将其与 Factor Zoo 因子全部作为模型输入，将导致过高的内存占用和缓慢的训练速度，这一计算效率问题在训练时序深度学习模型时尤为严峻。为此，我们首先进行因子筛选。我们采用基于树模型的特征重要性来进行筛选。具体而言，我们在训练集上构建完整的 Alpha158 与 Factor Zoo 分钟频因子集，然后使用 LightGBM 模型进行训练，预测目标为未来 60 分钟的收益率。根据模型输出的特征重要性排序，我们筛选出排名前 20 的因子作为下一阶段模型的最终输入。下表展示了经过特征重要性筛选后的最终因子排名。从表中可以清晰地看出，Factor Zoo 系列因子占据了重要性排名的前列，其表现整体上优于 Alpha158 中的因子。一个非常有趣的现象是，尽管我们最初构建 Factor Zoo 因子库的目标是预测周线级别的收益，但这些因子在剔出降频算子后，在分钟频率的模型中依然展现出了强大的预测力，这充分说明了它们在不同时间尺度上的普适性和有效性。

四、模型

为了充分利用数据特性，在模型架构上，我们采用了一种集成策略。融合了两种互补的模型：一是经典的 LightGBM，通过滚动训练的方式使其动态适应市场变化；二是一个创新的深度学习模型 pegformer，其采用“Patch Embedding + GRU + Transformer”的结构，旨在高效捕捉时间序列的局部与全局依赖关系，并通过增量学习提高训练效率。最终，我们将两个模型的预测信号进行集成，生成最终的交易决策。对于模型的训练数据，我们采用上文筛选出的 20 个分钟频率因子作为输入特征，预测目标设定为未来 60 分钟的收益率。我们的数据集划分如下：初始训练集覆盖 2016 年至 2020 年，验证集为 2021 年全年。在初始训练之后，模型将通过滚动训练或在线学习的机制持续更新，以生成动态的预测结果。至于股票池的选择，为了平衡波动性和流动性，我们以中证 1000 指数的成分股作为本次研究的标的。

4.1 整体框架：集成学习

金融市场数据同时具备两种显著特性：截面特征：在同一时刻，不同股票的因子表现存在差异，这些因子间的非线性关系和交互作用是预测未来收益的关键。时序特征：单一股票的历史数据序列中，蕴含着动量、反转、波动率聚集等重要的动态模式。传统的机器学习模型（如树模型）擅长处理截面特征，但难以捕捉长程的时间依赖性；而像 RNN,Transformer 等深度学习模型则精于时序分析，但可能忽略因子间的复杂交互。因此，我们的集成框架旨在结合两者的长处，通过融合它们的预测信号，生成一个更全面、更鲁棒的最终决策。

4.2 LightGBM

LightGBM 是一款高效的梯度提升决策树（GDBT）框架，是处理表格化数据的经典模型之一。它以训练速度快、内存占用低和预测精度高而著称，非常适合处理大规模的因子数据。在我们的框架中，LightGBM 主要负责深度挖掘因子在截面上的非线性关系。它能有效识别在特定市场环境下，哪些因子组合对股票的短期收益最具预测力。为了让模型能够动态适应市场风格切换，我们采用滚动训练的方式，初始训练集为 2016-2020 年，验证集为 2021 年，滚动间隔为 1 年。为避免过拟合，模型超参采用 QLIB LightGBM 模型的默认超参，不做任何调整。

4.3 pegformer

为了有效捕捉金融时间序列中复杂的动态依赖关系，我们设计了 pegformer 的新型深度学习架构。该模型的核心结构为 Patch Embedding + GRU + Transformer。

4.3.1 pegformer 模型结构

pegformer 模型结构如上图所示，核心框架主要由三部分组成： 1. Patch Embedding：传统的时序模型通常逐个时间步（例如，逐分钟）处理数据，这在处理高频长序列时计算成本极高。借鉴计算机视觉领域的 Vision Transformer（ViT）思想，我们将输入的长时序数据切分为若干个连续且不重叠的“片段（Patches）”。每个片段（例如，10 分钟的数据）通过一个共享的嵌入层被映射成一个高维向量。此举不仅大幅缩短了输入序列的长度，降低了后续模块的计算复杂度，还能让模型在初始阶段就捕捉到如“10 分钟内 V 型反转”之类的局部形态特征。 2. 第二层引入了 Transformer 的编码器模块。其核心的自注意力机制（Self-Attention）能够评估序列中所有片段之间的相互重要性，无论它们相距多远。这使得 pegformer 能够捕捉到全局范围内的长程依赖关系。例如，模型可以发现今天开盘第一个小时的某个模式，与下午收盘前的走势存在着关键的、非线性的关联。这是传统 RNN 难以企及的。 3. GRU 通过其循环结构，能够有效捕捉数据片段之间的有序演化关系，从而将时间上的前后依赖信息隐式地编码到其输出中。这种对时序性的聚焦，与 Transformer 的全局视角形成了完美的互补。 pegformer 专注于从股票的历史序列中提取深层的时间模式，包括传统模型难以捕捉的局部形态和全局长程依赖。

4.3.2 pegformer 模型设置

模型的输入数据结构为三维格式 (b, t, f)，其中 b 是批处理大小，t 是时间序列长度，我们设定为 240（即每个预测点都基于过去 240 分钟的信息），f 是特征数量，即筛选后的 20 个因子。在正式训练之前，我们首先采用小样本对模型超参进行快速优化，优化框架使用 optuna, 优化参数包括： patch 长度，patch 滚动间隔，transformer 层数，特征长度，多头数目等。

4.3.3 增量学习

与截面模型相比，时序深度学习模型对计算资源的需求更高。因此，为了平衡预测效果与训练效率，我们采用了一种基于增量学习的滚动更新策略。增量学习的核心是让模型能从新数据中持续学习，而非完全重头训练，从而在动态变化的环境中保持知识的连贯性。具体来说，我们首先在初始训练集上训练一个耗时较长的基础模型。之后，每年使用新增的全年数据对模型进行一次全量微调，生成用于未来预测的新模型。在微调技术上，我们选择全量微调（更新所有参数），因为经过测试对比，其效果优于只更新部分参数的局部微调。这主要归功于每次滚动训练时充足的年度样本量，足以确保全量参数能够收敛到新的最优状态。为防止模型在微调时出现灾难性遗忘，我们将学习率设置为初始学习率的十分之一，以保证新旧知识的平稳融合。

五、结果

5.1 因子分析

我们将 LightGBM 与 pegformer 的预测结果进行等权相加，以得到最终的综合预测信号。该信号包含了每分钟对未来一小时收益的预测，但如此高频率的交易在实操中难以实现。需要注意的一点是，如我们在第二章的分析中所指出的，最优的交易模式应为“14:45 买入，次日 10:46 卖出”。考虑到实际交易中，模型计算与下单执行均需要时间，为了增加操作的容错空间，我们最终采用 14:40 时刻生成的预测信号来指导当日的交易，确保交易的可执行性。最终合成的因子在样本外（2022-2025.7）IC 均值为 0.087，IR 为 9.136。

5.2 策略回测

通过 14 点 40 预测得到的信号，我们构建隔夜交易策略，策略具体设置为：

策略的最终回测净值曲线如下图所示。从图中可以观察到，策略整体表现非常突出，夏普达到了 3.5，实现了持续稳健的收益增长。尤其值得注意的是，在市场环境迥异的 2022 年和 2024 年，该策略均取得了显著的超额收益。

鉴于本策略的日度调仓模式，其年化换手率高达 250 倍，这表明策略的最终表现对交易成本高度敏感。为了评估其在更严苛交易环境下的稳健性，我们进行了一次压力测试，将交易手续费标准由双边千分之二上调至千分之三。即便如此，策略的年化收益率仍能达到 23.84%，夏普比率为 1.42。将手续费上调至千四，策略依然能跑赢基准，这表明该策略其盈利能力足以承受较高的交易摩擦。

六、结论

本文通过对 A 股市场日内微观结构的分析，我们成功构建了一个基于分钟因子模型的隔夜交易策略。策略采用集成学习，融合了 LightGBM 在截面数据上的优势和我们自研的 pegformer 模型在时间序列上的强大捕捉能力。在 2022 年至 2025 年 7 月的样本外测试中，该策略表现出卓越的盈利能力和稳健性。预测因子 IC 均值达到 0.087，信息比率高达 9.136。在千 2 的交易成本假设下，策略能实现超过 64.15%的年化超额收益和 3.53 的夏普比率，即使在较高的交易成本压力测试下，依然能取得显著的超额收益。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）