2025年金融工程行业分析:“逐鹿”Alpha专题报告,分钟因子模型

一、简介

在先前的 Factor Zoo 与 Model Zoo 研究框架中,我们分析了将分钟级数据降频至日线级别进行 Alpha 因子 挖掘,并在此基础上对比了各类机器学习模型的表现。本文将在此基础上进行深化:我们将直接在分钟频率上 构建预测因子,并结合股票的日内交易模式与微观结构特征,利用机器学习算法训练端到端的分钟频预测模型。 通过对 A 股市场日内价格进行分析,其中我们发现“尾盘买入-隔日开盘卖出”的隔夜策略存在显著且持续 的超额收益。为精确捕捉此效应,我们设计了一个分钟频率的机器学习交易模型。 在特征工程阶段,我们整合了 Factor Zoo 分钟频因子与 Alpha158 因子,构成了一个高维的初始特征集。随 后,我们利用树模型的特征重要性对其进行评估筛选,提取最具预测力的核心因子。 在模型架构上,我们采用了一种集成策略。融合了两种互补的模型:一是经典的 LightGBM,我们通过滚 动训练的方式使其动态适应市场变化;二是一个创新的深度学习模型 pegformer,其采用“Patch Embedding + GRU + Transformer”的结构,旨在高效捕捉时间序列的局部与全局依赖关系,并通过增量学习提高训练效率。最终, 我们将两个模型的预测信号进行集成,生成最终的交易决策。 结果表明,在中证 1000 指数成分股为交易标的的测试中,该分钟频隔夜模型取得了显著且稳健的 Alpha 收 益。

二、日内股价形态特征

在构建分钟频因子模型之前,我们必须解决一个核心的优化问题:如何在现实的交易约束下,确定最优的 预测周期与持仓频率。一方面,过于高频的预测与交易虽能捕捉市场的瞬时机会,但由此产生的高昂交易成本 极有可能吞噬策略的 Alpha 收益。另一方面,若持仓周期过长,源自高频数据的短期预测信号则会因快速衰减 而失效,导致模型难以发挥其信息优势。为找到最佳平衡点,我们首先对股价的日内形态进行深入的统计分析, 旨在识别出最具预测价值和交易性价比的时间窗口。 以 A 股市场最具代表性的沪深 300 指数为研究对象,我们选取了其 2016 年至 2022 年间的全部成分股,并 基于分钟频价格数据进行分析。为实现标准化比较,我们将各股票当日的分钟价格均以其开盘价进行归一化处 理。

为了有效提升整体收益,我们必须在择时的基础上叠加选股因子。为此,我们构建一个基于机器学习的 60 分钟频率预测模型。通过个股选择来增强策略的收益,使其具备在真实市场中盈利的能力。

三、因子构建

3.1 Alpha158 因子

Alpha158 与 Alpha360 是 Qlib 中默认的两套因子计算方法: Alpha360 采用枚举法的构建方法,它基于六个基础特征——开盘价、最高价、最低价、收盘价、 成交均价及成交量。对这六个特征进行归一化处理,并分别回溯过去 60 个交易日的数据,从而生 成最终的因子列表。 Alpha158 借鉴了一系列经典的量价因子构建思想,其结构设计更加复杂。该因子集通 过引入一个时间跨度参数 d(短期取值[1-5],中长期取值[5, 10, 20, 30, 60]),从动量、波动率、流 动性等多个维度,深度刻画了股价的短中长期动态特征。

我们此前的研究结果表明,Alpha158 作为机器学习模型的特征输入,其预测效果优于 Alpha360。因此,为 了追求更优的模型性能,我们在此次研究中继续采用 Alpha158 作为基础因子构造方式。

3.2 FactorZoo 因子

在我们的 Factor Zoo 系列研究中,我们曾从振幅、标准差、高阶矩、成交占比、流动性、动量、量价相关 性、极值位置等多个维度构建了数千个因子。在对每类因子的日内规律进行深入分析后,我们最终筛选出了一 批预测效果好且相关性低的有效因子。 需要注意的是,原始 Factor Zoo 在构建的最后一步是将因子降频为日频数据,其筛选标准也着眼于对 5 日 收益率的预测效果。但得益于我们底层架构的灵活性,绝大多数因子(部分统计类因子除外)只需移除其最后 的降频步骤,便可以还原为它们最原始的分钟频序列,从而直接应用于我们的分钟频模型中。

最终筛选保留的因子为:Max($high, 240) / Min($low, 240)-1、Mad($high, 240) / $close、UpStd($close / Ref($close, 4)-1, 240)、Kurt($close / Ref($close, 4)-1, 240)、Corr(Ref($high, 1), $volume, 237)、Peak($close, 240)、 Min($close/Ref($close,7)-1,240)。

3.3 因子筛选

由于 Alpha158 因子数量较多,若将其与 Factor Zoo 因子全部作为模型输入,将导致过高的内存占用和缓慢 的训练速度,这一计算效率问题在训练时序深度学习模型时尤为严峻。为此,我们首先进行因子筛选。 我们采用基于树模型的特征重要性来进行筛选。具体而言,我们在训练集上构建完整的 Alpha158 与 Factor Zoo 分钟频因子集,然后使用 LightGBM 模型进行训练,预测目标为未来 60 分钟的收益率。根据模型输出的特 征重要性排序,我们筛选出排名前 20 的因子作为下一阶段模型的最终输入。 下表展示了经过特征重要性筛选后的最终因子排名。从表中可以清晰地看出,Factor Zoo 系列因子占据了重 要性排名的前列,其表现整体上优于 Alpha158 中的因子。一个非常有趣的现象是,尽管我们最初构建 Factor Zoo 因子库的目标是预测周线级别的收益,但这些因子在剔出降频算子后,在分钟频率的模型中依然展现出了强大 的预测力,这充分说明了它们在不同时间尺度上的普适性和有效性。

四、模型

为了充分利用数据特性,在模型架构上,我们采用了一种集成策略。融合了两种互补的模型:一是经典的 LightGBM,通过滚动训练的方式使其动态适应市场变化;二是一个创新的深度学习模型 pegformer,其采用“Patch Embedding + GRU + Transformer”的结构,旨在高效捕捉时间序列的局部与全局依赖关系,并通过增量学习提 高训练效率。最终,我们将两个模型的预测信号进行集成,生成最终的交易决策。 对于模型的训练数据,我们采用上文筛选出的 20 个分钟频率因子作为输入特征,预测目标设定为未来 60 分钟的收益率。我们的数据集划分如下:初始训练集覆盖 2016 年至 2020 年,验证集为 2021 年全年。在初始训 练之后,模型将通过滚动训练或在线学习的机制持续更新,以生成动态的预测结果。 至于股票池的选择,为了平衡波动性和流动性,我们以中证 1000 指数的成分股作为本次研究的标的。

4.1 整体框架:集成学习

金融市场数据同时具备两种显著特性: 截面特征:在同一时刻,不同股票的因子表现存在差异,这些因子间的非线性关系和交互作用是预测未来 收益的关键。 时序特征:单一股票的历史数据序列中,蕴含着动量、反转、波动率聚集等重要的动态模式。 传统的机器学习模型(如树模型)擅长处理截面特征,但难以捕捉长程的时间依赖性;而像 RNN,Transformer 等深度学习模型则精于时序分析,但可能忽略因子间的复杂交互。因此,我们的集成框架旨在结合两者的长处, 通过融合它们的预测信号,生成一个更全面、更鲁棒的最终决策。

4.2 LightGBM

LightGBM 是一款高效的梯度提升决策树(GDBT)框架,是处理表格化数据的经典模型之一。它以训练速 度快、内存占用低和预测精度高而著称,非常适合处理大规模的因子数据。在我们的框架中,LightGBM 主要 负责深度挖掘因子在截面上的非线性关系。它能有效识别在特定市场环境下,哪些因子组合对股票的短期收益 最具预测力。 为了让模型能够动态适应市场风格切换,我们采用滚动训练的方式,初始训练集为 2016-2020 年,验证集 为 2021 年,滚动间隔为 1 年。为避免过拟合,模型超参采用 QLIB LightGBM 模型的默认超参,不做任何调整。

4.3 pegformer

为了有效捕捉金融时间序列中复杂的动态依赖关系,我们设计了 pegformer 的新型深度学习架构。该模型 的核心结构为 Patch Embedding + GRU + Transformer。

4.3.1 pegformer 模型结构

pegformer 模型结构如上图所示,核心框架主要由三部分组成: 1. Patch Embedding: 传统的时序模型通常逐个时间步(例如,逐分钟)处理数据,这在处理高频长 序列时计算成本极高。借鉴计算机视觉领域的 Vision Transformer(ViT)思想,我们将输入的长时 序数据切分为若干个连续且不重叠的“片段(Patches)”。每个片段(例如,10 分钟的数据)通过 一个共享的嵌入层被映射成一个高维向量。此举不仅大幅缩短了输入序列的长度,降低了后续模块 的计算复杂度,还能让模型在初始阶段就捕捉到如“10 分钟内 V 型反转”之类的局部形态特征。 2. 第二层引入了 Transformer 的编码器模块。其核心的自注意力机制(Self-Attention)能够评估序列 中所有片段之间的相互重要性,无论它们相距多远。这使得 pegformer 能够捕捉到全局范围内的长 程依赖关系。例如,模型可以发现今天开盘第一个小时的某个模式,与下午收盘前的走势存在着关 键的、非线性的关联。这是传统 RNN 难以企及的。 3. GRU 通过其循环结构,能够有效捕捉数据片段之间的有序演化关系,从而将时间上的前后依赖信 息隐式地编码到其输出中。这种对时序性的聚焦,与 Transformer 的全局视角形成了完美的互补。 pegformer 专注于从股票的历史序列中提取深层的时间模式,包括传统模型难以捕捉的局部形态和全局长程 依赖。

4.3.2 pegformer 模型设置

模型的输入数据结构为三维格式 (b, t, f),其中 b 是批处理大小,t 是时间序列长度,我们设定为 240(即 每个预测点都基于过去 240 分钟的信息),f 是特征数量,即筛选后的 20 个因子。 在正式训练之前,我们首先采用小样本对模型超参进行快速优化,优化框架使用 optuna, 优化参数包括: patch 长度,patch 滚动间隔,transformer 层数,特征长度,多头数目等。

4.3.3 增量学习

与截面模型相比,时序深度学习模型对计算资源的需求更高。因此,为了平衡预测效果与训练效率,我们 采用了一种基于增量学习的滚动更新策略。增量学习的核心是让模型能从新数据中持续学习,而非完全重头训 练,从而在动态变化的环境中保持知识的连贯性。 具体来说,我们首先在初始训练集上训练一个耗时较长的基础模型。之后,每年使用新增的全年数据对模 型进行一次全量微调,生成用于未来预测的新模型。 在微调技术上,我们选择全量微调(更新所有参数),因为经过测试对比,其效果优于只更新部分参数的 局部微调。这主要归功于每次滚动训练时充足的年度样本量,足以确保全量参数能够收敛到新的最优状态。为 防止模型在微调时出现灾难性遗忘,我们将学习率设置为初始学习率的十分之一,以保证新旧知识的平稳融合。

五、结果

5.1 因子分析

我们将 LightGBM 与 pegformer 的预测结果进行等权相加,以得到最终的综合预测信号。该信号包含了每分 钟对未来一小时收益的预测,但如此高频率的交易在实操中难以实现。 需要注意的一点是,如我们在第二章的分析中所指出的,最优的交易模式应为“14:45 买入,次日 10:46 卖 出”。考虑到实际交易中,模型计算与下单执行均需要时间,为了增加操作的容错空间,我们最终采用 14:40 时刻生成的预测信号来指导当日的交易,确保交易的可执行性。 最终合成的因子在样本外(2022-2025.7)IC 均值为 0.087,IR 为 9.136。

5.2 策略回测

通过 14 点 40 预测得到的信号,我们构建隔夜交易策略,策略具体设置为:

策略的最终回测净值曲线如下图所示。从图中可以观察到,策略整体表现非常突出,夏普达到了 3.5,实现 了持续稳健的收益增长。尤其值得注意的是,在市场环境迥异的 2022 年和 2024 年,该策略均取得了显著的超 额收益。

鉴于本策略的日度调仓模式,其年化换手率高达 250 倍,这表明策略的最终表现对交易成本高度敏感。为 了评估其在更严苛交易环境下的稳健性,我们进行了一次压力测试,将交易手续费标准由双边千分之二上调至 千分之三。即便如此,策略的年化收益率仍能达到 23.84%,夏普比率为 1.42。将手续费上调至千四,策略依然 能跑赢基准,这表明该策略其盈利能力足以承受较高的交易摩擦。

六、结论

本文通过对 A 股市场日内微观结构的分析,我们成功构建了一个基于分钟因子模型的隔夜交易策略。策略 采用集成学习,融合了 LightGBM 在截面数据上的优势和我们自研的 pegformer 模型在时间序列上的强大捕捉能 力。在 2022 年至 2025 年 7 月的样本外测试中,该策略表现出卓越的盈利能力和稳健性。预测因子 IC 均值达到 0.087,信息比率高达 9.136。在千 2 的交易成本假设下,策略能实现超过 64.15%的年化超额收益和 3.53 的夏普 比率,即使在较高的交易成本压力测试下,依然能取得显著的超额收益。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告