2024年量价时序特征挖掘模型在深度学习因子中的应用

西南证券2024/07/12
举报

1 深度学习选股模型初探

深度学习模型是一种基于多层神经元的无监督算法，它被广泛应用于图像识别、自然语言处理与到数据与信号的分析领域。而基于神经网络的深度学习模型在量化投资领域发挥着越来越重要的作用。深度学习的主要神经网络模型包括：卷积神经网络（CNN）、递归神经网络（RNN）、长短时记忆网络（LSTM）、门循环单元网络（GRU）等等。通过利用神经网络的强大学习能力和特征提取能力，可以更准确地分析市场数据，并制定有效的交易策略。在量化选股领域中，深度学习模型能够依靠自身独特的结构，根据量价数据特征或者选股因子，学习到特征内部之间的关系，更好的助力深度学习选股因子构建或常规选股因子合成，从而形成更加有效的量化策略。鉴于个股数据中往往包含时序性质，因此本文主要内容为基于常规股票量价时序数据作为模型输入特征，利用克服梯度爆炸或梯度消失的改进型循环神经网络长短时记忆网络（LSTM）以及门控循环单元（GRU）深度学习模型，构建深度学习选股模型。同时本文提出了两种选股特征工程方式：基于 AE 自编码模型的特征降维模型、基于 GAN 生成式对抗网络特征生成模型，并探究该两种特征工程在深度学习选股模型中的应用及效果。

1.1 深度学习模型介绍

LSTM 模型

长短时记忆网络（Long Short-Term Memory，LSTM）是一种改进型的循环神经网络，专门设计用来解决传统 RNN 在处理长序列数据时出现的梯度消失和梯度爆炸问题。LSTM 通过引入三个门控结构（输入门、遗忘门和输出门），以及一个细胞状态来实现对序列中长期依赖关系的捕捉。

GRU 模型

门控循环单元（Gated Recurrent Unit，GRU）是另一种常用于处理序列数据的改进型循环神经网络结构，类似于 LSTM，但简化了 LSTM 的结构，主要组成部分包括了控制前一个隐藏状态如何影响当前隐藏状态更新的重置门（Reset Gate）、以及控制如何将当前输入与前一个隐藏状态结合从而更新当前隐藏状态的更新门（Update Gate）。

1.2 深度学习选股模型构建

深度神经网络模型在预测股票收益方面也有着广泛应用，基于前述深度学习模型中的 GRU 模型，本文构建了 GRU 层+MLP 的神经网络股票收益预测模型，其中模型细节如下：量价特征：包括收盘价、开盘价、成交量、换手率等在内的 18 个量价特征。回测时间及调仓频率：2018 年 1 月 1 日至今；周频（每 5 个交易日）。训练与预测方式：（1）训练数据及输入特征设定：所有个股过去 400 天内的 18 个量价特征，每 5 个交易日做一次特征采样。特征采样形状为 40*18，即利用过去 40 天的量价特征来预测未来 5 个交易日（T收盘+T+5 收盘）的累计绝对收益。（2）训练集验证集比例：80%：20%。（3）数据处理：每次采样的 40 天内，每个特征在时序上去极值+标准化、每个特征在个股层面上截面标准化。（4）模型训练方式：半年滚动训练，即每半年做一次模型训练，并用以未来半年收益的预测，训练时间点为每年的 6 月 30 日及 12 月 31 日。（5）股票筛选方式：选取截面所有股票，剔除 ST及上市不足半年的股票。（6）训练样本筛选方式：剔除 label 为空值的样本。（7）超参数：batch_size 为截面股票数量、优化器 Adam、学习速率 1e-4、损失函数 IC、早停轮数 10、最大训练轮数 50。

本文通过构建两层 GRU 层，即 GRU(128，128)，并在后面加入 MLP(256，64，64)，并将模型最后输出的预测收益 pRet_5 作为选股因子。对因子的测试均建立在对因子已做行业市值中性化+标准化处理，后文将不再赘述。

在没有特别进行参数调优的情况下，自 2018 年 1 月 1 日至 2024 年 5 月 29 日的回测区间内，GRU 模型选股因子周度（5 个交易日）RankIC 为 3.14%，RankIC 胜率为 62.19%，多头组合（前 10%）年化收益率 11.40%，最大回撤率 42.78%。

此外，GRU 深度学习选股因子多空组合年化收益率 24.32%，多空最大回撤率 27.89%，多头组合（组 1）年化收益率 8.66%，最大回撤率 42.73%；空头组合（组 5）年化收益率-13.18%，最大回撤率 69.74%。

分年度回测来看，GRU 深度学习模型选股因子多头组合，近 7 年来平均年化收益率为 6.94%，其中 2024 今年以来（2024-01-01 至 2024-05-29）年化收益率为-40.21%，最大回撤率 34.81%，模型在今年以来的表现并不理想。

可见在常规量价特征输入的情况下，GRU 模型构建的深度学习因子已经具备一定的选股能力，但是在没有任何特征处理的情况下，GRU 模型在输入上述量价特征得到的选股因子在 IC 端以及多头端的表现差强人意，显然具备一定的优化空间。传统的深度学习模型面临的两大困境分别为模型计算效率较低以及模型因子表现是否具备进一步提升的空间。因此，本文将基于提升模型计算效率及改善模型因子效果两种不同的角度对特征分别进行处理。

2 基于 AutoEncoder 自编码模型的特征降维

2.1 自编码 AE 模型介绍

自编码器（AutoEncoder）是一种无监督学习的神经网络模型，用于学习数据的压缩表示。它由两部分组成：编码器（Encoder）和解码器（Decoder）。自编码器的训练过程旨在最小化重构误差，即尽量使解码器输出的重构数据与输入数据保持一致。通过这种方式，自编码器可以学习到数据的高级特征和结构，实现数据的降维和特征提取。训练目的：最小化输入 x 和输出 x 之间的差异（MSE），其中压缩和解压缩函数通过数据驱动方式学习。编码过程可以表示为一个 = ()函数，解码过程可以用另一个 = ()函数表示。

2.2 基于 AE 模型的选股特征降维

特征维数的降低自然会提升模型计算效率。本文采用自编码模型 AE 的目的在于压缩特征，从而减少特征维度，增加训练速度，减少算力资源消耗，同时更要保证压缩后的特征和压缩前信息损失尽可能小。本文初始特征为 40*18 的量价时序特征，为了方便进行降维，特将二维特征展平为一维特征，同时采用 MLP 的编码器将特征进行降维至(encoding_dim，1) 的一维特征。

2.3 基于 AE 降维的深度学习选股因子测试

在初始特征(40，18)的前提下，将特征展平为一维向量(40*18，1)，在给定降维目标维数(_ < 40 ∗ 18)下对特征进行压缩，压缩后的特征形状为( _, 1)。在初始维度为 720（40*18）的情况下，为了探究降维目标维数对选股因子效果的影响，本文分别假设目标降维维数_分别为 120、240、360、480，并在不同目标维数参数下，将降维后的特征用以训练 GRU 模型得到对应选股因子，后续将该模型命名为 AE_GRU 模型。优点：降维后保持与初始特征均方误差极低的情况下，其一维形状的特征可以提升深度学习模型训练速度，节约计算资源；缺点：虽然降维后的特征与初始特征均方误差(MSE)极低，但时间步的忽略会压缩原有特征时间步，损失较多内在时序信息。降维效果表现：从 IC表现来看，降维至 240特征的 AE_GRU模型及 360特征的 AE_GRU 模型表现相对较好，IC 分别为 1.34%及 1.29%.从多头表现来看，降维至 120\240\480 特征的 AE_GRU 模型多头组合年化收益率小于 0，而降维至 360 特征的 AE_GRU 多头年化收益率最高，为 4.82%。综上所述，降维至 360 特征(_ = 360)时，选股因子效果表现相对较好。

经过上述因子测试可看出，深度学习模型的选股效果并不会随着降维目标维数的提升而上市，_为 480 的 AE_GRU 模型并没有较好的 IC 表现及多头表现，同时其更不具备较好的因子单调性（分组效果）。进一步来看上述不同 AE_GRU 模型的多空组合收益。AE_GRU360 多空组合实现正收益，为 8.78%，而 AE_GRU120/240/480 多空组合收益均小于 0。整体来看，AE_GRU360 模型综合表现相对优秀。

进一步观察上述模型多头组合在每一年的表现，上述不同维度(120\240\360\480)的 AE_GRU模型多头组合自 2018年至 2024年近 7年多头组合平均年化收益率-3.98%、-2.83%、 2.48%、-3.71%。综合来看，AE_GRU360 模型相对表现较好，后文将 AE_GRU360 模型命名为 AE_GRU 模型，并用以做相应的指数增强策略。

3 基于生成对抗网络 GAN 的选股特征生成

3.1 GAN 模型简介

GAN 生成式对抗网络（Generative Adversarial Networks, GANs），是由 Ian Goodfellow 等人于 2014 年提出的一种深度学习模型。该模型主要包括生成器（Generator）和判别器（Discriminator）两个部分。生成器的目标是生成看起来真实的数据，而判别器的目标是区分真实数据和生成器生成的数据。两者在训练过程中相互竞争，从而使生成器生成的数据越来越逼真。

3.2 GAN 特征生成模型构建

GAN 模型训练过程的本质可称为将无序的噪声通过非线性变换，变成服从真实特征分布的特征，在某种程度上可以称之为锚定真实特征的降噪过程。而本文前述的 18 个量价特征本身显然不具备选股能力，对于深度学习模型的构建中，特征内部可能存在一定的噪声。因此本文提出问题：GAN 模型生成的特征能否让深度学习模型更稳定，经过 GAN 模型处理后的特征能否更容易为深度学习模型所接受？ LSTM 生成器+CNN 判别器：为了适配本文的量价特征模式，希望处理后的特征仍然能保留时序的性质，因此本文采取可以保留输入特征时序性的 LSTM 模型做为生成器（G）。而量价时序特征本质上是二维数据特征“图片”，因此本文则采取常用于二维图像处理的 CNN 模型做为识别特征的判别器（D）。卷积神经网络(CNN)：一种专门用于处理网格化数据（如图像、视频）的深度学习模型，核心思想是利用卷积层和池化层来有效地提取输入数据的特征。CNN 能够逐渐学习到输入数据的抽象特征，从而实现对复杂模式的学习和识别。本文将 CNN 模型用以匹配二维构造的量价时序特征，并学习量价时序二维特征“图片”的内在特性。

对于训练完成的 GAN 模型，本文利用其中的生成器部分进行特征生成，具体生成器生成特征的过程为输入原始量价时序特征，Input_Shape=(40,18)，输出经 LSTM 处理后的量价时序特征，Input_Shape=(40,18)。

3.3 基于 GAN_GRU 的深度学习选股因子

GAN_GRU 模型：本文在原有（40，18）特征的基础上，利用生成器生成新的（40， 18）的特征，并用新特征训练 GRU 深度学习模型。超参数设置与单一 GRU 模型相同。具体在模型搭建的训练过程中，首先训练 LSTM 生成器（G）+CNN 判别器（D）的 GAN 模型，最终可以得到 GAN 模型中的生成器；然后将已有的基本特征代入生成器中，由生成器生成新的特征，最后将生成器生成的特征代入 GRU 模型进行训练。最后落地到实际的收益预测中，则同样将基本量价特征输入到生成器后，再输入训练好的 GRU 模型做预测。后续本文将该因子命名为 GAN_GRU 因子。回测时间为 2018-01-01 至今，周频（5 交易日）调仓，每半年重新训练一次模型。经过回测，全 A 范围内 RankIC 为 7.03%，RankIC 胜率 81.37%，多头组合（前 10%）年化收益率 18.00%，最大回撤率 41.75%。

GAN_GRU 因子分组测试来看，因子多头组合（组 1）年化收益率 17.56%，最大回撤率 41.55%，空头组合（组 5）年化收益率为-20.48%，最大回撤率 82.87%；此外，多空组合年化收益率 45.65%，最大回撤率 11.31%。

分年度回测来看，自 2018 年至 2024 年，GAN_GRU 因子多头组合近 7 年来平均年化收益率 16.00%；2024 今年以来年化收益率为-19.74%，相较于普通 GRU 模型（7 年平均年化收益率 6.94%，2024 多头年化收益率-40.21%）表现有所提升。

综上所述，无论是 IC、因子多头表现，还是因子多空收益表现，GAN_GRU 因子的表现相较于普通 GRU 因子的表现均有不同程度的提升。基于普通量价时序特征的 GRU 模型虽然能够学习出具备一定效果的选股因子，但该特征经过 GAN 模型处理后，得到的新特征在 GRU 此类深度学习模型中能容易学习到量价时序信息与未来收益之间的关系。可以说对于原有量价时序特征，GAN 模型可以达到一定程度的“降噪”作用。

4 基于多角度特征工程的深度学习指数增强策略

基于前述特征工程方式（AE 特征降维、GAN 特征生成）及其在 GRU 深度学习模型中的应用，本文基于不同模型得到的选股因子分别构建了沪深 300指数增强策略以及中证 1000 指数增强策略。

具体指数增强策略描述为根据深度学习选股因子值从大到小排序，对指数成分股进行打分。给定个股权重偏离阈值 bias：当因子排名前 1/5，个股权重增加 1 倍 bias；排名 1/5 至 2/5 的个股权重增加 0.5 倍 bias；排名 2/5 至 3/5 个股权重不变；排名 3/5 至 4/5 个股权重减少 0.5 倍 bias；排名后 1/5 个股权重减少 1 倍 bias。

4.1 沪深 300 指数增强策略

本节将基于 GRU 因子、AE_GRU 因子以及 GAN_GRU 因子分别构建沪深 300 指数增强策略。首先，上述三个因子在沪深 300 成分股范围内的 RankIC 分别为 0.96%、1.26%、 6.13%，多头年化收益率 6.15%、4.36%以及 22.41%。可见 AE_GRU 因子 IC 表现优于 GRU 因子，多头表现相对较差。GAN_GRU 模型在沪深 300 成分股内 IC 及多头表现更加稳定。

GRU 模型

给定个股权重偏离阈值 bias=3%，全区间来看，GRU 模型指数增强策略相对沪深 300 指数年化超额收益率 2.04%。此外，指数增强净值分别于近一个月、近三个月、近一年及近三年跑赢沪深 300 指数，年化超额收益率为 0.75%、1.64%、1.17%、4.83%（不满一年按绝对收益率计算、超过一年按年化收益率计算）。

AE_GRU 模型

给定个股权重偏离阈值 bias=3%，区间来看，降维至 360 特征的 AE_GRU（下称 AE_GRU 因子）因子构造的沪深 300 指数增强，相对指数年化超额收益率 2.94%，整体表现优于普通 GRU 指数增强策略。指数增强分别于近三月、近一年、近三年分别跑赢沪深 300 指数，超额收益率分别为 0.30%、4.19%以及 3.39%（不满一年按绝对收益率计算、超过一年按年化收益率计算）。

GAN_GRU 模型

给定个股权重偏离阈值 bias=3%。全区间来看，GAN_GRU 因子下的指数增强策略相对沪深 300 指数年化超额收益率为 15.02%。且指数增强策略净值分别于近一月，近三个月、近一年、近三年跑赢沪深 300 指数，超额收益率分别为 1.07%、4.75%、9.07%、21.13%（未满一年按绝对收益率计算，超过一年按年化收益率计算）。

4.2 中证 1000 指数增强策略

本节将基于 GRU 因子、AE_GRU 因子以及 GAN_GRU 因子分别构建中证 1000 指数增强策略。首先，上述三个因子在沪深 300 成分股范围内的 RankIC 分别为 2.69%、1.08%、 5.88%，多头年化收益率 10.04%、6.67%以及 17.65.41%，可见，GRU 因子相较于 AE_GRU 模型表现更优秀。GAN_GRU 模型在中证 1000 成分股内 IC 及多头表现略差于其在沪深 300 成分股内的表现。

GRU 模型

给定个股权重偏离阈值 bias=3%。全区间来看，GRU 中证 1000 指数增强相对指数年化超额收益率 6.78%。此外指数增强净值分别于近三个月、近一年、近三年跑赢中证 1000 指数，超额收益率分别为 0.44%、2.45%、5.46%；近一个月跑输中证 1000 指数，超额收益率为-0.08%（不满一年按绝对收益率计算，超过一年按年化收益率计算）。

AE_GRU 模型

给定个股权重偏离阈值 bias=3%，全区间来看，降维至 360 特征的 AE_GRU 指数增强相对中证 1000 指数年化超额收益率 4.18%。指数增强策略分别于近一月、近一年、近三年跑赢中证 1000 指数，超额收益率分别为 0.62%、5.09%、3.59%；于近三个月跑输中证 1000 指数，超额收益率为-0.97%（不满一年按绝对收益率计算，超过一年按年化收益率计算）。

GAN_GRU 模型

给定个股权重偏离阈值 bias=3%，全区间来看，GAN_GRU 因子指数增强策略相对中证 1000 指数年化超额收益率 17.54%，且指数增强净值分别于近一月、近三月、近一年、近三年跑赢沪深 300 指数，超额收益率分别为 0.72%、5.09%、14.35%、21.72%（不满一年按绝对收益率计算，超过一年按年化收益率计算）。

5 总结

本文基于股票的量价时序特征（收盘价、开盘价等）构建了 GRU 深度学习模型，得到的 GRU 选股因子具备一定的选股效果，但因子无论是 IC 还是多头的表现均具备较大的提升空间，随后本文基于提升模型计算效率的角度构建了基于自编码 AE 模型特征降维的方法，在与 GRU 模型结合以后，得到的模型虽然在计算效率有明显提升，但选股因子效果表现相较于普通 GRU 模型有所下降。为了进一步提升选股因子效果，让深度学习模型能够学习到量价时序特征中的更多信息，本文构建了生成式对抗网络 GAN 模型作为量价时序特征的处理模型，并将处理后的特征代入 GRU 模型进行训练，得到的 GAN_GRU 因子表现效果相较于 GRU 因子提升明显，全区间范围内 RankIC 为 7.03%，多头组合年化收益率收益率 18.00%，落地到指数增强策略中，沪深 300 指数增强策略年化超额收益率 15.02%，在中证 1000 指数增强年化超额收益率 17.54%。本文主要研究不同的特征处理方式对于深度学习选股因子效果的影响。文中提到的深度学习模型并未做过多参数调优，对量价二维时序特征的形状(40,18)也并未做特殊的检验与优化，因此模型表现具备进一步提升空间，而合适的特征处理方式可以让模型表现更上一层楼。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）