深度学习模型中,传统的时序预测模型(如 ARIMA、LSTM)虽在局部特征捕捉上表现 尚可,但在处理跨周期依赖、市场异质性以及多源信息融合等问题时仍存在显著局限。此外, 传统时序模型在训练过程中仅专注于个股特异性特征学习,绝大部分重心集中在内部驱动因 素的学习,很难考虑到个股之间相互影响,以及宏观中观经济因素的外部影响。 基于“个股特异内部特征+个股关联中观特征+宏观信息”的多维度特征挖掘原则,本报 告的核心方法论围绕三大主线展开: 首先,基于 Transformer 的时序特征编码器对股票价格、交易量等高频序列进行多尺度 特征提取,通过多头注意力机制动态捕捉不同时间窗口下的个股内部状态的演变规律; 其次,利用截面维度下的行业属性、财务指标及市资金流特征构建行业关联图及资金流 向图,并引入图注意力网络(GAT)建模股票间的非线性关联与风险传导路径,从而将传统 投资组合理论中的“分散化”原则转化为可量化的图结构学习问题; 最后,针对宏观因素(如利率、社融等)与传统深度学习模型融合困难的问题,引入物 理信息神经网络(PINN),通过构建带有经济约束的偏微分方程框架,将宏观变量的连续演 化规律嵌入个股因子挖掘模型,实现“自上而下”与“自下而上”的结合。

1.1 TransFormer 模型
Transformer 是一种基于自注意力机制(Self-Attention)的深度学习模型,最初被提出 用于自然语言处理领域,但其在时序数据处理中同样展现出强大的能力。相较于 LSTM(Long Short-Term Memory),GRU(Gated Recurrent Unit)等循环神经网络,Transformer 摒弃 了递归结构,转而通过自注意力机制实现了全序列并行计算,这显著提升了训练速度。
此外,尽管 LSTM 和 GRU 通过门控机制缓解了梯度消失问题,但在超长序列中,这两 个模型仍可能丢失早期信息;而 Transformer 的自注意力机制则直接建模模型中任意位置间 的关联,无需依赖递归路径,因此相较于 LSTM 与 GRU,更擅长捕捉跨周期的时序规律。
Transformer 的核心模块包括多头自注意力层(Multi-Head Attention)和前馈神经网络 (Feed-Forward Network)。其输入序列首先通过嵌入层转换为向量表示,并加入位置编码 (Positional Encoding)以保留时序信息。自注意力机制通过计算序列中每个元素与其他元 素的相关性权重,动态调整信息聚合方式。
1.2 图注意力网络(GAT)模型
图注意力网络(Graph Attention Network, GAT)是一种基于图结构的深度学习模型。 相较于传统的 GCN 网络,GAT引入了动态的注意力学习机制,可以在学习过程中自适应的 调整节点间的影响强度,从而捕捉特征间非显性的相关关系。此外,共享注意力矩阵的设计 及动态的权重分配方式使得 GAT 模型能处理节点与边关系动态变化的图模型,从而更好适 应股票市场中不断变化的个股关系,并实现对新增个股的预测。
1.3 物理信息神经网络(PINN)模型
物理信息神经网络(Physics-Informed Neural Networks, PINNs)通过将物理定律(如 市场均衡方程、波动率模型)嵌入损失函数,增强模型对金融动力学规律的拟合能力,适用 于衍生品定价、风险因子挖掘等场景。
个股量价时序特征是可以我们可以获取到相较高频的个股特征数据,而本文主要采用 Transformer 模型处理该类时序特征,Transformer 模型的自注意力机制使得其能够在不依赖 传统循环神经网络(RNN)结构的情况下,高效捕捉长时序数据中的依赖关系,且具有更强 的并行计算能力。 同时,个股时序特征的时序长短设定同样影响最终因子挖掘的效果,为了兼顾长短不同 周期的时序变化信息,本文提出了多尺度 Transformer(Multi-Scale Transformer)模型。该 模型的构造逻辑在于,通过引入不同的尺度对输入时序数据进行处理,能够在不同时间粒度 下捕捉股市信息的多层次特征。具体而言,我们将原始的时序数据在多个时间窗口下进行划 分,每个时间尺度下的特征都通过独立的 Transformer 模块进行处理,并对编码后的不同时 序周期特征进行融合,以实现模型纳入不同时序周期信息的,捕捉到个股在不同时间段内的 短期和长期趋势。
2.1 多尺度 Transformer 模型设定
模型训练方式等其他模型设定如下: 1) 训练数据:上表内的 14 个股票时序量价特征,所有个股过去 8 年内的时序特征,做 5 天采样,预测标签为未来一个月的累计收益; 2) 训练集验证集比例:80%:20%; 3) 多时序尺度选择:20 天、40 天、80 天 4) 数据处理:时序标准化(各特征除最后一个时间步),截面标准化(均值标准差)。 5) 模型训练及调仓频次:一年更新,月频调仓。 6) 模型超参数:batch=截面个股数,lr=1e-4,损失函数 1-IC。

在多尺度 Transformer 模型构建中,本文主要区分为三个尺度:20 日、40 日以及 80 日, 分别表征短、中、长三个不同跨度的时序信息,并分别使用 transformer 层进行编码处理, 随后对 transformer 层输出的信息以 80 日长度为基准进行线性时间序列上采样,并引入可学 习参数的门控融合层对三个不同时间尺度的信息进行加权求和,最终引入全连接层输出收益 率预测。
2.2 多尺度 Transformer 时序模型回测效果
在本节中,本文主要测试了依托于量价信息构造的时序模型 Transformer 的选股因子效 果。自 2019年 1月至 2025年 2月,全 A 范围内多尺度 Transformer(Multiscale-TransFormer) 因子月均 IC(以 RankIC 表征)为 10.98%,多头组合年化收益率为 32.90%,月均单边换手 率 0.83X,整体来看,仅靠量价时序特征训练出的 Transformer 模型具备一定的选股效果。
从分组角度来看,多头组合(组 1)年化收益率 32.88%,最大回撤 27.59%;空头组合 (组 10)年化收益率-6.31%,最大回撤 69.60%;多空组合(组 1/组 10)年化收益率 41.81%, 最大回撤 17.88%,具备一定单调性。但整体来看,因子多头组合表现并不显著,且除空头 组合外,其余组合分化程度不高,Transformer 模型及量价时序信息在因子挖掘效果层面更 多聚焦于空头,具备进一步提升空间。
从因子分组的相对净值表现来看,相对万得全 A,多尺度 Transformer 因子在 2024 年 1 月底出现了较大的超额回撤,但在 2024 年 9 月底的上涨行情(0924 行情)内并未出现较为 明显的超额回撤。 分年度来看,多头组合自 2019 年至 2025 年 3 月,7 年均跑赢万得全 A 指数,其中 2021 年相对万得全 A 年化超额 35.39%,超额最大回撤 12.95%;2023 全年相对万得全 A 年化超 额收益率 24.86%,超额最大回撤仅 3.90%.此外,因子今年以来超额表现较好,2025 年初 至 3 月 31 日,累计超额收益率 7.56%,超额最大回撤 1.52%。
除了时序数据之外,市场截面结构信息同样对选股模型的表现有着重要影响。在股票市 场中,各个股票之间的相互关系和影响是非常复杂的。传统的机器学习方法往往无法充分捕 捉这些非线性和动态变化的关联性,而图结构则提供了一种天然的方式来表示这些关系。 个股之间的最显著关系首先为行业分类,我们可以将相同行业的个股之间构建边来表征 股票市场中的行业关联关系。由于行业分类较为固定,因此保证了行业关联图结构的长期稳 定。此外,个股之间的动态关系同样不应该忽略,而个股之间的资金流向关系可以在某种程 度上可以反映个股之间的动态关系。 因此,本文从行业产业关联以及资金流向两个角度出发进行个股间相互影响的分析,分 别构建了行业关联图和资金流向图,并用 GAT 模型对该两类图进行编码处理。在处理行业 关联图时,GAT 能够稳定地捕捉行业内部的结构信息。此外,在处理资金流向图时,GAT 则能通过动态调整邻居节点的权重,捕捉短期内快速变化的资金流向关系,使模型在具备稳 定行业内部关系的同时也可以根据资金流向的变化捕捉个股之间相互影响的关系。
3.1 行业关联图与资金流向图的构建
本文根据个股量价及财务数据及其对应的申万一级行业分类信息,为行业关联图及资金 流向图分别构建 7 个特征,其中部分特征用来做节点特征,部分特征用来做节点间边的构建, 此外,为了进一步丰富节点特征,本文构建了行业关联图与资金流向图共有的节点特征。
行业关联图: 本文选取全部 A 股作为节点,选取上述行业关联图特征表中的行业 PE 中位数、ROE 行业分位数、PB 行业偏离度作为节点特征;对于相同申万行业分类的股票构建边。同行业 构建的边长期稳定,但除了考虑同行业之间的个股的边关系以外,本文根据上述行业关联图 特征表中的边权重特征构建除同行业边以外的跨行业关联,旨在捕捉行业间隐性关联(如政 策利好跨行业传导或产业链协同效应),避免单一行业划分对复杂市场联动的信息损失,具 体构建方式如下: 1) 任意截面,提取个股行业关联图边权重特征过去 80 日的时序序列; 2) 分别计算股票 A 和股票 B 分别在不同特征上相关系数,并对不同特征相关系数等权 求和,得到最终两只股票的相关系数; 3) 若股票 A 和股票 B 的特征相关系数大于 corr_threshold,则股票 A 和股票 B 构建边。
资金流向图: 相较于较为稳定的行业关联图,本文构建资金流向图,以捕捉短期切换的个股之间的关 系。同样本文选取全部 A 股作为节点,上述资金流向图中的近 20 日平均成交额、Amihud 非流动性指标等作为节点特征,选取上述资金流向图中的边权重特征过去 80 日的时序序列, 分别计算各个特征的相关系数并进行等权求和,得到两个不同股票的资金流相关性,若相关 性大于 相关性阈值(corr_threshold),则在该两个股票间构建边。
3.2 基于行业关联图与资金流向图的 GAT 模型回测结果
在本节中,本文主要测试了依托于个股之间的行业关联信息及资金关联信息构造的图神 经网络模型 GAT 的选股因子效果。自 2019 年 1 月至 2025 年 2 月,全 A 范围内 GAT 模型 (indcap-GAT)因子月均 IC(以 RankIC 表征)为 8.77%,多头组合年化收益率为 32.77%, 月均单边换手率 0.61X,整体来看,仅靠个股关联信息训练出的 indcap-GAT 模型具备一定 的选股效果,但在因子相关性表现弱于前文提到的多尺度 Transformer 模型,多头组合表现 大致类似,但因子换手有显著的降低。
从分组角度来看,多头组合(组 1)年化收益率 32.77%,最大回撤 33.12%;空头组合 (组 10)年化收益率 0.02%,最大回撤 58.39%;多空组合(组 1/组 10)年化收益率 32.75%, 最大回撤 14.83%,具备一定单调性。但整体来看,因子多头组合表现并不显著,且组 2 表 现长期来看优于组 1,空头组合表现相较 Transformer 模型并不突出。综合来看,indcapGAT 模型相较于 Transformer 模型具备更低的换手。
从因子分组的相对净值表现来看,相对万得全 A,indcap-GAT模型因子在 2024 年 1 月 底出现了较大的超额回撤,但随后回撤快速修复,且在 2024 年 9 月底的上涨行情(0924 行 情)内并未出现较为明显的超额回撤。
分年度来看,多头组合自 2019 年至 2025 年 3 月,7 年均跑赢万得全 A 指数,其中 2021 年相对万得全 A 年化超额 25.56%,超额最大回撤 10.62%;2023 全年相对万得全 A 年化超 额收益率 23.13%,超额最大回撤 10.86%。此外,因子今年以来超额表现较好,2025 年初 至 3 月 31 日,累计超额收益率 5.71%,超额最大回撤 1.18%。

深度学习量化因子挖掘中最终要的问题即是提高模型泛化能力,避免模型过拟合,而模 型根据历史数据训练的方式使得模型可以很好的拟合历史个股数据的规律,在实际预测过程 中若市场状态发生变化,个股表现的内生驱动逻辑发生变化,则模型很难有较好的表现能力。 为了优化此类问题,使得模型在训练的过程中可以接受更多除个股以外的宏观信息,本节将 构建可以刻画宏观状态的方程,并引入 PINN 神经网络,与前述的 Multi-Transformer 以及 indcap-GAT 模型中结合,构建 PINN-MultiTransformer-indcapGAT 模型(PINN-MTICG) 模型。
4.1 宏观状态定义及宏观状态方程构建
本节主要基于宏观状态下货币经济学与动态均衡理论,构建一个可以描述货币及信用状 态演化的偏微分方程体系。在下述宏观状态方程的构建中,本文构建虚拟变量? = ?(?)用以 隐式的表征宏观状态,并从货币状态和利率调节等多个角度刻画该宏观状态,实现有关变量 ? = ?(?)的方程构建。
4.2 PINN 神经网络及选股模型约束
本节中,本文主要以全连接神经网络的方式构建 PINN 神经网络。在上节,中本文构建 了宏观状态方程,基于货币供应、利率调节的角度刻画了宏观状态隐变量,但由于变量?是 隐变量,因此无法获取到真实的 u 来训练 PINN 神经网络,而在 PINN 神经网络中,损失函 数主要由两部分构成:数据驱动损失、物理信息损失。
4.3 PINN 宏观信息约束的时序截面双流模型测试
本节主要测试基于 multi-Transformer与 indcap-GAT构建的时序截面双流模型(MTICG) 与融合了 PINN 宏观信息约束的时序截面双流模型(PINN-MTICG)的因子表现效果。 整体来看,自 2019 年 1 月至 2025 年 3 月,全 A 范围内月频调仓的前提下,MTICG 因 子月平均 IC 为 10.99%,多头组合年化收益 36.04%,月均单边换手率 0.74X。在 IC 方面表 现 相 较 multi-Transformer 模 型 并 未 有 明 显 提 升 , 但 多 头 组 合 方 面 表 现 均 优 于 multi-Transformer 与 indcap-GAT模型。此外,PINN-MTICG 因子月平均 IC 为 11.41%,多 头组合年化收益 37.51%,月均单边换手率 0.83X,在 IC 方面相对于 MTICG 有所提升,多 头组合年化收益率相较于 MTICG 提升 1.47%,但换手率相较于其他模型有所上升。
分组测试方面,MTICG 因子多头组合(组 1)年化收益率 36.04%,空头组合(组 10) 年化收益率-0.02%,多空组合(组 1/组 10)年化收益率 39.62%;PINN-MTICG 因子多头 组合年化收益率(组 1)37.51%,空头组合年化收益率(组 10)-4.88%,多空组合(组 1/ 组 10)年化收益率 44.67%。整体来看,加入宏观信息约束后的 PINN-MTICG 模型在多头 和空头均有贡献,空头提升相对较多。
从多头组合超额表现来看,PINN-MTICG 与-MTICG 在 2024 年 1 月均出现程度较小的 超额回撤,但并未在 2024 年 9 月 24 日后的“0924”行情中出现超额回撤。分年度来看自 2019 年至 2025 年 3 月的 7 年内,除 2020 年与 2021 年以外,PINN-MTICG 模型有 5 年时 间超额表现优于 MTICG 模型。
5.1 沪深 300 指数增强策略
在本节中,本文基于 PINN-MTICG 分别构建了沪深 300 指数增强策略。首先在构建指 数增强策略之前,本文分别测试了前文中的 Multi-Transformer、indcap-GAT,MTICG 以及 PINN-MTICG 模型在沪深 300 指数成分股内的表现。
整体来看,量价时序模型并未在沪深 300 指数成分股中呈现出较好的表现,自 2019 年 1 月至 2025 年 3 月,Multi-Transformer 模型月均 IC 仅有 5.72%,多头组合年化收益率 17.86%,相对沪深 300 年化超额收益率 11.20%。与此同时,基于个股关联信息构建的图模 型却在沪深 300 指数中呈现出较好的选股效果,indcap_GAT模型月均 IC 为 10.25%,年化 收益率 30.94%,年化超额收益率 23.49%,月均单边换手率仅 0.63X,整体表现优于 Multi-Transformer 模型。此外,在两个时序截面双流模型中,MTICG 与 PINN-MTICG 在沪 深 300 指数成分股内月均 IC 分别为 9.21%与 10.24%,相对沪深 300 指数年化超额收益率 分别为 22.23%与 23.78%,整体具备一定的选股效果。 指数增强设定如下:个股权重偏离不超过 1%,100%成分股内选股,交易费率单边千分 之二,回测时间 2019 年 1 月至今,月频调仓,调仓当日以 vwap 价格成交。
整体来看,PINN-MTICG 模型沪深 300 指数增强策略年化超额收益率 13.12%,MTICG 模型沪深 300 指数增强策略年化超额收益率 11.85%。

分区间来看,截至 2025 年 3 月 31 日,PINN-MTICG 模型沪深 300 指数增强近一个月、 三个月、一年、三年超额收益率分别为 0.68%、3.22%、9.83%以及 13.12%(超过一年计算 年化收益率,不足一年计算累计收益率)。
5.2 中证 1000 指数增强策略
在本节中,本文基于 PINN-MTICG 构建了中证 1000 指数增强策略。首先在构建指数增 强策略之前,本文分别测试了前文中的 Multi-Transformer、indcap-GAT,MTICG 以及 PINN-MTICG 模型在中证 1000 指数成分股内的表现。
整体来看,量价时序模型并未在中证 1000 指数成分股中表现较好,自 2019 年 1 月至 2025 年 3 月,Multi-Transformer 模型月均 IC 为 10.59%,多头组合年化收益率 28.05%, 相对中证 1000 指数年化超额收益率 14.26%。与此同时,基于个股关联信息构建的图模型却 在中证 1000 指数中选股效果同样不俗,indcap_GAT 模型月均 IC 为 9.07%,年化收益率 31.32%,年化超额收益率 18.08%,月均单边换手 0.61X。此外,在两个时序截面双流模型 中,MTICG 与 PINN-MTICG 在中证 1000 指数成分股内月均 IC 分别为 10.71%与 11.62%, 相对中证 1000 指数年化超额收益率分别为 21.25%与 22.77%,整体具备一定的选股效果。 指数增强设定如下:个股权重偏离不超过 1%,100%成分股内选股,交易费率单边千分 之二,回测时间 2019 年 1 月至今,月频调仓,调仓当日以 vwap 价格成交。
整体来看,PINN-MTICG 模型中证 1000 指数增强策略年化超额收益率 17.07%,MTICG 模型沪深 300 指数增强策略年化超额收益率 15.23%。
分区间来看,截至 2025 年 3 月 31 日,PINN-MTICG 模型中证 1000 指数增强近一个月、 三个月、一年、三年超额收益率分别为 1.71%、3.02%、23.81%以及 18.68%(超过一年计 算年化收益率,不足一年计算累计收益率)。
本文构建了一类融合时序特征、截面关联及宏观信息约束的深度学习选股框架——PINN 信息约束与时序截面双流网络模型(PINN-MTICG)。通过多尺度 Transformer 模型捕捉个股 量价数据的长期时序依赖,结合图注意力网络(GAT)挖掘行业关联与资金流向的非线性关 系,并引入物理信息神经网络(PINN)嵌入宏观经济方程作为软约束。模型实现了“微观特 征—中观关联—宏观状态”的多层次信息融合。回测结果显示,全 A 范围内,在 2019 年 1 月至 2025 年 2 月,PINN-MTICG 模型月均 IC 达 11.41%,年化收益率 37.51%,整体表现 优于单一时序或截面模型。在指数增强策略中,该模型对沪深 300 和中证 1000 的年化超额 收益率分别达到 13.12%和 17.07%,展现出一定的选股能力和策略稳定性。 尽管模型在多维度特征融合和宏观约束方面取得了一定突破,但仍存在改进空间。本文 虽然引入 PINN 提升了模型的宏观适应性,但宏观经济方程的设定仍依赖简化假设(如货币 流通速度恒定),可能忽略部分复杂经济变量的非线性影响。此外,模型的换手率在融合后 有所上升,尤其在市场风格快速切换时可能增加交易成本。最后,当前模型对历史数据的依 赖性较高,未来需进一步验证其在不同经济周期和极端市场环境下的鲁棒性,以避免过拟合 风险。
展望未来,研究可从以下几个方向深化:其一,丰富宏观约束维度,纳入更多实时经济 指标(如 PMI、消费者信心指数)或政策变量,也可以结合 NLP 技术解析央行报告等非结 构化数据,增强宏观状态方程的完备性。其二,本文中模型输出预测部分简单的将时序 Transformer 编码与 GAT编码后的信息进行合并预测,并未考虑到时序信息与个股关联信息 之间的相对强弱,可以适当引入自适应门控网络或注意力机制,提升模型对市场状态变化的 响应速度。其三,改进图的构建方法,例如引入动态图网络(DGNN)实时捕捉资金流向和 行业关联的变化,或结合知识图谱技术整合产业链上下游关系,提升截面关联的刻画精度。 其四,加入宏观约束的时序截面双流网络模型因子换手率有所提升,未来可以在因子构建过 程中进行强化学习结合的探索,通过智能调仓机制平衡收益与风险,降低换手率并提升策略 的实操性。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)