2025年机器学习应用系列专题报告：DAFAT，基于Transformer模型的自适应解决方案

西南证券2025/09/01
举报

1 传统 Transformer 模型局限性及可优化点

1.1 Transformer 模型概述

Transformer 模型于 2017 年由 Google 的研究团队在论文《Attention Is All You Need》中首次提出。该论文的主要作者包括 Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez、Lukasz Kaiser 和 Illia Polosukhin。在 Transformer 诞生之前，序列到序列（Seq2Seq）模型主要依赖于循环神经网络（RNN）和其变体（如 LSTM、GRU），这些模型在处理长序列时存在梯度消失、并行化困难等问题。 Transformer 模型主要解决了以下几个关键问题：并行化问题：传统 RNN 模型的顺序处理特性使其难以并行化，而 Transformer 通过自注意力机制实现了完全并行化；长程依赖问题：RNN 在处理长序列时存在梯度消失问题，Transformer 通过直接建模任意两个位置之间的关系来解决这一问题；计算效率问题：相比于 RNN 的顺序计算，Transformer 的矩阵运算可以充分利用现代 GPU 的并行计算能力；表征能力问题：自注意力机制使模型能够更好地捕捉序列中的全局依赖关系。

（1）模型整体结构

Transformer 采用编码器-解码器（Encoder-Decoder）架构，由功能互补的两部分组成：编码器（Encoder）：由 N 个（原论文 N=6）相同层堆叠而成，负责提取输入序列的深层特征表示。每层包含两个核心子层：多头自注意力机制和前馈神经网络（FFN）。每个子层均采用残差连接（Residual Connection）和层归一化（Layer Normalization），确保训练稳定性。解码器（Decoder）：同样由 N 个相同层构成，在生成输出序列时，通过掩蔽自注意力确保当前位置仅访问已生成标记。通过编码器-解码器注意力整合输入序列信息。解码器的独特设计使其适用于自回归生成任务，如文本生成。

（2）注意力机制

Transformer 的核心是注意力机制（ Attention Mechanism ），特别是自注意力（Self-Attention）机制。

1.2 Transformer 与传统序列模型对比

（1）模型架构对比

传统序列模型特点： RNN（循环神经网络）：基本的循环结构，存在严重的梯度消失问题。 LSTM（长短期记忆网络）：通过门控机制缓解梯度消失，但计算复杂度较高。 GRU（门控循环单元）：简化的 LSTM，参数较少但性能接近。 Transformer 特点：完全基于注意力机制，无循环结构；编码器-解码器架构；多头注意力并行处理。

（2）计算复杂度对比

其中：n 为序列长度；d 为隐藏层维度时间复杂度：RNN 系列对序列长度呈线性关系，Transformer 对序列长度呈二次关系。空间复杂度：RNN 系列空间需求固定，Transformer 需要存储注意力矩阵。并行化：RNN 系列必须顺序计算，Transformer 可以完全并行。

（3）梯度传播特性与长程依赖建模能力

RNN 系列：信息需要逐步传递，容易丢失；梯度在反向传播中指数衰减；实际有效长度受限（通常<100）。 LSTM/GRU：通过门控机制改善，但仍有限制；能处理稍长序列（数百个时间步）；计算复杂度增加。

Transformer：任意两个位置直接建模；理论上无长程依赖限制；受限于计算资源和序列长度限制。Transformer通过残差连接和层归一化实现近乎无损的梯度传播，基本解决 RNN 家族的梯度消失问题。

1.3 Transformer 主要优势

（1）并行化能力

Transformer 的自注意力机制通过矩阵乘法实现全局关联计算，该计算可分解为独立子矩阵运算，天然适配 GPU/TPU 的大规模并行架构。

（2）长程依赖建模

通过直接计算任意两个位置之间的注意力权重，Transformer 能够有效捕捉长程依赖关系。传统 RNN/LSTM 的路径长度为?(?)，Transformer 降低至?(1)：任意两位置直接关联，彻底解决梯度消失/爆炸问题。

（3）可解释性

注意力权重提供了模型决策过程的可视化，增强了模型的可解释性。

（4）迁移学习能力

在计算机视觉领域，Vision Transformer（ViT）将图像分割为 16×16 的 Patch 序列，通过位置编码保留空间信息，利用 Transformer 编码器提取全局特征。在 ImageNet-21k（含 1,400 万图像）预训练预训练后，模型学习到通用视觉表征。在 CIFAR-100 数据集上微调后， ViT-L/16 模型达到 94.3% 准确率，显著超越相同条件下 ResNet152 的 93.3%。ViT证明了纯 Transformer 架构在 CV 任务中的通用性。(Dosovitskiy et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021.) 在生物医学这一高度专业化的领域，Transformer 模型同样展现出了强大的适应性。 BioBERT 作为专门针对生物医学文本优化的 BERT 变体，通过在 PubMed 大规模生物医学语料库上进行预训练，成功地学习到了生物医学领域的专业知识表示。当将这种预训练模型应用于生物医学命名实体识别任务时，相比于通用语言模型，BioBERT 的 F1 值显著提升了 8.2%。这一显著的性能提升表明，领域特定的预训练能够让 Transformer 模型更好地理解和处理专业领域的复杂语义关系，从而在实际应用中发挥更大的价值。(Lee, J., Yoon, W., Kim, S., et al. (2020). BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics, 36(4), 1234-1240.）在代码生成和程序合成领域，Codex，作为 GPT-3 的专门变体，专注于理解和生成程序代码。其最令人印象深刻的特性在于极强的跨编程语言迁移能力——当需要适应全新的编程语言时，Codex 仅需要少量的示例样本（通常只需要数百个样本）进行微调，就能够掌握新语言的语法规则和编程范式。这种 few-shot 学习能力展现了 Transformer 模型对代码结构和逻辑的深层理解。(Chen, M., Tworek, J., Jun, H., et al. (2021). Evaluating large language models trained on code. arXiv:2107.03374.)。

1.4 传统 Transformer 模型局限性及可优化点

（1）计算复杂度问题

自注意力的二次复杂度：时间复杂度：?(?²?)，其中?是序列长度，?是模型维度；空间复杂度：?(?²)，需要存储注意力矩阵。对于长序列，这种二次复杂度会导致计算和内存消耗急剧增加。

（2）数据和计算资源需求

高资源需求：需要大量的训练数据才能达到最佳性能。训练需要大量的计算资源和时间并且模型参数量巨大，部署成本高。

（3）任务特定缺陷：在不同应用场景中暴露特有局限

时间序列预测：通道不独立：多变量强行拼接破坏物理意义（如温度与股价尺度差异）；点式注意力不匹配：时间局部连续性未被有效利用，PatchTST 证明分块（Patch）更合理。数学推理：符号运算和逻辑推导能力弱，需注入外部模块；思维链（Chain of Thought）依赖注意力精细权重分配，部分高效模型在此表现不佳。本报告致力于深入探究并显著提升 Transformer 深度学习模型在 A 股市场量化选股策略中的应用效能。尽管 Transformer 凭借其强大的序列建模能力在自然语言处理等领域取得革命性成功，但其在金融时序数据（特别是股票收益预测）上的直接迁移应用仍面临独特挑战，尽管已有研究证明 Transformer 模型在 A 股市场具备较好的选股效果，但其存在进一步优化的空间。研究伊始，我们将严谨构建并测试一个标准 Transformer 模型作为性能基准。通过评估未经优化的 Transformer 模型在选股任务中的原始表现，揭示其在捕捉金融市场复杂动态（如非平稳性、长短期依赖、噪声干扰）方面存在的固有局限，为后续优化提供明确的方向与对比基线。

模型训练方式等其他模型设定如下： 1）训练数据：所有个股过去 10 年内的时序特征，做 5 天采样，预测标签为未来一个月 (20 个交易日)的累计收益； 2）训练集验证集比例：80%：20%； 3）时序尺度选择：40 天； 4）数据处理：时序标准化（与最后一个时间步比值），截面标准化（均值标准差）； 5）模型训练及调仓频次：一年更新，月频调仓； 6）模型超参数：batch=截面个股数，lr=1e-4，损失函数 1-IC。自 2019 年 1 月至 2025 年 7 月，基础 Transformer 因子 IC（以 RankIC 表征）为 9.42%，多头组合年化收益率为 28.70%，月均单边换手率 0.88X，整体来看，仅靠量价时序特征训练出的基础 Transformer 模型具备一定的选股效果。（IC 测试中“***”、“**”、“*”分别代表参数在 1%、5%、10%的显著性水平下显著，下同，不再特殊强调。）

从分组角度来看，多头组合（组 1）年化收益率 28.70%，最大回撤 39.42%；空头组合（组 10）年化收益率-6.17%，最大回撤 70.95%；多空组合（组 1/组 10）年化收益率 37.16%，最大回撤 9.30%，具备一定单调性。但整体来看，因子多头组合表现并不显著，且除空头组合外，组一组二组合分化程度不高，基础 Transformer 模型及量价时序信息在因子挖掘效果层面更多聚焦于空头，具备进一步提升空间。

从因子分组的相对净值表现来看，相对万得全 A， Transformer 因子在 2024 年 1 月底出现了较大的超额回撤，但在 2024 年 9 月底的上涨行情（0924 行情）内并未出现较为明显的超额回撤。分年度来看，多头组合自 2019 年至 2025 年 7 月，7 年均跑赢万得全 A 指数，其中 2021 年相对万得全 A 年化超额 30.55%，超额最大回撤 12.65%；2023 全年相对万得全 A 年化超额收益率 25.44%，超额最大回撤仅 4.87%.此外，因子今年以来超额表现较好，2025 年初至 7 月 31 日，累计超额收益率 11.03%，超额最大回撤 3.17%。受限于 2024 年两端极端行情，全年多头组合相对万得全 A 超额进 6.37%，超额回撤 26.26%。

传统 Transformer 模型具备一定的选股效果，但模型整体选股效果和模型稳定性具备较大的优化空间，且在关键市场阶段（2024 年 1 月量化危机、2024 年 0924 行情）仍会出现较为明显的超额回撤。本报告的提出了一类基于 Transformer 模型自适应的解决方案（Dynamic Adaptive Fusion Attention Transformer， DAFAT），主要工作点在于系统性地提出并实现针对 Transformer 架构三大关键组件的深度优化：位置编码自适应：针对金融时间序列的强时序依赖性与周期性（如季节性效应、事件驱动），我们针对标准正弦/余弦位置编码，引入动态时变位置编码机制，旨在精确地捕捉因子在时间轴上的相对重要性演变与市场状态影响的持续效应，提升模型对时序结构的感知能力。注意力机制自适应：传统全局注意力在高噪声、高维金融数据上易引入冗余信息并导致过拟合。我们设计稀疏化与局部敏感的注意力机制，引导模型聚焦于当前预测最具信息量的少数关键因子及历史片段，旨在提升计算效率，抑制噪声干扰。信息融合自适应：为充分利用不同来源（量价、基本面等）和不同频率（日、周、月、季）因子，本文设计多尺度信息融合框架，其多尺度信息融合框架包含微观尺度、中观尺度以及宏观尺度，并引入跨尺度注意力门控融合机制以及原始量价特征残差融合，旨在超越简单的拼接或加权，实现跨因子、跨周期的深度非线性交互与自适应信息整合，增强模型对复杂市场微观结构的刻画能力。

2 位置编码自适应：动态位置编码解决方案

在传统 Transformer 选股模型中，位置编码机制存在三重核心缺陷，可能会严重制约模型在金融时序数据上的表现。（1）周期性失配问题：固定正弦/余弦编码无法适配金融市场的独特周期（例如特定的财报季、年末效应、政策窗口期）。传统编码与金融季度周期的相关性较低，有可能导致模型无法准确捕捉各类事件驱动的行情；（2）状态盲区问题：静态编码忽视市场状态转换对因子有效性的根本影响。如图 1 所示，动量因子在牛熊市中的有效性差异达 80%，但传统模型对此完全失效，造成熊市超额回撤。

基于上述问题，本文提出了双通道门控动态位置编码（Double-Gate DPE）以实现 Transformer 模型中的位置编码自适应。其中双通道门控动态位置编码分别包括时间周期编码以及市场状态编码，两类编码信息分别由不同的深度学习神经网络模型处理后，经有门控融合网络对两类动态位置编码进行动态加权求和，最终输出新的动态位置编码方式。

动态位置编码之市场状态编码：引入市场波动率（市场情绪）、行业轮动速度（热点切换）以及市场流动性（资金活跃度）三维状态指标来表征市场状态，并利用时序模型 LSTM+MLP 的深度学习网络结构进行市场状态信息的处理，并最终输出多维市场状态信息。其中市场波动率、行业轮动速度以及市场流动性的特征表示如下： 1）市场波动率：全市场个股 20 日收益率标准差中位数； 2）行业轮动速度：行业 20 日累计收益标准差（申万一级行业分类）； 3）市场流动性：全市场换手率。在构建时间周期位置编码和市场状态位置编码后，引入门控融合机制，即引入可学习线性层，动态学习两类动态位置编码的合成权重，并合成两类动态位置编码。动态位置编码作为 Transformer 模型自适应改造的第一部分（特征处理部分），主要采取时间周期编码自适应和市场状态自适应，并最后并引入可学习参数的门控融合层对两个不同时间尺度的编码信息进行加权求和，将最后加权求和后的位置编码信息作为最终的 Transformer 的位置编码信息。

2.1 动态位置编码自适应 Transformer 模型回测结果

本节中仅测试加入动态位置编码自适应的 Transformer 模型的选股因子效果（DPE_Transformer, Dynamic Positional Encoding Transformer）。自 2019 年 1 月至 2025 年 7 月，DPE_Transformer 因子 IC 均值为 9.54%，多头组合年化收益率 30.60%，月均单边换手率 0.86X。整体 IC 及多头组合表现优于基础 Transformer 模型，换手率小幅低于基础 Transformer 模型。

从分组角度来看，多头组合（组 1）年化收益率 30.60%，最大回撤 39.41%；空头组合（组 10）年化收益率-5.02%，最大回撤 68.41%；多空组合（组 1/组 10）年化收益率 37.23%，最大回撤 8.69%，整体具备一定单调性。且相对于传统 Transformer 模型分组测试中组一与组二分化不明显的现象，DPE_Transformer 模型因子单调性具备一定程度的提升。

从因子分组的相对净值表现来看，相对万得全 A，多尺度 Transformer 因子在 2024 年 1 月底出现了较大的超额回撤，但在 2024 年 9 月底的上涨行情（0924 行情）内并未出现较为明显的超额回撤。

分年度来看，多头组合自 2019 年至 2025 年 7 月，7 年均跑赢万得全 A 指数，其中 2021 年相对万得全 A 年化超额 32.54%，超额最大回撤 11.51%；2022、2023 全年相对万得全 A 年化超额收益率均超过 20%，超额最大回撤分别仅 6.53%、4.59%。此外，因子今年以来超额表现较好，2025 年初至 7 月 31 日，累计超额收益率 16.02%，超额最大回撤 2.81%。

2024 年 DPE_Transformer 多头组合相对于万得全 A 超额仅 4.48%，在加入时间周期编码与市场状态编码组成的动态位置编码信息后，DPE_Transformer 模型在 2024 年 1 月末及 2024 年“0924”行情下相对万得全 A 仍然会产生较大幅度的回撤。

3 注意力自适应：稀疏注意力解决方案

在金融时序预测领域，传统 Transformer 模型的全连接注意力机制存在一定的局限性，亟需针对性优化。本文深入研究发现，标准注意力机制在应用于股票数据时可能会面临如下三重挑战：首先，全连接注意力计算复杂度较高。其 O(n²)计算复杂度难以支撑全市场高达 5000 只股票的高效计算，尤其针对多个交易日的长序列场景下，内存消耗较高，计算效率较低，将会制约模型的可扩展性；其次，全连接结构对噪声高度敏感。当市场状态快速切换的时候，全连接注意力机制极有可能产生较多的无效注意力权重，这将会干扰模型判断。针对这些痛点，本文提出三重稀疏化注意力自适应机制，该机制可以在提升计算效率的同时，加大注意力机制的局部针对性聚焦模式，减少对噪声时段的关注。波动率门控作为第一道过滤器，通过可学习的波动率预测网络，自动识别并屏蔽波动率低于一定程度的低信息时段，同时确保每行至少保留一定的关键连接。局部注意力窗口则聚焦小窗口的短期模式，这与金融数据的动量周期完美契合，通过限制注意力范围强化对突破形态、反转信号等关键模式的捕捉。最后，Top-k 稀疏选择动态保留每行前 30%的强相关连接，减少大部分计算量，使模型能实时处理全市场数据。

在模型架构层面，我们将根据稀疏注意力模块构建稀疏注意力 Transformer 层，并代替原有的 Transformer 层。具体而言，在特征嵌入层之后，我们将其作为 Transformer 编码层的自注意力替代模块：在 QKV 投影计算初始注意力分数后，依次应用波动率门控、局部窗口和 Top-k 选择三重过滤，生成稀疏化注意力权重，再与价值向量相乘生成上下文表征。这种设计既保留了 Transformer 强大的序列建模能力，又通过先验信息引导注意力聚焦高价值信息，致力于使模型在噪声环境中保持稳健。

3.1 稀疏注意力自适应 Transformer 模型回测结果

本节中仅测试加入稀疏注意力自适应的 Transformer 模型的选股因子效果（SA_Transformer, Sparse Attention Transformer）。自 2019 年 1 月至 2025 年 7 月，全 A 范围内 SA 模型因子月均 IC 为 9.98%，多头组合年化收益率为 29.64%，月均单边换手率 0.87X。整体来看，引入稀疏注意力机制的 Transformer 模型因子 IC 及多头组合表现略优于基础 Transformer 模型，因子换手相当。

从分组角度来看，多头组合（组 1）年化收益率 29.64%，最大回撤 38.62%；空头组合（组 10）年化收益率-6.09%，最大回撤 69.76%；多空组合（组 1 / 组 10）年化收益率 38.03%，最大回撤 8.61%，SA_Transformer 模型具备一定单调性。且相对于基础 Transformer 模型， SA_Transformer 在空头与多头均有提升。

从因子分组的相对净值表现来看，相对万得全 A，SA_Transformer 模型因子在 2024 年 1 月底同样出现了较大的超额回撤，但随后回撤快速修复，且在 2024 年 9 月底的上涨行情（0924 行情）内并未出现较为明显的超额回撤。

分年度来看，多头组合自 2019 年至 2025 年 7 月，7 年均跑赢万得全 A 指数，其中 2021 年相对万得全 A 年化超额 32.24%，超额最大回撤 11.98%；2023 全年相对万得全 A 年化超额收益率 24.15%，超额最大回撤仅 4.35%。此外，因子今年以来超额表现较好，2025 年初至 7 月 31 日，累计超额收益率 12.93%，超额最大回撤 2.99%。相较于基础 Transformer， SA_Transformer 模型在 2024 年表现有所提升，其多头年化超额收益率为 9.46%，超额回撤 26.18%，优于基础 Transformer 模型多头超额收益率 6.37%，超额回撤 26.26%。除 2024 年以外，SA_Transformer 于 2020、2021、2022、2024 及 2025 表现优于基础 Transformer。

4 信息融合自适应：多尺度信息融合解决方案

在前文基础模型构建的特征选择过程中，本文除量价时序特征以外，选取了部分基本面特征并做日频化填充处理后，与量价时序特征合并，并放入 Transformer 模型进行训练。但是在金融时序建模中，我们面临一个根本性挑战：市场信息天然存在于不同时间尺度。量价数据以日频甚至更高频率更新，反映市场的瞬时波动和短期情绪；而基本面数据以季度频率发布，揭示企业的长期价值本质。传统方法简单地将基本面数据日频化处理后与量价数据拼接输入模型，导致三个核心问题：（1）信息失真问题：基本面数据被强制填充为日频序列，极大部分数据点是通过插值生成的伪信号，不仅稀释了真实财报信息，还引入了大量噪声。（2）频率失配问题：量价特征的自相关滞后周期（约 1-5 天）与基本面特征（约 30-90 天）存在数量级差异。直接拼接导致模型混淆短期波动与长期趋势。（3）交互缺失问题：基本面特征一般滞后报告期 1 个月发布，即存在一定的滞后效应，但传统数据处理方法却忽略这一滞后效应。根据上述常规量价特征与基本面特征处理存在的问题，本文设计了多尺度信息融合框架。其中多尺度信息融合框架包含微观尺度、中观尺度以及宏观尺度。其中微观尺度主要处理原始日频量价数据，通过时间卷积捕捉短期波动模式；中观尺度主要对日频量价数据做中期时间长度（如周度）聚合处理，分析量价信息的中期趋势；宏观尺度主要处理基本面特征，保持原有基本面特征频次。图 19：多尺度信息融合自适应：

在原有的微观尺度、中观尺度以及宏观尺度信息处理后，本文引入跨尺度注意力机制实现不同尺度信息间的“对话”，并进行跨尺度注意力门控融合，并于原始量价特征进行残差融合，保证梯度下降传播。具体操作步骤如下：

1）以微观尺度特征作为查询（Query），中观、宏观尺度特征作为键值对（Key-Value）。 2）计算注意力分数：利用查询（Query）分别与键（Key）计算注意力分数，并进行堆叠； 3）计算尺度门控权重：拼接三个尺度的特征并通过门控网络生成三个尺度的门控权重，动态学习并决定在融合时，每个尺度的重要性占比； 4）应用门控权重，融合注意力分数，计算注意力权重：将第 3 步得到的门控权重应用到第 2 步得到的三个注意力分数上，融合成一个加权的注意力分数矩阵，将融合后的注意力分数转换为概率分布（softmax）； 5）上下文聚合：合并三个尺度的值（Value），使用门控权重对合并值加权，生成融合后的值向量，并于门控权重相乘，可理解为用注意力权重对所有时间步的值向量进行加权平均，为每一个时间步 T生成一个包含多尺度信息的上下文向量； 6）残差融合：组合多头并输出投影至隐藏层维度，并与原始量价特征进行残差融合。

4.1 信息融合自适应 Transformer 模型测试

本节中测试在基础 Transformer 模型中仅加入多尺度信息融合自适应的 Transformer 模型的选股因子效果（MF_Transformer, Multi-scale Information Fusion Transformer）。自 2019 年 1 月至 2025 年 7 月，全 A 范围内 MF 模型因子月均 IC 为 10.09%，多头组合年化收益率为 30.22%，月均单边换手率 0.82X。整体来看，引入基本面特征并采取多尺度信息融合机制下的 Transformer模型因子 IC及多头组合表现略优于基础 Transformer模型，且因子换手率有所降低。

从分组角度来看，多头组合（组 1）年化收益率 30.22%，最大回撤 37.90%；空头组合（组 10）年化收益率-6.91%，最大回撤 71.65%；多空组合（组 1 / 组 10）年化收益率 39.89%，最大回撤 9.24%，MF_Transformer 模型具备一定单调性。纵向对比来看，MF_Transformer 相对于基础 Transformer 模型在空头与多头均有提升；横向对比来看，MF_Transformer 相对于 SA_Transformer 以及 DPE_Transformer 模型在空头与多头同样具备一定的提升效果。

从因子分组的相对净值表现来看，相对万得全 A，MF_Transformer 模型因子在 2024 年 1 月底同样出现了较大的超额回撤，但随后回撤快速修复，且在 2024 年 9 月底的上涨行情（0924 行情）内并未出现较为明显的超额回撤。

分年度来看，多头组合自 2019 年至 2025 年 7 月，7 年均跑赢万得全 A 指数，其中 2021 年相对万得全 A 年化超额 32.24%，超额最大回撤 11.98%；2023 全年相对万得全 A 年化超额收益率 24.15%，超额最大回撤仅 4.35%。此外，因子今年以来超额表现较好，2025 年初至 7 月 31 日，累计超额收益率 13.90%，超额最大回撤 2.44%。相较于基础 Transformer， MF_Transformer 模型在 2024 年表现有所提升，其多头年化超额收益率为 11.08%，超额回撤 25.64%。但整体来看，MF_Transformer 在 2020 年的表现较差，相较于万得全 A 超额仅 2.35%。

5 模型消融测试

基于前文提到的三个自适应优化模块，本文在 Transformer 模型的基础上构建了 DAFAT （Dynamic Adaptive Fusion Attention Transformer）模型，并分别测试上述三个不同的自适应优化模块（动态位置编码 DPE、稀疏注意力 SA、多频信息融合 MF）在任意组合情况下相对于传统 Transformer 模型的效果优化情况。

在上述三个自适应优化模块两两组合的情况下，模型表现相较于传统 Transformer 模型具备一定的削弱效果。其中 MF_DPE、SA_DPE 以及 SA_MF 相较于基础 Transformer 模型在多头组合方面和 IC 方面并没有特别显著的提升，其中该三者模型因子 IC 分别为 9.77%、 8.74%以及 9.35%，多头组合年化收益率分别为 26.44%、26.97%以及 28.26%。

从各模型相对万得全 A 的相对净值表现来看，集成三类自适应优化模块的 DAFAT 模型在近几年的效果有明显提升，自 2024 年 1 月底量化模型大幅回撤后，DAFAT 模型超额弹性显著增强，且 2024 年 1 月底期间回撤相对其余几个模型更低。2024 年以前，DPE 模型相对于其他模型超额收益表现较佳。

此外，同时融合了三个自适应优化模块的 DAFAT 模型相较于基础 Transformer 以及其他不完全自适应优化的 Transformer 模型均呈现出较好的优化效果。其中 DAFAT自 2019 年 1月至 2025年 7月因子 IC均值为 11.07%，多头组合年化收益率 32.30%，最大回撤率 33.00%。

从分组角度来看，多头组合（组 1）年化收益率 32.30%，最大回撤 33.00%；空头组合（组 10）年化收益率-7.96%，最大回撤 73.13%；多空组合（组 1 / 组 10）年化收益率 42.66%，最大回撤 9.07%，DAFAT 模型具备一定单调性，且多头组合与空头组合均优于基础 Transformer 模型。但整体来看，DAFAT因子组一组二分化程度并不明显。

分年度来看，多头组合自 2019 年至 2025 年 7 月，7 年均跑赢万得全 A 指数，其中 2021 年相对万得全 A 年化超额 32.87%，超额最大回撤 12.14%；2023 全年相对万得全 A 年化超额收益率 25.41%，超额最大回撤仅 5.09%。此外，因子 2025 年初至 7 月 31 日累计超额收益率 18.04%，超额最大回撤 2.35%。但同样 DAFAT在 2019 与 2020 年超额收益表现较差，相对万得全 A 年化超额收益率仅 8.81%与 3.23%。

6 指数增强策略

6.1 沪深 300 指数增强策略

在本节中，本文基于 DAFAT 模型构建沪深 300 指数增强策略。首先在构建指数增强策略之前，本文分别测试了前文中 DAFAT消融测试 8 个模型分别在沪深 300 指数成分股内表现。整体来看，在单个自适应优化模块下，多尺度信息融合自适应（MF_transformer）优化下相对基础 Transformer 模型表现相对最好；在两个自适应模块优化的情况下，MF_DPE、 SA_DPE 以及 SA_MF 相对基础 Transformer 模型并没有较大的提升。但在三个自适应模块的优化下，DAFAT模型相对于其余模型在沪深 300 成分股内均有一定程度的提升。自 2019 年 1 月至 2025 年 7 月，DAFAT 在沪深 300 成分股内 IC 均值为 6.24%，相对沪深 300 指数年化超额收益率 17.17%。

其中，本文沪深 300 指数增强策略回测设定如下： 1）个股权重偏离：个股权重偏离不超过 1%; 2）行业权重偏离：申万一级行业偏离不超过 5%； 3）成分股权重限制：沪深 300 成分股权重不少于 80%； 4）交易费率：单边千分之二； 5）回测时间 2019 年 1 月至今，月频调仓，调仓当日以 vwap 价格成交。

整体来看，DAFAT 模型沪深 300 指数增强策略年化超额收益率 12.65%。根据 DAFAT 指数增强超额表现来看，历史上 DAFAT沪深 300 指数增强在 2021 年 2 月及 2024 年 2 月至 7 月出现了较大幅度的超额回撤。

分区间来看，截至 2025 年 7 月 31 日，DAFAT模型沪深 300 指数增强近一个月、三个月、一年、三年超额收益率分别为-0.25%、0.20%、14.76%以及 10.39%（超过一年计算年化收益率，不足一年计算累计收益率）。

6.2 中证 1000 指数增强策略

在本节中，本文基于 DAFAT模型构建中证 1000 指数增强策略。首先在构建指数增强策略之前，本文分别测试了前文中 DAFAT 类消融测试的 8 个模型分别在中证 1000 指数成分股内的表现。横向对比来看，在单个自适应模块优化的情况下，动态位置编码自适应模块为 Transformer 模型带来了较大程度的提升。自 2019 年 1 月至 2025 年 7 月，DPE_Transformer 模型在中证 1000 成分股内 IC 均值为 9.22%，相对中证 1000 指数年化超额收益率 11.61%，优于 SA_Transformer、MF_Transformer 模型。此外在双重自适应模块优化的情况下，模型表现整体并没有给基础 Transformer 模型带来明显提升；最后在三重自适应模块优化的情况下，DAFAT因子 IC 均值为 9.52%，多头组合相对中证 1000 年化超额收益率 13.42%，表现相对其余模型有一定程度提升。

其中，本文中证 1000 指数增强策略回测设定如下： 1）个股权重偏离：个股权重偏离不超过 1%; 2）行业权重偏离：申万一级行业偏离不超过 5%； 3）成分股权重限制：中证 1000 成分股权重不少于 80%； 4）交易费率：单边千分之二； 5）回测时间 2019 年 1 月至今，月频调仓，调仓当日以 vwap 价格成交。

整体来看，DAFAT 模型中证 1000 指数增强策略年化超额收益率 14.57%。根据指数增强超额收益滚动回撤表现来看，DAFAT模型中证 1000 指数增强超额与 2021 年 2 月及 2024 年 1 月末出现较大幅度的超额回撤。

分区间来看，截至 2025 年 7 月 31 日，DAFAT 模型中证 1000 指数增强近一个月、三个月、一年、三年超额收益率分别为-0.60%、2.41%、20.85%以及 16.79%（超过一年计算年化收益率，不足一年计算累计收益率）。

7 总结与展望

DAFAT（动态自适应融合注意力 Transformer）模型通过三大核心创新实现了金融选股领域的突破性进展。在动态位置编码方面，模型创新性地融合了时间周期、市场状态的双重编码机制，通过门控网络动态调整权重分配，改善了传统位置编码在金融时序中的周期失配、状态盲区问题。在稀疏注意力机制上，DAFAT 模型尝试引入波动率门控、局部注意力窗口和 Top-k 选择三重稀疏化策略，致力于改善传统注意力的计算效率瓶颈和噪声敏感问题。波动率阈值过滤，聚焦关键市场波动时段，短期局部窗口捕捉金融短期依赖特性，30%的 Top-k 连接保留显著提升了计算效率。多尺度信息融合模块则通过微观（日频）、中观（周频）、宏观（月频）三级处理架构，解决了不同频率特征融合的核心难题。跨尺度注意力机制创新性地以量价特征为 Query，基本面特征为 Key/Value，配合门控残差融合。上述三个自适应优化模块的加入后，模型相对于 Transformer 模型均有不同程度的提升，且三个自适应模块优化的情况下， DAFAT 模型相较于基础 Transformer 以及其他不完全自适应优化的 Transformer 模型均呈现出较好的优化效果。其中 DAFAT 自 2019 年 1 月至 2025 年 7 月因子 IC 均值为 11.07%，多头组合年化收益率 32.30%，最大回撤率 33.00%。

该报告提到的 DAFAT 模型为基于 Transformer 模型，分别从位置编码、注意力机制以及信息融合机制三个方向进行的模型端改进。展望未来，我们会进一步尝试从以下几个维度进一步突破：首先，在模型架构层面，可探索时空图神经网络（STGNN）的引入，将行业关联、供应链关系等图结构数据纳入建模框架，解决传统 Transformer 在截面关系建模的不足。同时，尝试研发条件计算机制，根据市场波动状态动态调整模型复杂度，在平稳期启用轻量化子网络以提升推理效率。其次，在数据融合维度，重点突破另类数据整合技术，开发新闻情感等另类数据的多模态融合模块，通过跨模态注意力对齐文本与数值特征；建立宏观 -微观数据桥接网络，实现货币政策、行业政策等宏观信号到个股影响的量化传导。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）