2026年机器学习系列之一：mHC对Barra机器学习因子的改进

东北证券2026/01/15
举报

引言

在过去的十多年里，量化研究从以线性多因子框架为主，逐步向深度学习方法探索非线性交互与复杂结构关系演进。这一转变的核心动因是希望突破传统线性模型在捕捉高阶因子交互与微观结构异质性上的限制。然而，金融市场的若干固有特性对深度模型提出了严苛挑战，主要集中在极低的信噪比、显著的非平稳性、以及复杂的市场微观结构噪声上。首先，金融市场的信号强度普遍偏弱。与图像或语音数据中清晰且重复出现的模式不同，因子与个股收益之间的统计关联通常很微弱且时变。一个在过去周期内统计显著的因子，往往会因为宏观政策、资金结构或流动性事件而迅速失效。这种“短寿命信号”使得模型在训练阶段极易将偶发的样本内噪声误识为稳定规律。其次，数据的非平稳性和偏态分布加剧了建模难度。收益序列存在厚尾分布、跳跃与异方差特征，截面因子的分布会随时间或者事件发生结构性变化，标准的独立同分布假设被严重违背。常规的深度学习训练技巧（例如 batch normalization、大批量训练）在金融截面问题上不再可靠，因为它们隐含的数据同质性假设与金融数据的真实特征冲突，导致训练指标与实盘表现脱节。第三，样本量与标签噪声问题亦不可忽视。尽管截面样本在任一时点看似丰富（数千只股票），但有效样本的横向可比性受行业结构、退市与停牌等因素限制；时间维的可用标签远少于标准监督学习任务，标签本身受到成交价、分红、复权与延迟信息等噪声污染。再者，常见的数据泄露、幸存者偏差以及未经恰当分离的滚动窗口验证，都容易让模型在回测阶段表现过于乐观。

这些因素合力放大了“高容量模型”的风险：当网络的深度与宽度增长时，参数空间迅速膨胀，模型具备记忆训练噪声的能力，从而出现过拟合与对偶然性模式的过度放大。具体表现包括：参数放大导致的数值不稳定：未经约束的线性变换矩阵在多层复合后，其奇异值可能呈指数级放大或缩小，造成信号在传播过程中的爆炸或消失，进而干扰梯度更新与训练收敛。假性相关性的学习：模型可能学到仅在训练窗口存在的交互项或极端样本的“捷径特征”，这些特征在未来周期不可复现，造成显著样本外性能下降。高换手率与脆弱的交易信号：深度模型倾向于对微小输入扰动产生敏感输出，导致策略换手增加、交易成本攀升，从而侵蚀净收益并放大回撤风险。传统的交叉验证方案在金融时序任务中需要严格的时间顺序保留、purging 与 embargo 机制，否则会误导参数选择与超参调优。简单地把机器学习社区常用的 Kfold CV 直接套用到时间序列与截面数据上，常常导致未来信息泄露，从而无法反映真正的样本外稳健性。在此背景下，单纯依赖模型容量扩展（加深网络、增加宽度）并不足以带来长期稳健的 Alpha。需要从模型结构与先验约束层面引入更强的归纳偏置以对抗噪声与不确定性。例如：引入数值稳定性的约束（如限制线性变换的谱范数、使用双随机或正交矩阵投影）以抑制传播中的信号放大；

通过非负性、凸组合等结构性限制，使得特征变换更偏向于内插而非外推，从而降低对异常样本的过度反应；在训练与评估流程中采用金融专用验证策略（滚动回测、时间序列交叉验证、 purging/embargo）与稳健性指标（IC、IC_IR、换手率分布、回撤分布）来衡量模型的长期可用性。深度学习模型因子挖掘的核心矛盾在于：我们希望模型拥有足够的非线性表达能力以捕捉复杂交互，但同时又要保证对噪声与分布漂移的抵抗力。传统的深度学习范式往往倾向于通过增加参数量（宽度与深度）来提升拟合能力，但在金融这种极低信噪比的数据环境下，这种“暴力美学”往往适得其反。过大的假设空间使得模型极易记住训练集中的随机噪声，导致样本外预测崩塌。而 DeepSeek 团队提出的 mHC 从流形几何角度对深度网络内部的连接结构进行约束，为金融低信噪比场景下的稳定建模提供了系统性解法。本报告围绕 mHC 的若干核心贡献与工程可行性，突出其在理论、数值稳定性与实际量化分析建模上的“闪光点”。

mHC 通过将残差混合矩阵投影到 Birkhoff 多面体（双随机矩阵集合），确保映射为非负且行列和为一的变换。这一约束带来两个直接收益：一是谱范数受限，从而实现“非扩张”传播，避免信号在深层网络中被指数级放大；二是变换可解释为输入通道的凸组合，使得输出保持在输入凸包内，天然抑制过度外推行为。由于双随机约束和非负的扇入/扇出映射，模型在遇到噪声或极端样本时更倾向于做平滑内插而非激进加权，这直接带来更低的策略换手率、更稳健的截面排序（IC 的波动更小）及更小的极端回撤风险。这些都是量化策略在实盘中衡量长期有效性的关键指标。

mHC 的核心算子（如 Sinkhorn-Knopp 投影、Sigmoid 映射与门控因子）均可以构造成可微模块，支持端到端反向传播。报告中给出具体的初始化与冷启动策略，以确保训练早期的梯度流和数值稳定性，降低训练失败的工程风险。与完全无约束的宽网络不同，mHC 引入的是一种“有界的表达空间”——在允许高维交互的同时，通过流形约束限制可能的线性混合形式，从而保留模型挖掘复杂交互的能力，又避免了无序参数扩张带来的噪声放大。这种折中在低信噪比场景下尤其重要。本报告主要介绍 mHC 的研究应用到 barra 的机器学习因子的改进中，barra 的机器学习因子在 2025 年 3 月份 MSCI 发布的 CNEX 模型中上线多层感知机(MLP)这因子。在此之前，MSCI 的股票研究团队已经在因子研究中率先引入了基于机器学习，并取得了显著的成果。

mHC 的理论框架：从双随机矩阵到深度网络

本章将介绍 mHC 的在大语言模型训练中的理论框架，本章节重点关注 SinkhornKnopp 算法的实现细节及其在梯度传播中的几何意义。

2.1. 超连接（Hyper-Connections）的拓扑结构

DeepSeek 的 mHC 架构是对传统残差网络（ResNet）的一次拓扑重构。在标准 ResNet 中，残差流通常是单通道的，维度与计算层一致。而 mHC 将这一单通道扩展为 n 个并行的“子流（” Sub-streams），形成了一个宽度为 n × C 的信息高速公路。单层的信号传播逻辑可以描述为：上一层的 n 个子流状态 X_l，首先经过一个混合矩阵 H_res 进行流与流之间的信息交换（线性混合）；同时，这些子流通过“扇入映射” H_pre 被压缩聚合，输入到非线性计算单元（如 MLP）中进行特征提取；提取后的新特征再通过“扇出映射” H_post 广播回 n 个子流中，与线性混合后的状态叠加，形成下一层的状态 X_{l+1}。这种设计的核心在于“分工与交互”： 1. 并行通道：多个子流允许网络在不同通道中维护独立的特征表示，避免了单一通道中的信息挤压与干扰。 2. 动态路由：通过可学习的混合矩阵，网络可以动态地决定信息在不同子流间的分配与流转，实现了比固定连接更灵活的路由机制。

2.2. 流形约束与非负映射

为了在深层网络中保持信号传播的稳定性，mHC 引入了两组关键的几何约束，分别作用于层间的混合矩阵与扇入/扇出映射。

1. 残差混合矩阵的流形约束（Sinkhorn-Knopp）

在无约束的深层网络中，信号经过多次线性变换后容易出现数值爆炸或梯度消失。 mHC 将残差混合矩阵 H_res 严格约束在 Birkhoff 多面体上，即要求该矩阵必须是双随机矩阵（Doubly Stochastic Matrix）。这意味着混合矩阵必须满足三个条件：所有元素非负、每一行的和为 1、每一列的和为 1。物理含义：这相当于要求层间的信息传递必须遵循“能量守恒”和“概率转移”的原则。信号既不会凭空放大（非扩张性），也不会在传递中丢失，只能在不同子流间进行重新分配。算法实现：在训练过程中，通过 Sinkhorn-Knopp 算法对参数矩阵进行迭代式的行归一化和列归一化，使其快速收敛到双随机流形上。这种约束天然地限制了矩阵的谱范数（<= 1），为构建超深层网络提供了坚实的数值稳定性保障。

2. 扇入/扇出映射的非负约束

为了防止信息在聚合（扇入）和广播（扇出）过程中因正负抵消而丢失，mHC 要求扇入映射 H_pre 和扇出映射 H_post 的参数必须保持非负。逻辑解释：非负性确保了特征的聚合是基于“加权累加”而非“差分抵消”。这使得输出特征始终位于输入特征的凸包或锥内，避免了特征空间的剧烈震荡。实现细节：通常使用 Sigmoid 函数将参数映射到 (0, 1) 区间。特别地，对于扇出映射，DeepSeek 建议引入一个缩放系数（如 2），以补偿 Sigmoid 函数带来的均值偏移，确保初始化阶段的梯度流尺度适宜，利于模型的冷启动训练。

2.3. 参数初始化与冷启动策略

在金融模型的训练初期，保持梯度的流动性至关重要。如果初始化不当，深层 mHC 网络可能在初始阶段就陷入梯度消失。 DeepSeek 论文建议引入门控因子 ? 并进行极小值初始化。参数设定：扩展率: ? = 4。这意味着对于 42 维的输入，内部残差流将维护 4 × 42 = 168 维的状态空间。

Barra 模型机器学习因子

本章将详细阐述基于 Barra 因子体系构建机器学习因子的完整流程，该因子在 2025 年 3 月份 MSCI 发布的 CNEX 模型中上线。在此之前，MSCI 的股票研究团队已经之前的系列研究中率先引入了基于机器学习模型来构建的因子，取得了显著的成果。 Barra MLP 因子的核心思想在于突破传统线性多因子模型的假设桎梏，利用神经网络强大的通用函数拟合能力，去深度挖掘 Barra 风格因子与个股未来残差收益之间那些微妙、非线性且高度交互的复杂映射关系。在经典的 Barra 风险模型框架下，因子收益通常通过横截面回归（Cross-Sectional Regression）进行估算。这种方法虽然解释性强，但隐含了一个强假设：即因子暴露与预期收益之间存在严格的线性关系，且各个因子之间是相互独立的。然而，真实的金融市场是一个复杂的自适应系统，充满了非线性特征和条件依赖。例如，“估值因子”的有效性往往是非线性的——极度低估的股票可能不仅不回归，反而面临“价值陷阱”的风险；同时，因子之间存在显著的交互效应，如“动量因子” （Momentall Cap）股票中的表现者在流动性（Liquidity）枯竭时会发生剧烈的反转。传统的线性经验人工构造大量的交叉项（Interaction Terms）来试图捕捉这些规律，这不仅耗时耗力，容易组合。相比之下，多层感知机（MLP）作为一种通用的函数逼近器，通过堆叠多层非线性激活函数（如 ReLU），能够自动地在特征空间中进行高维扭曲和特征重组。它不再将每个 Barra 因子视为独立的线性贡献者，而是将包含 10 大类风格因子的向量视为一个整体的市场状态“指纹”。模型能够“端到端”地学习出这些因子在不同市场环境下的非线性组合规则，从而捕捉到线性模型无法触及的高阶 Alpha 信息。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）