连续性与离散化因子构建方式介绍 - 问答集锦

最佳答案由匿名用户编辑于2025/05/26 10:22

在逐笔数据层面进行离散化信息提取、构建因子的逻辑，与分钟层面类似，仍然是先识别量价数据发生异常的事件点，再用事件点附近的数据参与因子计算。

1.连续性的因子构建方式

日频数据+连续性构建

本文以量价因子中常见的“量价相关性类因子”为例，先用日频行情数据，构建一个量价相关性因子簇，作为后续因子的比较基准。特别说明，由于日频行情序列的数据点较少，若再进行离散化提取，则计算两个序列相关系数的误差较大，因此对于日频数据，本文不构建离散化的量价相关性因子，只构建连续性因子。本小节构建量价相关性类因子的步骤如下：（1）设计日度量价指标：日度量价数据，可从 wind 数据库中直接提取，本文用到的数据包括个股每日的开盘价、最高价、最低价、收盘价、成交量、成交金额、成交笔数、 VWAP、大小单相关指标。其中，大小单相关指标，可分为 3 个维度，“超大单、大单、中单、小单”，“买入、卖出、买入+卖出、买入-卖出”，“成交量、成交金额、成交笔数”，这 3 个维度互相搭配，可产生 48 种不同的大小单指标。因此，通过这一步骤，我们一共得到了 56 种日度量价指标。（2）计算相关性：可分为上述指标两两之间的相关性、或者单一指标的自相关性。对于两两指标互相之间的相关性，根据指标是否计算变化率、计算相关性时是否错位，可分为多种情况，共可计算 18480 个因子；对于单一指标的自相关性，也可通过类似的分类讨论，构建 280 个因子。因此基于日频数据，我们一共得到了 18760 个量价相关性类因子。

对于上述因子，我们通过进一步筛选，保留有效且相关性较低的因子，得到“日频量价相关性因子簇”（若无特别说明，本文在批量构建因子后，均通过下述操作进行因子筛选）：（1）在时间段 2016/01/01-2018/12/31 内，综合考虑因子的 IC、ICIR、10 分组多头超额收益、10 分组多头超额收益的信息比率以及因子互相之间的相关性，挑选效果较优且相关性较低的因子；（2）对于挑选出的因子，再考虑它们 2019/01/01-2021/12/31 的 IC、ICIR、10 分组多头超额收益、10 分组多头超额收益的信息比率以及因子互相之间的相关性，进一步挑选其中效果较优且相关性较低的因子，称之为基于日频数据构建的量价相关性因子簇（2022 年开始即为样本外）。随后，我们将因子簇中保留的因子各自横截面标准化、进行等权合成，得到综合因子，为了方便表述，将其简称为“日频连续”因子。回测时间段 2016/01/01- 2025/04/30 内，以全体 A 股为研究样本，该因子的月度 IC 均值为 0.047，年化 ICIR 为 2.36，月度 RankIC 均值为 0.078，年化 RankICIR 为 3.45；10 分组多空对冲的年化收益为 20.99%，年化波动为 8.11%，信息比率为 2.59，月度胜率为 77.48%，最大回撤为 6.76%。

为了后文对比不同因子在构建组合层面的效果，我们先用“日频连续”因子构建一个基础版的股票组合，具体以沪深 300 指数增强组合为例。若无特别说明，本文构建的沪深 300 指数增强组合，调仓频率均为月度，约束条件统一设定为：（1）指数成分股权重不低于 85%；（2）中信一级行业权重偏离不超过 1%；（3）个股权重偏离不超过 0.5%。 2016/01/01-2025/04/30，该组合的年化收益为 7.96%，相对沪深 300 指数的超额年化收益为 6.55%，跟踪误差为 4.17%，信息比率为 1.57，月度胜率为 65.77%，最大回撤为 4.09%。

分钟数据+连续性构建

本小节内容，我们基于分钟行情数据，用连续性的信息提取方式，构建量价相关性因子簇。=

我们把因子的构建流程分为 3 个步骤：（1）设计资金流指标：从数据来源、交易者结构、买卖方向等多个角度出发，提取订单簿数据中不同维度的信息，将逐笔数据降频为 1 分钟级别的资金流指标；（2）是否标准化：可以不对资金流指标做标准化，也可以将个股的资金流指标在同行业股票域内或者全市场股票域内进行截面标准化处理、剔除行业或者市场因素的影响；（3）计算因子：观测全天、或者聚焦日内不同时间段，计算资金流与收益率的相关系数、不同资金流指标互相之间的相关系数、单一资金流指标的自相关系数等，将 1 分钟资金流指标降频为日度因子值。批量生产因子之后，与 2.1 节中的因子筛选方法一致，我们保留其中有效、相关性相对较低的因子，得到“分钟连续量价相关性因子簇”，并将因子簇中的因子各自横截面标准化、等权合成，得到综合因子，记为“分钟连续”因子。

逐笔数据+连续性构建

在逐笔数据上、利用连续性的信息提取方式构建因子，能够生产的因子数量相对较少，因为在“量价指标设计”环节，我们无法仿照 2.2 节的内容，将逐笔数据聚合到分钟级别、构建多种多样的分钟特征。

本小节构建逐笔连续量价相关性因子的步骤如下：（1）设计逐笔量价指标：直接采用逐笔成交、逐笔委托、逐笔撤单的原始数据，可以利用的指标为量、价格、方向，因此共有 9 种量价指标。（2）计算相关性：可分为上述指标两两之间的相关性、或者单一指标的自相关性。对于两两指标互相之间的相关性，根据指标是否计算变化率、计算相关性时是否错位，可分为多种情况，共可计算 432 个因子；对于单一指标的自相关性，也可通过类似的分类讨论，构建 45 个因子。因此基于逐笔数据+连续性的构建方式，我们一共得到了 477 个量价相关性因子。

批量生产上述因子后，保留其中有效且相关性相对较低的因子，得到“逐笔连续量价相关性因子簇”。将因子簇中的因子各自横截面标准化、等权合成，得到综合因子，记为《“逐笔连续”因子。

“分钟连续”、“逐笔连续”因子的增量

前文基于不同频率的数据，构建了“日频连续”、“分钟连续”、“逐笔连续”因子，本小节内容考察“分钟连续”、“逐笔连续”因子相对于“日频连续”因子的增量。首先，我们将“分钟连续”、“逐笔连续”因子分别或者一起叠加到“日频连续”因子上，考察叠加后的因子回测效果。具体操作如下：（1）将“日频连续”、“分钟连续”因子各自横截面标准化、等权合成，得到“日频连续 +分钟连续”因子；（2）将“日频连续”、“逐笔连续”因子各自横截面标准化、等权合成，得到“日频连续 +逐笔连续”因子；（3）将“日频连续”、“分钟连续”、“逐笔连续”因子各自横截面标准化、等权合成，得到“日频连续+分钟连续+逐笔连续”因子。

我们可以得到以下结论：（1）对于单个因子而言，“分钟连续”因子的稳定性最强，年化 RankICIR 可以达到 4.28，全市场 10 分组多空对冲的信息比率为 3.34、月度胜率接近 90%；（2）对于叠加到“日频连续”因子上的增量效果来说，只叠加“分钟连续”或者“逐笔连续”因子的效果相差不大，相对于单个“日频连续”因子均有显著提升；（3）若将“分钟连续”、“逐笔连续”同时叠加到“日频连续”之上，则因子的效果可得到进一步提升，合成因子的月度 IC 均值为 0.087，年化 ICIR 为 3.40，月度 RankIC 均值为 0.117，年化 RankICIR 为 4.29；全市场 10 分组多空对冲的年化收益为 43.08%，年化波动为 12.12%，信息比率为 3.56，月度胜率为 88.29%，最大回撤为 9.11%。

接着，我们分别基于“日频连续+分钟连续”、“日频连续+逐笔连续”、“日频连续+分钟连续+逐笔连续”因子，构建沪深 300 指数增强组合，并与 2.1 节中基于“日频连续” 因子构建的组合进行对比。沪深 300 指数增强组合的调仓频率为月度，约束条件与 2.1 节中的内容一致：《（1）指数成分股权重不低于 85%；（2）中信一级行业权重偏离不超过 1%；（3）个股权重偏离不超过 0.5%。

可以发现，虽然从前文的检验结果来看，将“分钟连续”、“逐笔连续”叠加到“日频连续”上，因子的回测表现确有显著提升，但一旦落实到组合层面，“分钟连续”、“逐笔连续”因子能够提供的增量信息就变得非常有限。基于“日频连续+分钟连续”、“日频连续+逐笔连续”、“日频连续+分钟连续+逐笔连续”因子构建的沪深 300 指数增强组合，相对于仅用“日频连续”构建的组合，年化超额收益只能提升 0.5%-0.6% 左右。

2.离散化因子的构建方式

从本节内容开始，我们讨论离散化的因子构建方式。“离散化”，即在过去一段时间内，基于某些特征、抽取几个离散的时间点，只用与这些时间点相关的数据计算因子。本文构建的因子以“量价相关性类因子”为例，由于日频行情序列的数据点较少，若再进行离散化提取，则无法准确计算相关系数。因此，本节内容只对分钟数据、逐笔数据进行离散化处理，构建量价相关性因子。

分钟数据+离散化构建

如何在分钟数据层面构建离散化的因子，我们在本系列研究的前述报告《《《“量价淘金”选股因子系列研究（九）：Memory Map 在因子生产加速上的应用——以构建羊群效应因子簇为例》中已经做过讨论。该报告围绕“羊群效应”话题，提炼因子构建流程中的 3 个关键因素，分别进行了详细论述：（1）事件识别：如何识别趋势资金的行动。通过观测成交量、价格涨跌幅、价格波动率、量价相关性是否发生异常，得到了上千种不同的识别方式。（2）因子定义：如何刻画羊群效应的强弱。在“趋势资金有所行动”这一事件发生后，通过计算成交量、价格涨跌幅、价格波动率、量价相关性这些量价数据的本身数值、与趋势资金对应时点量价数据的相互关系、与趋势资金事件发生之前量价数据的相互关系，得到了上千种不同的因子构造方式。（3）数据频率：在何种数据频率上识别事件、定义因子。可用的数据集包括日频数据、分钟数据、逐笔数据、用逐笔数据合成的其他不同频率的数据集等等，我们可以在不同数据维度上识别趋势资金的行动、考察跟随者的交易行为。本节内容构建的分钟数据离散化因子，大致思路与系列报告（九）类似，也是将因子构建的流程分为事件识别、因子定义，在用逐笔数据降频得到的 1 分钟数据集上，进行因子的批量生产。其中，“事件识别”环节的内容，与系列报告（九）完全一致；“因子定义”环节，我们只构建量价相关性类因子。

批量生产上述因子后，我们进行与前文一致的有效性、相关性筛选，留下一簇有效且相关性相对较低的因子，称之为《“分钟离散量价相关性因子簇”。将因子簇中的因子各自横截面标准化、等权合成，得到综合因子，记为“分钟离散”因子。

逐笔数据+离散化构建

在逐笔数据层面进行离散化信息提取、构建因子的逻辑，与分钟层面类似，仍然是先识别量价数据发生异常的事件点，再用事件点附近的数据参与因子计算。但由于逐笔数据的处理耗时相对较长，因此关于事件的定义，我们只选取了“放量”，对于因子的计算，也暂时只考虑事件发生后、量价相关性的本身数值。

本小节构建逐笔离散量价相关性因子的步骤如下：（1）事件识别：将“逐笔成交、逐笔委托、逐笔撤单”对应的“整体的量、买的量、卖的量”，超过该股当日同类型数据 95%分位数的时间点，定义为事件发生，因此共有 9 种不同的事件识别方法。（2）因子定义：计算事件触发后，未来 20 笔数据对应的量价相关性指标。此部分内容与 2.3 节“逐笔连续量价相关性因子”的构建方式完全类似，共有 477 种不同的因子计算方法。（3）将上述事件识别与因子定义的方法两两搭配，一共构建了 4293 个“逐笔离散量价相关性因子”。

得到上述因子后，综合考察因子的有效性、相关性，筛选得到“逐笔离散量价相关性因子簇”。将因子簇中的因子各自横截面标准化、等权合成，记为“逐笔离散”因子。

“分钟离散”、“逐笔离散”因子的增量

前文构建了“分钟离散”、“逐笔离散”因子，本小节内容考察它们相对于第二节内容中连续性因子的增量。为了方便表述，我们将第二节中构建的“日频连续+分钟连续+逐笔连续”因子简称为“连续”因子，其蕴含了前文所有连续性因子的综合信息。首先，我们将“分钟离散”、“逐笔离散”因子分别或者一起叠加到“连续”因子上，考察叠加后的因子回测效果。具体操作如下：（1）将“连续”、“分钟离散”因子各自横截面标准化、等权合成，得到“连续+分钟离散”因子；（2）将《“连续”、“逐笔离散”因子各自横截面标准化、等权合成，得到“连续+逐笔离散”因子；（3）将《“连续”、“分钟离散”、“逐笔离散”因子各自横截面标准化、等权合成，得到“连续+分钟离散+逐笔离散”因子。

“连续”、“离散”、“连续+离散”因子的回测表现，可以得到以下结论：（1）对于单个因子而言，本节内容构建的“分钟离散”、“逐笔离散”因子，回测表现均弱于前文的“连续”因子；（2）将“分钟离散”、“逐笔离散”因子叠加到“连续”因子上，因子的 IC、RankIC 略有提升，但 ICIR、RankICIR、10 分组回测的绩效指标整体相差不大。如此看来，我们构建的离散化因子，能够提供的增量信息似乎非常有限。但在后文的指增组合效果检验中，我们将会看到不一样的景象。分别基于“连续+分钟离散”、“连续+逐笔离散”、“连续+分钟离散+逐笔离散”因子，构建沪深 300 指数增强组合，并与基于“连续”因子构建的组合进行对比。沪深 300 指数增强组合的调仓频率为月度，约束条件与前文一致：（1）指数成分股权重不低于 85%；（2）中信一级行业权重偏离不超过 1%；（3）个股权重偏离不超过 0.5%。

可以看到，离散化因子的检验结果，与第二节内容中连续性因子的检验结果完全相反。将“分钟离散”、“逐笔离散”叠加到“连续”因子上，因子的回测表现并没有得到明显提升，但落实到组合层面，离散化因子却能提供增量。基于“连续+分钟离散”、“连续+逐笔离散”、“连续+分钟离散+逐笔离散”因子构建的沪深 300 指数增强组合，相对于仅用“连续”因子构建的组合，超额年化收益、信息比率都能得到提升。其中，《“连续+逐笔离散”因子构建的组合绩效表现最强，相对基准指数的超额年化收益为 8.15%，跟踪误差为 3.81%，信息比率为 2.14，月度胜率为 75.68%，最大回撤为 4.27%；相较于只用“连续”因子构建的组合，超额年化收益的提升超过 1%。上述测试结果有力地论证了本文开篇提出的观点，即用离散化方式构建的选股因子，尤其是在逐笔数据层面的离散化，即使从因子回测效果上、未必能显著优于传统的连续性因子，但落实到组合层面，往往能够提供连续性因子以外的增量信息，提升组合的收益与稳定性，由此可见“高频数据+离散化构建方式”在因子研究中的重要性。

参考报告

“量价淘金”选股因子系列研究：“高频数据+离散化构建方式”在因子研究中的重要性.pdf
- 查看报告