在逐笔数据层面进行离散化信息提取、构建因子的逻辑,与分钟层面类似,仍然是先识 别量价数据发生异常的事件点,再用事件点附近的数据参与因子计算。
日频数据+连续性构建
本文以量价因子中常见的“量价相关性类因子”为例,先用日频行情数据,构建一个量 价相关性因子簇,作为后续因子的比较基准。特别说明,由于日频行情序列的数据点较 少,若再进行离散化提取,则计算两个序列相关系数的误差较大,因此对于日频数据, 本文不构建离散化的量价相关性因子,只构建连续性因子。 本小节构建量价相关性类因子的步骤如下: (1)设计日度量价指标:日度量价数据,可从 wind 数据库中直接提取,本文用到的数 据包括个股每日的开盘价、最高价、最低价、收盘价、成交量、成交金额、成交笔数、 VWAP、大小单相关指标。其中,大小单相关指标,可分为 3 个维度,“超大单、大单、 中单、小单”,“买入、卖出、买入+卖出、买入-卖出”,“成交量、成交金额、成交笔数”, 这 3 个维度互相搭配,可产生 48 种不同的大小单指标。因此,通过这 一步骤,我们一共得到了 56 种日度量价指标。 (2)计算相关性:可分为上述指标两两之间的相关性、或者单一指标的自相关性。对于 两两指标互相之间的相关性,根据指标是否计算变化率、计算相关性时是否错位,可分 为多种情况,共可计算 18480 个因子;对于单一指标的自相关性,也可 通过类似的分类讨论,构建 280 个因子。因此基于日频数据,我们一共得到了 18760 个 量价相关性类因子。
对于上述因子,我们通过进一步筛选,保留有效且相关性较低的因子,得到“日频量价 相关性因子簇”(若无特别说明,本文在批量构建因子后,均通过下述操作进行因子筛选): (1)在时间段 2016/01/01-2018/12/31 内,综合考虑因子的 IC、ICIR、10 分组多头超 额收益、10 分组多头超额收益的信息比率以及因子互相之间的相关性,挑选效果较优且 相关性较低的因子; (2)对于挑选出的因子,再考虑它们 2019/01/01-2021/12/31 的 IC、ICIR、10 分组多 头超额收益、10 分组多头超额收益的信息比率以及因子互相之间的相关性,进一步挑选 其中效果较优且相关性较低的因子,称之为基于日频数据构建的量价相关性因子簇 (2022 年开始即为样本外)。 随后,我们将因子簇中保留的因子各自横截面标准化、进行等权合成,得到综合因子, 为了方便表述,将其简称为“日频连续”因子。回测时间段 2016/01/01- 2025/04/30 内,以全体 A 股为研究样本,该因子的月度 IC 均值为 0.047,年化 ICIR 为 2.36,月度 RankIC 均值为 0.078,年化 RankICIR 为 3.45;10 分组多空对冲的年化收益 为 20.99%,年化波动为 8.11%,信息比率为 2.59,月度胜率为 77.48%,最大回撤为 6.76%。
为了后文对比不同因子在构建组合层面的效果,我们先用“日频连续”因子构建一个基 础版的股票组合,具体以沪深 300 指数增强组合为例。若无特别说明,本文构建的沪深 300 指数增强组合,调仓频率均为月度,约束条件统一设定为:(1)指数成分股权重不 低于 85%;(2)中信一级行业权重偏离不超过 1%;(3)个股权重偏离不超过 0.5%。 2016/01/01-2025/04/30,该组合的年化收益为 7.96%,相对沪深 300 指数的超额年化 收益为 6.55%,跟踪误差为 4.17%,信息比率为 1.57,月度胜率为 65.77%,最大回撤 为 4.09%。
分钟数据+连续性构建
本小节内容,我们基于分钟行情数据,用连续性的信息提取方式,构建量价相关性因子 簇。=

我们把因子的构建流程分为 3 个步骤: (1)设计资金流指标:从数据来源、交易者结构、买卖方向等多个角度出发,提取订单 簿数据中不同维度的信息,将逐笔数据降频为 1 分钟级别的资金流指标;(2)是否标准化:可以不对资金流指标做标准化,也可以将个股的资金流指标在同行业 股票域内或者全市场股票域内进行截面标准化处理、剔除行业或者市场因素的影响; (3)计算因子:观测全天、或者聚焦日内不同时间段,计算资金流与收益率的相关系数、 不同资金流指标互相之间的相关系数、单一资金流指标的自相关系数等,将 1 分钟资金 流指标降频为日度因子值。 批量生产因子之后,与 2.1 节中的因子筛选方法一致,我们保留其中有效、相关性相对 较低的因子,得到“分钟连续量价相关性因子簇”,并将因子簇中的因子各自横截面标准 化、等权合成,得到综合因子,记为“分钟连续”因子。
逐笔数据+连续性构建
在逐笔数据上、利用连续性的信息提取方式构建因子,能够生产的因子数量相对较少, 因为在“量价指标设计”环节,我们无法仿照 2.2 节的内容,将逐笔数据聚合到分钟级 别、构建多种多样的分钟特征。
本小节构建逐笔连续量价相关性因子的步骤如下: (1)设计逐笔量价指标:直接采用逐笔成交、逐笔委托、逐笔撤单的原始数据,可以利 用的指标为量、价格、方向,因此共有 9 种量价指标。 (2)计算相关性:可分为上述指标两两之间的相关性、或者单一指标的自相关性。对于 两两指标互相之间的相关性,根据指标是否计算变化率、计算相关性时是否错位,可分 为多种情况,共可计算 432 个因子;对于单一指标的自相关性,也可通过类似的分类讨 论,构建 45 个因子。因此基于逐笔数据+连续性的构建方式,我们一共得到了 477 个量 价相关性因子。
批量生产上述因子后,保留其中有效且相关性相对较低的因子,得到“逐笔连续量价相 关性因子簇”。将因子簇中的因子各自横截面标准化、等权合成,得到综合因子,记为《“逐 笔连续”因子。
“分钟连续”、“逐笔连续”因子的增量
前文基于不同频率的数据,构建了“日频连续”、“分钟连续”、“逐笔连续”因子,本小 节内容考察“分钟连续”、“逐笔连续”因子相对于“日频连续”因子的增量。 首先,我们将“分钟连续”、“逐笔连续”因子分别或者一起叠加到“日频连续”因子上, 考察叠加后的因子回测效果。具体操作如下: (1)将“日频连续”、“分钟连续”因子各自横截面标准化、等权合成,得到“日频连续 +分钟连续”因子; (2)将“日频连续”、“逐笔连续”因子各自横截面标准化、等权合成,得到“日频连续 +逐笔连续”因子; (3)将“日频连续”、“分钟连续”、“逐笔连续”因子各自横截面标准化、等权合成,得 到“日频连续+分钟连续+逐笔连续”因子。
我们可以得到以下结论: (1)对于单个因子而言,“分钟连续”因子的稳定性最强,年化 RankICIR 可以达到 4.28, 全市场 10 分组多空对冲的信息比率为 3.34、月度胜率接近 90%; (2)对于叠加到“日频连续”因子上的增量效果来说,只叠加“分钟连续”或者“逐笔 连续”因子的效果相差不大,相对于单个“日频连续”因子均有显著提升; (3)若将“分钟连续”、“逐笔连续”同时叠加到“日频连续”之上,则因子的效果可得 到进一步提升,合成因子的月度 IC 均值为 0.087,年化 ICIR 为 3.40,月度 RankIC 均值 为 0.117,年化 RankICIR 为 4.29;全市场 10 分组多空对冲的年化收益为 43.08%,年 化波动为 12.12%,信息比率为 3.56,月度胜率为 88.29%,最大回撤为 9.11%。
接着,我们分别基于“日频连续+分钟连续”、“日频连续+逐笔连续”、“日频连续+分钟 连续+逐笔连续”因子,构建沪深 300 指数增强组合,并与 2.1 节中基于“日频连续” 因子构建的组合进行对比。沪深 300 指数增强组合的调仓频率为月度,约束条件与 2.1 节中的内容一致:《(1)指数成分股权重不低于 85%;(2)中信一级行业权重偏离不超过 1%;(3)个股权重偏离不超过 0.5%。
可以发现,虽然从前文的检验结果来看,将“分钟连续”、“逐笔连续”叠加到“日频连 续”上,因子的回测表现确有显著提升,但一旦落实到组合层面,“分钟连续”、“逐笔连 续”因子能够提供的增量信息就变得非常有限。基于“日频连续+分钟连 续”、“日频连续+逐笔连续”、“日频连续+分钟连续+逐笔连续”因子构建的沪深 300 指 数增强组合,相对于仅用“日频连续”构建的组合,年化超额收益只能提升 0.5%-0.6% 左右。
从本节内容开始,我们讨论离散化的因子构建方式。“离散化”,即在过去一段时间内, 基于某些特征、抽取几个离散的时间点,只用与这些时间点相关的数据计算因子。本文 构建的因子以“量价相关性类因子”为例,由于日频行情序列的数 据点较少,若再进行离散化提取,则无法准确计算相关系数。因此,本节内容只对分钟 数据、逐笔数据进行离散化处理,构建量价相关性因子。
分钟数据+离散化构建
如何在分钟数据层面构建离散化的因子,我们在本系列研究的前述报告《《《“量价淘金”选 股因子系列研究(九):Memory Map 在因子生产加速上的应用——以构建羊群效应因子 簇为例》中已经做过讨论。该报告围绕“羊群效应”话题,提炼因子构建流程中的 3 个 关键因素,分别进行了详细论述: (1)事件识别:如何识别趋势资金的行动。通过观测成交量、价格涨跌幅、价格波动率、 量价相关性是否发生异常,得到了上千种不同的识别方式。 (2)因子定义:如何刻画羊群效应的强弱。在“趋势资金有所行动”这一事件发生后, 通过计算成交量、价格涨跌幅、价格波动率、量价相关性这些量价数据的本身数值、与 趋势资金对应时点量价数据的相互关系、与趋势资金事件发生之前量价数据的相互关系, 得到了上千种不同的因子构造方式。 (3)数据频率:在何种数据频率上识别事件、定义因子。可用的数据集包括日频数据、 分钟数据、逐笔数据、用逐笔数据合成的其他不同频率的数据集等等,我们可以在不同 数据维度上识别趋势资金的行动、考察跟随者的交易行为。 本节内容构建的分钟数据离散化因子,大致思路与系列报告(九)类 似,也是将因子构建的流程分为事件识别、因子定义,在用逐笔数据降频得到的 1 分钟 数据集上,进行因子的批量生产。其中,“事件识别”环节的内容,与系列报告(九) 完全一致;“因子定义”环节,我们只构建量价相关性类因子。

批量生产上述因子后,我们进行与前文一致的有效性、相关性筛选,留下一簇有效且相 关性相对较低的因子,称之为《“分钟离散量价相关性因子簇”。将因子簇中的因子各自横 截面标准化、等权合成,得到综合因子,记为“分钟离散”因子。
逐笔数据+离散化构建
在逐笔数据层面进行离散化信息提取、构建因子的逻辑,与分钟层面类似,仍然是先识 别量价数据发生异常的事件点,再用事件点附近的数据参与因子计算。但由于逐笔数据 的处理耗时相对较长,因此关于事件的定义,我们只选取了“放量”,对于因子的计算, 也暂时只考虑事件发生后、量价相关性的本身数值。
本小节构建逐笔离散量价相关性因子的步骤如下: (1)事件识别:将“逐笔成交、逐笔委托、逐笔撤单”对应的“整体的量、买的量、卖 的量”,超过该股当日同类型数据 95%分位数的时间点,定义为事件发生,因此共有 9 种 不同的事件识别方法。 (2)因子定义:计算事件触发后,未来 20 笔数据对应的量价相关性指标。此部分内容 与 2.3 节“逐笔连续量价相关性因子”的构建方式完全类似,共有 477 种不同的因子计 算方法。 (3)将上述事件识别与因子定义的方法两两搭配,一共构建了 4293 个“逐笔离散量价 相关性因子”。
得到上述因子后,综合考察因子的有效性、相关性,筛选得到“逐笔离散量价相关性因 子簇”。将因子簇中的因子各自横截面标准化、等权合成,记为“逐笔离散”因子。
“分钟离散”、“逐笔离散”因子的增量
前文构建了“分钟离散”、“逐笔离散”因子,本小节内容考察它们相对于第二节内容中 连续性因子的增量。为了方便表述,我们将第二节中构建的“日频连续+分钟连续+逐笔 连续”因子简称为“连续”因子,其蕴含了前文所有连续性因子的综合信息。 首先,我们将“分钟离散”、“逐笔离散”因子分别或者一起叠加到“连续”因子上,考 察叠加后的因子回测效果。具体操作如下: (1)将“连续”、“分钟离散”因子各自横截面标准化、等权合成,得到“连续+分钟离 散”因子; (2)将《“连续”、“逐笔离散”因子各自横截面标准化、等权合成,得到“连续+逐笔离 散”因子; (3)将《“连续”、“分钟离散”、“逐笔离散”因子各自横截面标准化、等权合成,得到“连 续+分钟离散+逐笔离散”因子。
“连续”、“离散”、“连续+离散”因子的回测表现,可以得到以下结论: (1)对于单个因子而言,本节内容构建的“分钟离散”、“逐笔离散”因子,回测表现均 弱于前文的“连续”因子; (2)将“分钟离散”、“逐笔离散”因子叠加到“连续”因子上,因子的 IC、RankIC 略 有提升,但 ICIR、RankICIR、10 分组回测的绩效指标整体相差不大。 如此看来,我们构建的离散化因子,能够提供的增量信息似乎非常有限。但在后文的指 增组合效果检验中,我们将会看到不一样的景象。 分别基于“连续+分钟离散”、“连续+逐笔离散”、“连续+分钟离散+逐笔离散”因子, 构建沪深 300 指数增强组合,并与基于“连续”因子构建的组合进行对比。沪深 300 指 数增强组合的调仓频率为月度,约束条件与前文一致:(1)指数成分股权重不低于 85%; (2)中信一级行业权重偏离不超过 1%;(3)个股权重偏离不超过 0.5%。

可以看到,离散化因子的检验结果,与第二节内容中连续性因子的检验结果完全相反。 将“分钟离散”、“逐笔离散”叠加到“连续”因子上,因子的回测 表现并没有得到明显提升,但落实到组合层面,离散化因子却能提供增量。基于“连续+分钟离散”、“连续+逐笔离散”、“连续+分钟离散+逐笔离散”因子构建的 沪深 300 指数增强组合,相对于仅用“连续”因子构建的组合,超额年化收益、信息比 率都能得到提升。其中,《“连续+逐笔离散”因子构建的组合绩效表现最强,相对基准指 数的超额年化收益为 8.15%,跟踪误差为 3.81%,信息比率为 2.14,月度胜率为 75.68%, 最大回撤为 4.27%;相较于只用“连续”因子构建的组合,超额年化收益的提升超过 1%。 上述测试结果有力地论证了本文开篇提出的观点,即用离散化方式构建的选股因子,尤 其是在逐笔数据层面的离散化,即使从因子回测效果上、未必能显著优于传统的连续性 因子,但落实到组合层面,往往能够提供连续性因子以外的增量信息,提升组合的收益 与稳定性,由此可见“高频数据+离散化构建方式”在因子研究中的重要性。