近年来,市场对量价数据的探索在颗粒度上不断深入,从最开始的日度行情数据到分钟级、秒级别数据再到逐笔成交数据,数据频率的提升帮助研究者们捕捉到股票更多量与价的细节,进而抽丝剥茧地了解股票行情数据形成背后的交易者结构特征及其交易意图。本文,我们将根据逐笔成交数据构建Alpha 因子,为了后续行文的方便,我们先对本文使用的数据结构和特征进行介绍。
逐笔成交数据介绍
逐笔成交数据,作为颗粒度最细的数据,记录了集合竞价和连续竞价撮合成功的每一笔成交记录,是一切行情数据产生的源头。逐笔成交数据记录了每笔成交的数量、价格、时间信息以及本次成交涉及的买卖双方的订单数量、价格信息。如表 1 所示,本文使用的逐笔成交数据主要包含 12 个条目,其中对于同一只股票而言,其交易流水号是每一笔成交记录的唯一标识,因此所有交易流水号不重复。在 2023 年 10 月 31 日的几笔交易数据为例,对逐笔数据的定义进行阐述。为了便于后文对相关概念的理解,我们进行如下定义:
一笔成交:是指由买卖双方共同撮合的一笔交易记录;
一笔订单:同一个委买 ID(或委卖 ID)表示相同的一笔买单(或卖单)。同一笔订单仅代表同一个投资者在同一时间下达的订单,若同一个投资者在不同时间下达多笔订单,则会采用不同的委托 ID 进行表示。

由于连续竞价阶段的订单成交遵循“价格优先、时间优先”规则,因此随着盘口价格的不断变化,同一笔订单可能会跟多个对手方进行交易、同一笔订单分成多笔成交才完成交易的情况。
作为颗粒度最细的数据,逐笔成交数据能够为研究者提供丰富的交易信息,其明细数据蕴含着最原始的交易细节。在国信金工团队高频数据系列的过往研究中,我们从委买订单和委卖订单的特征着手,基于订单大小、成交时长、主动买卖方向等特征将每一笔成交记录划分为不同的类型,并将相同类型的成交记录进行汇总,构建了成交量占比因子,样本内外表现较为优异。本文,我们继续以逐笔成交数据为底层数据进行展开,根据逐笔成交数据在不同时间窗口进行聚合,还原得到不同频率下(如 1 分钟、5 分钟等)的分钟行情数据。在业界研究中,分钟行情数据由于其数据格式规整、数据量适中、获取相对便捷等优势,成为量化投资者对高频数据进行研究时使用最为广泛的数据之一。
国信金工高频数据系列研究回顾:成交量占比因子构建
在国信金工团队 2024 年 1 月 8 日发布的专题研究报告《高频订单成交数据蕴含的 Alpha 信息》、2024 年 8 月 16 日发布的专题研究报告《基于主动买卖特征的高频订单因子改进》中,我们从订单大小、成交时长、主动买卖方向等维度对高频订单所蕴含的 Alpha 信息进行了重点考察。
基于订单特征构建的成交量占比因子以日内全部成交记录为样本进行考察,试图捕捉知情交易者的交易动向。然而,有没有其他维度对主力资金的交易动向进行刻画?不同时刻、不同情景下的订单是否具有不同的信息含量?在对高频订单成交数据进行研究时,这些问题引起了我们的思考。作为国信金工团队高频因子研究系列的第三篇专题报告,本文我们通过构建标准化笔均成交金额因子(Standard Amount To DealNum,后续统一简写为SATD)来捕捉主力资金的交易动向。此外,如何寻找到这些“特殊的、具有较多信息含量”的时刻,也成为本文关注的焦点。
主力资金的行为刻画:标准化笔均成交金额因子(SATD)
在高频数据的研究领域中,主力资金的行为动向一直是研究者试图捕捉的重要信息。通常来讲,我们认为主力资金具有资金优势和信息优势,因此其交易动向对股价未来的走势具有更强的预测作用。 康琦等(2025)在《主力资金异象和投资者信息博弈》中提到:中美市场投资者结构的差异导致投资者信息博弈均衡结果的不同。美国市场以机构投资者为主,博弈主要发生在信息优势相当的机构投资者之间,因此机构投资者的最优策略是将大单拆分,以尽可能隐藏交易动机。相反,A 股市场以散户投资者为主,信息博弈发生在机构投资者和散户投资者之间,这可能导致机构投资者使用大单向散户投资者传递信息优势,散户投资者则选择跟随机构投资者的均衡结果。
基于股价涨跌的主力资金行为刻画
我们首先针对日内分钟收益率进行分析,考察股价在上涨、下跌及横盘时刻主力资金的行为动向。具体来讲,我们首先根据分钟收盘价数据计算每分钟的涨跌幅,并将其划分为上涨时刻、下跌时刻和横盘时刻。
不同下跌幅度下的主力资金行为刻画
由上一小节可知,在股价下跌时刻,笔均成交金额越高,股价未来的表现越好。若以笔均成交金额作为主力资金交易行为的刻画,其背后的逻辑或可以理解为在下跌时刻主力资金的“抄底行为”。然而,在前述分析过程中,我们仅对股价是否上涨或下跌进行划分,却并未涉及到股价上涨或下跌幅度的判断。
引入逐笔成交记录主动买卖方向改进SATD因子
到目前为止,我们根据每分钟的涨跌幅度进行划分,构建了“跌幅最大时刻SATD”因子,从因子表现来看其对个股未来收益具有较好的预测效果。然而,每一笔交易都是由买卖双方共同撮合的结果,该笔成交的促成到底是由买方订单主动发起还是由卖方订单主动发起,同样蕴含着重要的信息,而这一信息在分钟数据中无法完全体现。基于此,我们尝试采用颗粒度更细、信息含量更高的逐笔成交数据对SATD因子进行改进。
基于股价高低的主力资金交易行为刻画
在上一小节中,我们根据日内分钟涨跌幅大小进行了划分,发现横盘时刻主买SATD因子、跌幅最大时刻主卖SATD因子对个股未来收益具有明显的预测作用。本部分,我们从股价高低角度着手,考察股价最低时刻构建的SATD因子有效性。

引入逐笔成交记录主动买卖方向改进SATD因子
我们引入逐笔成交数据中的主动买卖方向对基于股价高低的SATD因子进行改进。具体来讲: 首先根据分钟收盘价排序,选择收盘价最低的10%分钟作为样本进行考察; 随后,将该区间内的所有成交记录划分为主动买入和主动卖出两类; 最后,计算主动买入或主动卖出成交记录的笔均成交金额,除以全天笔均成交金额,得到主买SATD或主卖SATD因子。
在前面的两个部分,我们分别从股价相对变化和绝对高低两个维度出发,对市场的不同状态进行区分。事实上,我们还可以从其他特征维度对市场不同时刻的信息进行衡量,在本小节中,我们围绕不同时刻的市场成交热度展开讨论。
基于成交热度的主力资金交易行为刻画
我们根据每分钟的成交量从低到高进行排序,筛选出成交量最高和最低的N%时刻,计算其笔均成交金额,随后除以全天的笔均成交金额,构建SATD因子,其结果如表 12 所示。可以看到: 基于成交量最高的 N%时刻构建的SATD因子,对股价未来的收益具有较为明显的正向预测能力; 基于成交量最低的 N%时刻构建的SATD因子,对股价未来的收益具有较为明显的负向预测能力。 从因子稳定性及多头月均超额收益来看,基于成交热度较高的时刻构建的SATD因子对个股未来收益的预测效果更好。
到目前为止,我们从股价涨跌、股价高低、成交热度等多个维度对日内时刻进行了划分,本小节我们关注股价高低与成交热度之间的相关性,通过寻找日内“量价背离”时间段,对日内时刻进行划分。 通常来讲,股票价格与成交量呈现出一定的正相关关系,当二者之间的变化趋势呈现出负向关系时,即出现了技术分析中的“量价背离”现象,其中“缩量上涨”和“放量下跌”是两种常见的“量价背离”。当股票价格出现上涨时,股票成交量如果非但未增反而出现下降,这可能表明广大投资者并不认同当前价位,后面可能存在卖空压力。同样的,当股票价格出现下跌时,股票成交量出现大涨,这可能表明投资者受到市场情绪影响出现“恐慌式”抛售,也可能是前期获利筹码止盈出逃。总体来看,“量价背离”意味着市场投资者对当前价格的看法出现分歧,这种时刻隐藏着较多的信息含量。
不同特殊时刻下的SATD因子相关性
由前述分析可知,基于股价涨跌、股价高低、成交热度及量价背离构建的主动买卖SATD因子对个股未来收益都具有较为明显的区分效果。这些因子在构造过程中都采用的是SATD的方式,仅特殊时刻的划分标准存在区别,因此互相之间包含的信息可能具有一定的相似性。 为了对五个因子之间的相关性进行考察,表 20 展示了不同特殊时刻下主动买卖SATD因子值的相关系数,整体来看,不同因子的因子值和RankIC走势均展现出较高的相关关系。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)