2022年股票分析方法 地理关联度因子分析

一、因子挖掘思考

(一)高频信息

近年来,A股市场机构化趋势明显,量化私募机构的管理规模也迅速扩大,产生 了一批管理规模超过百亿的量化私募机构。与此同时,传统的风格因子波动增大, 从市场获取超额收益的难度在增加。 因子拥挤是因子收益下降的原因之一。因子代表着市场某方面的非有效性、或 者是一段时期内的定价失效。当某类因子收益高的时候,会吸引更多的资金进入, 从而出现因子拥挤,降低因子的预期收益。一旦新的因子被公开,套利资金的介入 会使得错误定价收窄,因子收益也会跟着下降。因此,在多因子选股模型中,因子 的开发和更新迭代变得越来越重要。

与低频因子相比,高频数据在用于量化投资中存在一定优势。 首先,高频价量数据的体量明显大于低频数据。以分钟行情为例,用压缩效果 较好的mat格式存储2020年全市场股票的分钟行情数据(包括分钟频的开高低收价 格数据、买卖盘挂单数据等),约为12GB。如果是快照行情(目前上交所和深交所 都是3秒一笔)或者level 2行情,数据量要大很多。因此,高频数据因子挖掘对信息 处理能力和处理效率的要求较高。而且,日内数据,尤其是level 2数据,一般要额 外付费,甚至需要自行下载存储实时行情,在此基础上构建的因子拥挤度较低。 其次,高频价量数据一般是多维的时间序列数据,数据中噪声比例较高,而且 与ROE、PE这类低频指标本身就具有选股能力不同的是,原始的高频行情数据一般 不能直接用作选股因子,而要通过信号变换、时间序列分析、机器学习等方法从高 频数据中构建特征,才能作为选股因子。此类因子与低频信号的相关性较低,而且 由于因子开发流程相对复杂,不同投资者构建的因子更具有多样性。

此外,高频数据开发的因子一般调仓周期较短,意味着在检验因子有效性的时 候,同一段测试期具有更多的独立样本。例如,在一年的测试期内,只有12个独立 的样本段用于检验月频调仓的因子,与之相比,有约50个独立的时段用于检验周频 调仓因子,有超过240个独立的时段用于检验日频调仓的因子。独立样本的增多有助 于检验高频因子的有效性。 高频数据挖掘因子的难点在于数据维度大、噪声高。凭借专业投资者的经验或 者是参阅已发表的文献,可以从高频数据中提炼出一部分有选股能力的特征。此外, 机器学习方法擅长从数据中寻找规律和特征,是高频数据因子挖掘的有力工具。

(二)低频信息

以传统日频价量和更低频财务数据为基础的因子开发是一种研究途径。由于基 础因子广为人知,在此基础上进行因子挖掘的收益提升空间相对有限。而且日频数 据由于本身的数据量和信息量有限,过度挖掘会增大过拟合的风险。 对于低频信息的挖掘,从最近几年的进展上看,低频里的增量信息成果越来越 少。从数据维度上看,低频的因子建模更多是从一些另类数据或者是新的方法、理 论成果中出发构建相关的因子。如另类数据角度,从互联网中的股吧、新闻、关注 度等角度,或者是专利数据、供应链相关数据等。新的理论成果如从图网络等角度 出发构建相关的因子。 本篇专题报告基于个股的“关联度”角度出发,研究个股所在区域关联度角度构 建因子。

二、关联度因子研究进展

(一)关联度因子的理论研究进展

传统的有效市场假说认为,在完全有效的金融市场上,价格能够及时、充分反 映资产的所有公开信息以及私有信息。但是,Kalok等(2005)[3]、刘菁哲(2010) [12]等 众多学者通过实证研究发现,股票市场中存在着“领先滞后效应”,即不同公司对 相同基本面信息的反应速度存在差异,一些公司能够迅速对新信息做出反应,另一 些公司对于新信息的反应存在时滞。 本报告对国内外学者基于行业关联、科技关联、供应链关联、地理关联信息的 “领先滞后效应”研究成果进行了简单梳理。对于行业关联信息,Cohen和 Lou(2012) [5]实证检验了,面对影响全行业的信息事件,单一经营部门公司的股价能 够更迅速的反映新信息,同时对于多经营部门公司未来股票收益存在显著预测能力。 胡聪慧等(2015)[10]采用A股上市公司数据验证了这一结论,并证实了集团公司股价变 动的滞后性主要在于投资者关注度与处理能力有限性,以及行业估值的复杂性。向 诚等(2018) [13]实证说明了行业内受关注度最高的30%公司组合的收益率,显著引领 受关注度最低30%公司组合的未来收益率。段丙蕾等(2022)[9]认为行业关联回报率仅在月度层面显著,在周度层面不显著。同时,Parsons和Sabbatucci(2018)[1]对于行 业关联公司的收益预测能力的有效性提出质疑。他们认为,随着证券分析师覆盖率 不断提升,股票价格的有效性增强;随着个股证券分析师重复率上升,股票价格反 映的行业一致预期信息越多,因此基于行业关联构建的股票投资策略效果可能衰减。

对于科技关联信息,Lee等(2019)[6]构建科技关联指标并进行实证分析,研究结 论表明科技关联企业的收益对研究企业的收益具有很强的预测能力。国内学者借鉴 Lee等(2019) [6]的科技关联指标构建方法,研究该指标在我国股票市场的适用性。李 绪泉等(2020)[11]的实证分析结果说明,A股市场存在科技溢出效应。段丙蕾等(2022) [9] 进一步证明了科技关联因子仅在周度上具有显著收益预测能力,认为造成这一结果 的原因在于A股市场中存在较多博彩倾向的散户投资者,该类投资者追涨杀跌的交易 行为缩短了科技关联信息融入股价所需的时间。 对于供应链关联信息,Cohen和Frazzini(2008) [4]、Menzly和Ozbas(2010)[7]验 证了公司客户信息能够有效预测公司未来股票收益。国内学者对于供应链关联相关 研究相对较少,现有的研究成果也未提供在控制变量基础上,供应链关联能够有效 预测股票收益的证据(段丙蕾等, 2022)[9]。

对于地理关联信息,Peng和Lin在其发表论文《Investor Attention, Overconfidence, and Category Learning》(Journal of Financial Economics, 2006)[8] 中提出,总部位于同一地理区位的公司,会受到相同基本面因素的影响,从而这些 公司股价都会对新信息作出反应。基于这一研究思路,Parsons和Sabbatucci在其发 表论文《Geographic Lead-Lag Effects》(The Review of Financial Studies,2018)[1] 中提出地理关联公司的概念,具体指与研究个股处于相同地理区位不同行业的所有 上市公司。认为地理关联公司股票与目标股票的价格变动存在领先滞后关系(本文 将此关系简称为地理关联度),前者对后者未来收益具有预测能力。并且采用面板 数据回归方法,实证检验了这一结论。研究结果表明:(1)在控制行业影响基础上, 地理关联公司的基本面因素(EPS、销售收入、雇员数量等)变动对目标股票的基 本面变动具有显著的解释能力。(2)地理关联公司股票的平均收益对目标股票未来 收益具有显著的预测能力,地理关联公司股票的平均收益越高,目标股票未来收益 越高。(3)由于证券分析师通常是基于行业而非省份分类的,因此,共同分析师覆 盖率提升并不会导致地理关联度的领先滞后关系减弱甚至消失。 综上所述,一方面,与个股自身的动量效应或反转效应相比,地理关联度能够 从股票之间的地理关联中挖掘增量信息。另一方面,与其他股票经济关联特征相比, 地理关联信息对股票收益的预测能力虽然已在海外市场得到验证,但尚未应用于A 股市场。这为本文通过新的经济关联特征挖掘因子提供了新思路。

(二)地理关联度与 A 股市场的关系

为探索地理关联度是否适合在A股市场进行实证研究,本报告首先对31个省及 自治区行政区内的上市公司数量、数量增长率以及股票月均收益情况进行统计。受 篇幅限制,仅对上市公司数量排名前5的省及直辖市(广东省、浙江省、江苏省、北 京、上海)统计结果进行展示。

(三)地理关联度初步实证结果与改进

本报告借鉴Parsons和Sabbatucci在《Geographic Lead-Lag Effects》(The Review of Financial Studies, 2018)[1]中的指标构建方法,对于某支股票而言,将与 之属于相同省份不同行业的所有股票的月度收益均值作为这支股票的月度地理关联 度因子。参考上述论文中地理关联度分析思路:当某支股票的地理关联度因子越大 时,反映出这支股票的地理关联公司股票收益平均水平越高。如果这支股票对新信 息的反应速度相对滞后,那么这支股票很可能在未来一段时间内会由于基本面改善 信息而表现为股价上涨。因此,地理关联度因子的投资策略为:在每个换仓日中, 根据地理关联度因子值大小,在调仓日买进地理关联度最大的股票,同时卖出地理 关联度最小的股票。 本报告在全市场选股范围内,对20100101-20220630区间的地理关联度因子进 行月度调仓的回溯测试。实证结果表明,地理关联度因子在A股市场的选股逻辑与上述论文中阐述的逻辑相反:因子值越小,股票未来收益越高。因子的整体IC均值为 -0.024,正IC占比34.67%。地理关联度因子在多头相对中证500指数策略的表现较 差,策略整体年化收益率7.52%,信息比率0.832,最大回撤17.65%。

由于地理关联度因子在A股市场表现欠佳,本报告对该因子构建方法进行分析并 提出因子改进思路。在地理关联度因子构建方法中,仅利用地理关联公司与研究个 股归属于同一省级行政区这一特征,但未能反映地理关联公司与研究个股在股价变 动上的关联程度。本报告综合考虑上述两点,在考虑股票地理特征的同时,进一步 从时序角度考虑地理关联公司与研究个股在过去一段时间内价格变动的相关程度, 构建地理相关系数因子()及其优化因子,并探讨这类因子在A股的有效 性。

三、地理关联度因子构造方法与策略框架

(一)因子构造方法

根据上述地理关联度研究得出的初步结论,本篇专题报告构建6种地理相关系数 类因子,具体的因子定义、构造逻辑与计算方法如下。

1. 地理相关系数因子

本篇报告定义地理相关系数因子(),用以度量个股与其地理关联公 司股票之间的整体相关程度,具体由个股和地理关联公司股票相关系数均值表示。 以股票在月月末的地理相关系数因子为例,具体计算方式如下。首先,在全 市场范围剔除月的股、 ∗ 股、停牌股以及上市不满一年的股票;其次,筛选出 与股票办公地所属省份相同、申万一级行业不同的全部共支股票,并分别计算与 股票在月日频收益序列的皮尔森相关系数,即,,。最后,对所有相关系数进 行加权求和(若不做特殊说明,,均设置为1/,即等权),得到股票在月月末换仓 日的地理相关系数因子,。

2. 地理相关系数变动因子

为研究个股与地理关联公司股票的相关程度变动,是否影响地理关联特征对个 股的收益预测能力,本报告定义地理相关系数变动因子(),用以度 量个股与关联公司股票整体相关程度的变动情况。 以股票在期的因子为例,具体计算方式如下。首先,按照地理相关系数的计 算方式,分别计算股票与股票的月日频收益序列的相关系数,,、两者在 − 2 至月共3个月的日频收益序列的相关系数,,−2,;其次,对任意股票,计算1 月相关系数与3个月相关系数的差值,衡量股票与股票之间相关性变动程度;最后, 对个股票的相关系数差值进行加权求和,得到股票在月月末的地理相关系数变 动因子,。

3. 地理相关系数拆解因子

Bollerslev等(2022) [2]在发表论文《Realized semibetas: Disentangling “good” and “bad” downside risks》(Journal of Financial Economics)中,根据市场收益与资 产收益序列的符号将传统市场贝塔拆分为四个半贝塔,并实证说明了基于负市场收 益与负资产收益序列协方差构建的半贝塔与资产未来收益显著正相关,基于负市场 收益与正资产收益序列协方差构建的半贝塔与资产未来收益显著负相关。这一结论 对本报告的启示在于:基于不同数值方向收益序列构建的相关系数,可能蕴含的信 息量也存在差异。因此,本报告将股票与股票的收益序列进行拆分,并定义四种具 体的地理相关系数拆解因子(、、与 ),用以度量个股与地理关联公司股票的调整后收益序列的相关程度。

(二)因子特征分析

在构建具体的因子投资策略前,本报告先对地理相关系数因子特征进行分析, 以了解因子更偏向哪些省份、行业与市值特征股票,并据此判断是否需要进行因子 层面的行业与市值中性化处理。

(三)因子策略构建

对于一支股票而言,它与地理关联公司股票的收益序列相 关性越强,隐含的信息在于这些股票受共同基本面因素影响更大,因此股票价格变 动的一致性越高,这支股票在下期出现收益反转的可能性越大,那么在下月内持有 该股票获得股票反转收益的概率越大。 对于整体样本区间而言,地理关联公司股票与研究个股在月度收益上表现出较 高的相关性(相关系数0.693),这一相关性越强,研究个股在下期的月度收益越高(因 子值与个股未来1月收益相关系数0.034)。对于地理关联公司股票平均月度收益为负 的样本期而言,上述地理相关系数因子对个股未来反转收益预测效果越显著。

全市场地理相关系数因子均值与中证全指指数收益走势可以看出,整体而言, 全市场股票月度因子均值为0.358,与中证全指指数同期收益呈负相关关系(相关系 数-0.379),与下期收益呈正相关关系(相关系数0.017)。仅考虑中证全指指数收益为 负的月份时,因子均值增长至为0.410,因子均值与中证全指指数同期收益相关系数 增强至-0.620,与下期收益相关系数增强至0.077。该统计结果与上述个股分析保持 一致,说明:(1)全市场股票地理相关系数因子均值与下期市场收益序列呈正向变 动关系。当期的全市场因子均值越高,下期反转效应越强,市场收益越高;(2)第 (1)点结论在中证全指指数收益小于0时效果更显著。

四、实证分析

(一)数据说明

选股范围:全市场 ;股票预处理:剔除非上市、摘牌、ST/*ST、涨跌停板、上市未满1年股票 ;因子预处理:MAD去极值、Z-Score标准化、行业市值中性化 ;回测区间: 2010.01.01 – 2022.06.30 ;分档方式:根据当期股票的因子值,从小到大分为十档 ;调仓周期:每个月最后一个交易日以收盘价调仓 ;交易费用:千分之三(卖出时收取)。

(二)因子分档表现

在月度调仓的历史回测下,6种地理相关系数类因子的整体分层效果表现不一。 具体而言,地理相关系数拆解类因子中,因子与因子分 层效果显著,分层收益区分度高。

(三)因子实证结果

本小节中,首先,将对构建的6种地理相关系数类因子在IC、多空策略、多头相 对基准策略以及换手率方面的回测表现进行整体展示。其次,通过对比各因子在回 测期中的绩效,选取因子、因子与因子,对 其分年度表现进行详细展示。

1. 整体表现

整体来看,6种地理相关系数类因子在选股方向上与构建的交易策略保持一致, 即个股与地理关联公司股票的整体相关性越高,股票未来收益表现越好。各因子的 IC表现、多空对冲策略表现与因子分档测试结果一致,因子具有最高的 IC均值与多空年化收益,其次为因子与因子,但 因子由于回测期的最大回撤相对更低,信息比率高于其他因子。多头 相对基准策略表现出现分化,上述两种地理相关系数拆解因子表现优于地理相关系 数因子。各因子的多头平均换手率在80%左右。具体来看,、�与共3个因子在IC分析、多空策略绩效、多头相对基准策略绩效上总体 表现较好。

1. GEOGCORR因子具体表现

在全市场选股中,GEOGCORR因子的选股区分度较高,因子IC均值为0.074, 正IC占比88.00%,除2017年外,分年度IC均在0.05以上。在多头相对中证500指数 的回测中,策略整体的年化超额收益率为13.21%,信息比率为1.55。在2015年市场 趋势较大时表现相对较好,除2017年外,其余年份均可取得超额收益。整体换手率 保持在77.77%左右。

2. GEOGCORRP因子具体表现

在全市场选股中,GEOGCORRP因子表现出较好的选股区分度,因子IC均值为 0.069,正IC占比90.00%,分年度IC均值最小出现在2017年,为0.052。在多头相对 中证500指数的回测中,策略整体的年化收益率为13.98%,信息比率为1.706。

3. GEOGCORRIP因子具体表现

在全市场选股中,因子表现出较好的选股区分度,因子IC均值为 0.063,正IC占比88.67%,。在多头相对中证500指数的回测中,策略整体的年化超 额收益率为13.48%,信息比率为1.659。整体换手率保持在84.62%左右。 综合上述3个因子的实证分析结果,因子整体表现优于 因子与因子。由于该因子对地理相关系数进行拆解,仅考虑了研究个 股与地理关联股票在日度收益不为负情况下的相关关系,因此,更能精确地度量多 头策略所需要的基于地理共性挖掘的正向共同基本面信息。因此该因子在因子分档 测试、多头对冲策略方面都具有更好的表现。

五、地理关联度因子与 BARRA 因子相关性分析

CNE6版本的BARRA因子模型将股票因子划分为市场、价值、成长、盈利、波 动等大类因子。传统BARRA因子已经在市场中得到验证,能够较有效地刻画股票特 征。本节将对因子、因子、因子与BARRA因 子进行相关性分析。

(一)BARRA 因子说明

在CNE6版本的BARRA因子模型中,共详细阐述了数大类因子。本报告仅在各 大类因子中选取其中一个因子进行相关性说明。

(二)地理关联度因子与 BARRA 相关性分析

本小节将数据预处理(MAD法去极值、Z-Score标准化、行业市值中性化)后 的因子、因子、因子与BARRA因子进行 Spearman秩相关性分析,相关性结果见下表16。如表所示,地理相关系数因子与 HBETA、BTOP因子存在10%左右的正相关性。与STOM、HALPHA、HSIGMA因 子之间存在12%-22%的负相关性。整体而言,地理相关系数类因子能够挖掘传统因 子外的增量信息,具体为股票之间的地理关联信息。

六、地理关联度因子敏感性分析

(一)敏感性分析-选股范围

本报告在实证分析部分,仅在全市场选股范围内,详细展示了因子、 因子、因子的选股策略表现。但是因子特征分析部分也 表明,地理相关系数类因子与股票的市值大小存在显著关系,小市值股票往往具有 更高的地理相关系数因子。因此,本节将重点分析上述3种因子对于选股范围的敏感 性。具体而言,测试了沪深300、中证500、中证800、中证1000、创业板选股范围 内,各因子的多空对冲策略、多头相对基准指数策略与换手率的整体表现。

实证结果显示,多空策略方面,3种因子在中证1000、创业板选股范围中存在 较好表现,因子与因子年化收益率均高于全市场选股范围 同策略表现。多头相对基准指数策略方面,因子与因子在 中证1000选股范围内的年化收益率、信息比率均优于全市场选股范围同策略表现。

(二)敏感性分析-手续费费率

尽管上述分析表明,基于因子、因子、因 子的选股策略能够在全市场表现相对较好,但是在整体与分年度换手率分析中,两 类因子都呈现出高换手率的特征,这将使得策略对于手续费的设定较为敏感。因此, 本节将重点分析3种因子对于手续费的敏感性。具体而言,测试了全市场选股范围内, 因子在千一、千三、千五手续费费率设置下的多头基准(中证500)净值走势。

结果表明,3种因子策略扣除千五手续费后,仍然能够在长期获得超额收益,但 随着手续费水平上升,策略净值表现整体下降。因此,当使用以上地理相关系数类 因子进行选股,应当对手续费费率予以重点关注。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告