2022年多因子模型之CNE7专题报告 CNE7模型表现与解释力度专题分析

中信建投证券2022/07/25
举报

一、CNE7 模型简介

1.1 多因子模型介绍

1.1.1. 多因子模型的由来

1952 年 Markowitz 提出的风险收益模型为现代金融奠定了基础。该模型构建了一个投资组合有效前沿，即市场上所有风险产品的组合中收益与风险比值最高的投资组合。之后的一个重大进展是 1964 年夏普提出的 CAPM 模型，该模型将资产的收益分解为两部分：

一部分来源于市场的系统性风险，另一部分来自于股票自身的风险。随后投资者逐渐意识到具有某些相似特征的股票在市场上会呈现相似的走势，然而 CAPM 模型仅是通过单一因子来解释市场，存在不足，因此 1976 年套利定价模型（Arbitrage Pricing Theory，APT）被提出。 APT 模型用多个因素来解释风险资产的收益，并根据无套利原则，得到风险资产均衡收益与多个因素之间存在近似的线性关系。也就是说，股票或者组合的预期收益率是与一组影响它们的系统性因素的预期收益率线性相关的，影响股票预期收益率的因素从 CAPM 中的单一因素扩展到多个因素。

多因子模型正是基于 APT 模型的思想发展出来的完整的风险模型。多因子模型可以理解为对于风险与收益关系的定量表达，不同因子代表了不同风险类型的解释变量。多因子模型定量刻画了资产的预期收益率与该资产在每个因子上的因子暴露度，以及因子收益率之间的线性关系。

由于股票的预期收益是对投资者所承担风险的报酬，多因子模型正是对于风险—收益关系的定量表达，不同因子代表不同风险类型的解释变量。多因子模型定量刻画了股票预期收益率与股票在每个因子上的因子暴露度，以及每个因子每单位因子暴露度的因子收益率之间的线性关系。

1.1.2. CNE7 基本面多因子模型

目前多因子模型主要有三种形式：宏观经济因子模型、基本面因子模型和统计因子模型，以下是这三种形式的模型对比：

根据以上三种形式的多因子模型优缺点总结对比以及历史相关研究表明，基本面因子模型对股票的解释能力超过其他两类模型，特别是在样本外。当前市场上多因子模型的主流研究也集中在基本面多因子模型的研究。基本面多因子模型的基本假设是：具有相似属性的股票在市场上应该获得相似的收益率，表现出相似的风险特征。这些基本面属性包括财务属性、交易属性以及行业属性等。多因子模型通过将对于高维股票的收益风险预测转换为低维基本面因子的收益风险预测，大大减少计算量的同时，还有效提高了风险预测的准确度。为此我们针对中国 A 股市场构建了 CNE7 经典版股票基本面多因子模型。

1.1.3. 多因子模型在投资组合管理中应用

多因子模型对投资组合主要有如下作用： 1) 控制投资组合部分或全部风险因子的暴露，实现更精确的风险管理，和收益获取。 2) 提供更准确和更稳定的股票收益协方差矩阵估计，从而更准确地计算组合波动率及组合跟踪误差，提供股票组合优化结果。 3) 对投资组合或基金产品进行更深入的业绩归因和风险归因，以便基金经理分析组合过往业绩的业绩来源和风险暴露，后续及时调整策略。

1.2 模型构建

1.2.1 因子选择

选择恰当、有效的共同因子是搭建高质量风险模型的基础。首先，因子必须能够稳定、有效地解释股票收益率，保证统计上显著且时间序列上稳定。其次，因子之间不应存在过度的共线性。再者，在涵盖优质因子的基础下，模型需要尽可能精简因子数目，以减少风险预测的工作量并提高风险预测的准确度。

股票模型 CNE7 经典版针对中国 A 股市场，将因子分为三大类：

风格因子：反映股票当前状态或未来预期状态，表现在一定时期内会呈现出的风格特征，比如小市值、高成长、低波动等。

行业因子：反映股票所在行业的行业特征；由于行业周期性影响、产业政策冲击以及其他宏观环境影响，从事相同或相似业务的股票在市场上也会表现出较高的相关性。

市场因子：反映市场的整体变化趋势，捕捉所有股票因受到市场整体供需影响而呈现出的同涨同跌现象。

风格因子

风格因子包含 10 大类基本面因子，依次为贝塔、残余波动率、规模、中盘股、Earnings Yield、Book to Price、动量、杠杆率、流动性以及成长。其中，部分大类因子表示为若干个子指标的加权组合，从而在尽可能丰富大类因子信息量的同时解决子类因子可能具有的共线性问题。具体风格因子构建可参考附录计算公式。

行业因子

除风格因子外，行业因子能够为股票价格的变化提供丰富的增量信息。特别是在国内股票市场，行业信息和产业投资逻辑往往驱动股价的波动变化。CNE7 经典版根据本土化的申万行业分类标准，构建了 34 个具有代表性的行业因子，显著增强了模型的解释能力。行业因子具体包括农林牧渔、基础化工、钢铁、有色金属、电子、汽车、家用电器、白酒、食品饮料、纺织服饰、轻工制造、制药、医疗器械、公用事业、地面交通、航空、海运、房地产、商贸零售、社会服务、银行、非银、综合、建筑材料、建筑装饰、电力设备、机械设备、国防军工、计算机、传媒、通信、煤炭、石油石化、环保。行业因子收益代表 100%做多该行业，同时 100%做空全部 A 股的多空组合收益率，更加纯粹地反映行业效应，同时保持风格因子中性。

市场因子

为了将市场效应与行业效应剥离开，CNE7 经典版在模型中引入市场因子。市场因子收益代表以流通市值权重 100%做多全部 A 股的投资组合收益率，直接反映市场的整体变化，即市场效应。 2005 年中国证监会颁布《关于上市公司股权分置改革试点有关问题的通知》启动了股权分置改革。作为我国资本市场改革开放和稳定发展的重要一役，它弥补了长久以来的制度性缺陷，解开了束缚市场的枷锁，开启了我国股市的全流通时代，具有里程碑式的意义。

A 股的扩容在最近 10 年间进展飞速，自 2007 年至今，CNE7 模型市场组合中所含 A 股个数由 2007 年 1 月 4 日共 1230 只攀升至今（2022 年 4 月 21 日）共 4592 只，增幅达到 273%。A 股总市值由 2017 年初 10 万亿扩大至 2021 年末 98 万亿，增幅达到882%，截至最新（2022 年 4 月 21 日，下同），A 股总市值小幅回落至 82 万亿。自由流通市值方面，2007 年初，A 股自由流通市值仅占总市值约 22%，2021 年末达到历史最高点，约占总市值 76%，截至最新小幅回落至 75%。

1.2.2 因子暴露度与因子收益的处理及计算

根据上述因子结构，可分别计算出股票的风格、行业及市场因子暴露度，因子暴露度代表该股票所对应的因子值。CNE7 经典版模型首先对因子暴露度数据进行以下处理。

风格因子暴露度

CNE7 经典版对风格因子暴露度的数据处理包括去极值处理、缺失值处理以及标准化处理。 1) 去极值处理：通过中位数去极值方法调整极端值，防止对模型的稳定性造成影响。该处理将因子暴露度大约限制在正负 3 个标准差之间，且能够保留原始数据的排序。 2) 缺失值处理：用同类股票暴露度均值作为填充。该处理不仅可以维持股票池的完整性，保证后续因子收益求解的稳定性，另一方面还可以减小填充值对行业因子收益率计算的影响。 3) 标准化处理：为了使不同风格因子之间具有可比性，CNE7 经典版将经过上述处理后的因子暴露度数据进行标准化，即减去市值加权平均暴露度后再除以该因子的等权标准差。

标准化处理后的因子，通过线性回归计算得到的因子收益率，实际上反映了该因子的纯因子组合的收益率。

业因子暴露度

因关于上市公司在不同行业的业务收入以及资产分布等数据信息不齐全，在本模型中行业因子暴露度为虚拟变量（0/1），当股票属于该行业时，则因子暴露度为 1，不属于该行业则因子暴露度为 0。

市场因子暴露度

所有股票在市场因子上的暴露度均为 1。

在提取了多因子模型估计所需要的全部个股因子暴露度以及每日个股收益数据后，CNE7 模型基于上述公式（1），将每日个股收益对因子暴露度进行每日横截面回归，回归方法是加权最小二乘法（WLS，Weighted Least Square），在回归中使用的权重是个股流通市值的平方根，从而得到回归系数，即每日因子收益率。

上文提到，因子收益率之间的协方差矩阵是估计投资组合风险的重要因素。CNE7 模型在计算该矩阵过程中也加入了调整方法，包括 Newey-West 调整、特征值调整以及波动率偏误调整，来调整因子收益率自相关性、风险模型对最有投资组合风险的低估性以及某段时间内风险模型对风险的系统性高估或低估问题。特异性收益方差矩阵是多因子风险模型的另一主要组成部分，与因子协方差矩阵的调整方法类似，CNE7 模型同样对它进行了 Newey-West 调整和波动率偏误调整。由于特异性收益是只基于一只股票的数据，具有一定特殊性， CNE7 模型另外采用结构化调整和贝叶斯压缩调整来分别调整特异性收益数据缺失和异常值导致的方差矩阵估计误差，以及特异风险均值回归现象导致的样本外风险偏误以及一段时间内持续性的风险偏误问题。我们将在另外一篇研报中介绍协方差矩阵的构建。

1.3 CNE7 模型优势

相比 MSCI Barra 于 2012 年推出的中国 A 股市场模型 CNE5，股票模型 CNE7 经典版在因子结构、数据处理、估计技术等多个方面做出了改进。

1.3.1 行业因子划分

Barra CNE5 模型的行业因子的划分标准是基于 GICS(Global Industry Classification Standard)“全球行业分类系统”，总共包括 32 个行业因子。GICS 是由标准普尔与摩根斯坦利公司于 1999 年 8 月联手推出，为全球投资界提供了一个全面的、全球统一的经济板块和行业定义。GICS 分类标准共分为四级分类，包括 11 个经济部门、24 个行业组、68 个行业和 157 个子行业。股票模型 CNE7 经典版则是根据申万行业分类标准对行业因子进行划分。目前申万行业分类标准包括一级行业 31 个、二级行业 134 个、三级行业 346 个。

虽然 GICS 分类标准使投资者对全球范围经济板块和行业的研究更具有可比性，但它并不适用于 A 股市场的分析习惯。申万行业定义上大多符合人们的直观认识，行业内的公司在业务模式，财务指标、市场表现上能够有一定的可比性。其次，申万行业体系根据中国经济发展和证券市场的不断发展，对行业分类进行持续的调整，最终形成的行业定义有着较好的实用性，更符合 A 股投资者的习惯的市场实情。

举例来说，圆通速递（股票代码：600233）的主营业务是国内国际快递运输，申万行业分类将其划分为“交通运输”，而 GICS 则将其划分为“航空公司 Airlines”；天华超净（股票代码：300390）的主营业务是防静电制品及液晶显示屏背光模组生产，申万行业分类将其划分为“电子”，而 GICS 则将其划分为“化工 Chemicals”；川能动力（股票代码：000155）的主营业务是锂电制造、风力发电、太阳能发电等，申万行业分类将其划分为“公用事业”，而 GICS 则将其划分为“贸易公司和分销商 Trading Companies and Distributors”。显然，根据申万行业分类标准构建的行业因子更合理，更贴近中国 A 股投资者的分析需求。

CNE7 模型基于申万一级行业分类标准，并将部分申万二级行业如白酒、制药、医疗器械等作为单独行业因子，并将具有一定相关性或重合性的行业因子之间进行正交化处理，总共构建了 34 个行业因子。不仅能够成功区分市场上各个行业所具有的不同投资价值，还能充分反映当前中国 A 股市场上投资者关注的行业板块热点，在时间序列纬度更具连续性和稳定性。

1.3.2 风格因子构建

Barra CNE5 模型在构建风格因子时，均采用股票总市值来计算风格因子暴露度，例如市值（Size）因子使用股票总市值的自然对数来作为该因子的初始暴露值。然而 A 股市场上绝大多数的公司属于小市值公司，市值分布呈现出明显的右偏分布，而非正态分布。由于因子暴露度需要进行标准化处理，默认原数据服从正态分布的假设，A 股市场自由流通市值对数化处理后的数据更接近于正态分布，因此对其进行异常值和标准化的处理就更为合理。此外，通过分析全部 A 股的自由流通市值占其总市值的比例情况，可以发现超过 90%A 股的占比在 20%-80%之间，只有较少股票的自由流通市值达到总市值的 80%以上，因此如果直接用总市值代替自由流通市值，在研究过程中将会造成非常大的误差。CNE7 经典版则采用股票流通市值来计算风格因子暴露度。

二、市场因子表现

本章节及第三章、第四章我们将对历史区间自 2007 年 1 月 1 日至 2022 年 4 月 21 日的市场、风格及行业因子累计收益率分别进行分析，并将 CNE7 模型的因子收益率与 Barra CNE5 模型的相应收益率分别进行比对。

CNE7 模型与 CNE5 模型的市场因子自 2007 年以来累计收益率分为-31%和 1%。市场因子等同于全 A 指数的走势，在 2007 年和 2015 年时市场累计收益率攀升，CNE7 与 CNE5 分别达到历史累计收益最高点，约为 45%和 80%；2008 年金融危机和 2016 年熊市环境下，市场表现自高点迅速回落，累计收益率下跌触底，2008 年 CNE7 与 CNE5 市场因子累计收益率跌至全历史最低点，分别约-60%和-50%。2022 年初至今，A 股市场整体表现偏弱，波动加大，系内外双重冲击叠加情绪面因素所致，CNE7 市场因子收益跌幅超过 CNE5，市场因子显著性更高。这两个因子最主要的区别在于使用总市值和流通市值作为计算，同时 CNE7 及时覆盖科创板以及北交所等股票。

三、风格因子表现

本章节我们将对 CNE7 经典版的 10 个风格因子表现进行一一对比和点评。风格因子收益率衡量的是高暴露度股票和低暴露度股票之间相对收益差。如若大小盘因子收益率为正，则表明大盘股整体的表现要优于小盘股。

波动率因子：Beta 与残余波动率

2016 年以前，CNE7 与 CNE5 模型的 Beta 因子表现较为一致，均从接近 0%收益率逐渐攀升至 90%左右。 2016 年熊市环境下，Beta 因子表现经历短期上下震荡后。自 2017 年起，Beta 因子历史累计收益率始终为正且持续上升，但 CNE7 与 CNE5 模型在该因子表现上出现分化，相同 Beta 因子暴露度下 CNE7 模型获得的因子收益更高。截至最新，CNE7 Beta 因子累计收益率高达 211%，而 CNE5 Beta 因子累计收益率仅为 170%。两个模型在 Beta 因子构建上相同，均基于半衰期，采用加权 OLS 法回归得出。

残余波动率因子表现方面，2007 年以来，高波动率股票整体跑输低波动股票，累计收益率为负，2017 年以后，高波动股票与低波动股票分化加剧。截至最新，CNE7 与 CNE5 的残余波动率因子累计收益率分别约-15%和 -49%。风格因子相对收益为负，可以通过负的暴露度来获取正的收益贡献。CNE7 与 CNE5 均基于半衰期计算股票历史波动率及残差波动率，在波动范围计算上有所区别，CNE7 根据过去 52 周最高价和最低价的波动来计算, 而 CNE5 则是根据过去 12 个月相应数据来计算。

市值因子：规模与中盘股

规模因子，即大小盘因子，衡量大市值股票相对小市值股票的表现。大盘股在 2007 年短暂跑赢小盘股后至今，整体跑输小盘股，虽然在 2014 年末以及 2021 年初有所回升，规模因子累计收益仍持续为负。整个历史区间内 CNE7 的规模因子收益始终低于 CNE5, 控制相同的规模因子负暴露度,CNE7 获得的正向收益更大。截至最新，CNE7 与 CNE5 的规模因子累计收益分别约-55%和-46%。

中盘股因子衡量中盘股相对于市值分布两端小盘股和大盘股的表现，该因子表现与规模因子相近，整体呈下滑态势且累计收益率始终为负。相比 CNE5 模型，CNE7 模型的中盘股因子同样更为显著，整个历史区间内相同因子暴露度下获取的正向收益始终更高。截至最新，CNE7 与 CNE5 的规模因子累计收益分别约-69%和63%。

价值因子：Earnings Yield 与 Book to Price

自 2007 年以来，价值因子 Earnings Yield 累计收益率持续为正，2016 年后因子收益率大幅攀升，CNE7 与 CNE5 模型分别达到历史峰值约 52%及 18%。2018 年至 2021 年 Earnings Yield 因子收益虽有所回落，2022 年初至今又出现反弹回升。与 Earnings Yield 因子表现相近，Book to Price 的历史累计收益率均为正，2019 年至 2021年收益率持续回落后于 2021 年起快速反弹，整体呈上升态势。

相比 CNE5 模型，CNE7 模型的价值因子均更显著，整个历史区间内相同因子暴露度下获取的正向收益始终更高。截至最新，CNE7 与 CNE5 的 Earnings Yield 因子累计收益分别约 44%和 14%，Book to Price 因子累计收益分别约 52%和 21%。我们认为最主要的区别在于，构建 Earnings Yield 因子时除了分析师预测 E/P 与滚动 P/E 之外，CNE7 用到了销售额与市值比，而 CNE5 则采用现金收益与市值比。

动量因子

动量衡量股票过去一年的强势程度。据图表 10 所示，高动量股票在 2008 年至 2020 年，以及 2015 年至 2017 年两段历史区间内，收益下跌后又大幅拉升，尤其是 2017 年至 2021 年反弹效应显著，整体跑赢低动量股票。2021 年高动量股票相对表现回落后于 2022 年初再次反弹。CNE7 和 CNE5 模型在动量因子表现上相近，截至最新，CNE7 和 CNE5 的动量因子累计收益分别约 39%和 59%。两个因子均是基于半衰期对样本内股票超额堆书收益率进行加权计算。

流动性因子

流动性即换手率因子，衡量交易的活动程度。2007 年至今，流动性因子累计收益为负且持续走低，高换手率股票始终跑输低换手率股票。控制相同负暴露度条件下，CNE7 模型在流动性因子上获得的正向收益始终高于 CNE5，体现较强的因子显著性。截至最新，CNE7 与 CNE5 的累计收益率分别约-90%和-74%。我们认为主要区别在于，CNE7 在计算季换手率和年换手率时直接采用滚动 3 个月和 12 个月的日换手率和，而 CNE5 则是将日换手率取自然对数求平均，分别滚动 3 个月和 12 个月。

杠杆因子

杠杆因子衡量上市公司资产负债比。如图票 14 所示，高负债股票的相对收益波动率较大。2013 年以前，高负债股票整体跑赢低负债股票，2013 年至 2021 年间，杠杆因子收益呈中枢下跌态势，在 2015 年出现小幅反弹后，累计收益一路下滑由正转负。2020 年至今，杠杆因子表现回升且速度较快，2021 年中至今累计收益率再度回正。模型对比方面，CNE7 模型的杠杆因子更为显著，在因子收益为正或为负的期间内 CNE7 提供的正向收益贡献均更高。截至最新，CNE7 与 CNE5 的累计收益率分别约 10%和 7%。

成长因子

成长因子捕捉上市公司营业收入和盈利的增长态势和情况。自 2007 年以来，成长因子收益率直线攀升，高成长股票始终跑赢低成长股票，且跑赢程度逐渐加大。CNE7 的成长因子尤为显著，控制相同因子暴露度条件下，2010 年左右 CNE7 的成长因子收益贡献是 CNE5 的 2 倍，2013 年起 CNE7 收益贡献达到 4 倍左右。截至最新，CNE7 与 CNE5 成长因子累计收益分别约 72%和 18%。我们觉得最主要的区别是，CNE5 衡量的 5 年的平均成长率，而 CNE7 模型是同比增长。

四、行业因子表现

根据 2022 年 4 月 21 日数据，我们汇总了当日 4592 只 A 股在各行业因子上的分布及流通市值占比。如无特别说明，以下市值均指流通市值。整体 A 股行业股票数量和市值规模分布较为均匀。行业因子市值占比前十的分别为电子、机械设备、电力设备、基础化工、制药、计算机、医疗器械、汽车、非银和有色金属。

此外，我们将 CNE7 模型的 34 个行业因子表现也进行了分析，通过将两个模型的行业因子进行映射后进行历史累计收益率对比，我们得到 CNE7 模型的行业因子整体更为显著，相同暴露度下获得的正向行业收益更高，尤其表现在基础化工、钢铁、有色金属、汽车、白酒、轻工制造、航空、房地产、商贸零售、银行、国防军工、机械设备等行业上。受篇幅限制，此处仅展示股票市值占比前 5 的行业因子累计收益对比结果。详细的因子表现数据以及相关拥挤度研究敬请参阅其他因子周报以及拥挤度模型研报。

五、CNE7 模型解释力度

多因子模型的表现主要通过以下 4 个核心指标来评估： 1) 因子解释力显著性：通过计算因子对股票收益 t 值绝对值的平均值来反映因子对收益率的解释力。基于收益率呈正态分布的假设，t 值绝对值超过 2 被认为在 95%的置信度下该因子是显著的。 2) 因子解释力稳定性：我们希望因子在较长时间区间对股票收益率的解释力是稳健且显著的，通过计算长周期内因子 t 值绝对值不低于 2 的概率来衡量因子解释力的稳健度。 3) 因子对 A 股收益率的整体解释度：拟合优度 R 方（R-Square）。

我们分别对 CNE7 模型各个因子的 t 值进行了计算，并统计了 t 值绝对值不低于 2 的百分比，同时计算了 CNE7 模型的拟合优度 R 方（252 天滚动均值），来检验各因子解释力以及模型整体解释度。

市场因子和风格因子中的规模、Beta、流动性及动量因子的解释力稳定性较强，显著 T 值占比均在 50%以上，能够对中国 A 股收益率提供显著且稳定的解释。行业因子方面，显著 T 值占比超过 50%的包括有色金属、房地产、非银、煤炭和白酒，占比接近 50%的包括制药、银行、国防军工和计算机，其余 25 个行业因子的显著 T 值占比均在 10%以上，整体表现出较强的因子解释力稳定性。

2013 年以前，拟合优度 R 方处于 30%-60%之间，体现较强的模型解释力，2013 年以后，由于 A 股市场个股的分化程度增加，导致单一风格因子或行业因子对股票收益波动率解释难度加大，使得拟合优度 R 方表现出一定周期性变化，且模型的解释力出现中枢持续下移趋势。整个历史区间内，CNE7 模型拟合优度 R 方平均值约为 35%，模型整体解释力度较强。

六、总结

多因子风险模型在构建最优投资组合及投资组合收益风险归因方面应用极为广泛，通过有效降维，将对于高维股票的收益-风险预测转换为对于低维因子的收益-风险预测，有效且显著地提升计算效率。我们致力于不断改进面向客户的模型、工具和产品，努力为投资管理者提供严格、创新和开拓性的量化策略。基于中国 A 股市场特征及当前市场对于多因子模型的诸多反馈，我们构建了股票模型 CNE7 经典版，模型选用解释性良好的 10 个风格因子、34 个行业因子和 1 个市场因子作为解释股票收益的共同风险因子。

CNE7 模型包含了许多方法创新，旨在解决风险建模中长期存在的问题。不仅在行业因子结构上做出了调整，与中国 A 股市场特征相适应，同时将数据预处理后的因子暴露数据对股票收益做横截面回归，计算因子收益和特异性收益，用于估计因子收益协方差矩阵和特异性收益方差矩阵。相比 Barra CNE5 模型，CNE7 经典版在市场、风格及行业因子表现上更优，因子解释力及模型解释力较强且稳定，提供了一套具有高度解释力的多因子模型结构，更适合国内投资者的使用。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）