2025年金融工程专题报告：海外主动基金业绩基准的设置与纠偏

华安证券2025/11/10
举报

1 引言

相对绩效评估（Relative Performance Evaluation，RPE）是一种在理论上具有合理性的解决方案，可用于解决现代激励合同中普遍存在的道德风险问题。对于共同基金经理，Sensoy（2009 年）发现，40.4%的美国股票型基金选择了错误的基准，这夸大了它们的相对业绩表现，从而带来了更多的资金流入。同样，Cremers、 Fulkerson 和 Riley（2022 年）记录显示，24%的基金存在高度的基准不匹配问题。文献通过分析美国基金基准的演变情况，探究了这些扭曲现象的本质以及缓解这些扭曲现象的经济力量。数据集由 2008 年至 2020 年间的美国股票型基金组成，使用 Sensoy（2009 年）提出的“基准不匹配”晨星定义，发现，样本初期，34.2% 的基金（占基金资产的 45.4%）存在基准不匹配问题，在样本期内，不匹配基金（资产）的百分比稳步下降至 27.2%（27.8%）。此外，以标准普尔 500 指数为基准的基金资产比例从 52.4%降至 38.7%。基准不匹配比例的下降，主要是由集约边际（即存续基金基准的变更）驱动的，而非由扩展边际（即匹配基金的设立和不匹配基金的清盘）驱动的。在 2008 年存在基准不匹配问题且存续至 2020 年的基金中，近 60% 的基金在样本期内改用了匹配的基准。对基准不匹配趋势的线性模型分析表明，在样本期内，不匹配概率每年下降 0.762%。要准确解读基准不匹配现象的出现频率及变化趋势，需充分考虑基金投资策略的广度。Holmströ m（1982）假设存在一组完美匹配且充分分散化的相对绩效评价（RPE）同业比较对象，但现实中这样的同业参照群体可能并不存在。由于基准通常是在特定投资类别（如罗素中盘股成长型指数）内界定的，那些投资策略跨越多个类别的基金往往难以找到"匹配"的基准。与先前关于企业 CEO 及共同基金的研究结论不同——后者认为这种不匹配现象是 CEO/基金经理实施策略性扭曲（或直白地说，是"cheating"）的表现，本研究的替代性解释指出，基准选择与风险因素相关，而非单纯出于操纵业绩的动机。

为了找出投资方法超越易于分类风格的基金，计算了基金经理在其核心投资目标之外进行投资的程度。这一新指标——“投资策略广度”（Investment Strategy Breadth，简称 IS Breadth），是指某基金在其晨星指定的投资目标类别之外的持仓比例。还进一步证明，投资策略广度与衡量投资组合广度和灵活性的其他近似指标呈正相关。投资策略广度（IS Breadth）指标有助于解释基准不匹配现象的变化趋势与程度差异。首先，当允许线性趋势随投资策略广度水平变化时，发现：对于投资策略广度低于均值一个标准差（即更偏向专业型）的基金，其基准不匹配率以每年 1.06%的速度下降；而对于投资策略广度高于均值一个标准差的基金（即投资策略更广泛的基金），该下降速率仅为每年 0.482%。这种趋势差异表明，经济力量可能推动专业型基金选择更精准的基准，而宽泛型基金则因缺乏适配基准而较少进行"校正"。其次，发现基准不匹配的专业化基金比广泛投资型基金表现出更高的回报偏差：它们选择的基准更容易被超越，这与操纵业绩的行为相符。相比之下，广泛投资型基金的不匹配似乎可归因于对冲动机或缺乏适合广泛策略的基准。进一步发现，在基金成立之初，投资组合更专业化的基金倾向于选择市场和小盘股（SMB）因子暴露度低于其后来切换到的匹配基准的基准，这再次与操纵业绩的解释相一致。

投资者学习效应是指，随着投资者金融素养的提升，他们能够更准确地评估基金的恰当基准以及基金经理可能存在的混淆视听行为。那么，投资者是如何学习的呢？一种可能性是，在竞争激烈的市场中，竞争对手企业会教育消费者识别潜在的混淆行为，以吸引有见识的客户（Shapiro，1995 年）。投资者教育市场一直在不断发展。首先，Blackrock、State Street 和 Vanguard 等被动型投资顾问，因能从消除偏见中获益，已大力投资于投资者教育，包括基准设定和业绩评估等方面。其次， Morningstar 和理柏 Lipper 等第三方信息提供商，经常将基金业绩与投资组合类别的平均水平进行比较，这近似于“匹配”基准。第三，受托财务顾问的兴起，可以引导投资者选择更透明的产品。这些教育举措共同作用，可能催生出更为成熟的投资者群体，进而推动主动管理型基金的行为转变，从采用不匹配基准转向采用正确匹配基准，因为混淆视听的做法效果会大打折扣。然而，对于广泛投资型基金而言，其初始不匹配基准可能并非出于混淆目的，因此这些教育举措可能不会影响不匹配现象的发生率。通过考察基准变更前后的投资者资金流动情况，发现，对于专业化基金而言，不仅普通投资者在基准切换前就能根据正确基准评估基金经理的业绩，而且他们似乎只会在新基准与基金投资风格相匹配时，才会对新基准做出反应。尽管这一投资者成熟度水平在文献中可能令人惊讶，但它与上述深入的投资者教育举措是一致的。相比之下，对于广泛投资型基金，尽管发现投资者对新旧基准都有反应的证据，但即使在切换到匹配基准后，资金流动的敏感性也未发生变化。作为对这种投资者学习效应的回应，当正确基准与自我声明基准之间的投资者敏感性差异较大时，专业化基金更有可能切换到匹配基准。将基准视为传递基金目标差异化信息的工具，发现，随着某一基准类别内的竞争加剧（以指数基金竞争对手的数量和市场份额衡量），基金，尤其是那些拥有专业化投资组合的基金，更有可能切换到与其投资组合风格相匹配的基准。当相对业绩改善时，基金更有可能切换到不匹配基准；而当跟踪误差减小时，则更有可能进行校正。在 Mullaly 和 Rossi（2022 年）的相关论文中，作者发现了与基金改变基准以在相对业绩方面表现更好相一致的证据。相比之下，表明，风险定位、产品差异化以及学习和治理等经济渠道，共同促成了股票型基金市场基准选择的均衡状态。

2 数据

2.1 数据库与样本构建

出于提升投资者评估基金业绩能力的目的，美国证券交易委员会（SEC）于 1993 年开始要求共同基金选定一个“广泛基础证券市场指数”，并以图表形式同时报告基金及其基准的业绩表现，以便投资者进行比较。这些业绩比较信息会呈现在每只基金的年度招募说明书和年度报告中，而且业绩基准的选择可能在不同报告之间有所变动。为了捕捉自我声明基准随时间的变化情况，文献分析采用了在 2008 年 12 月至 2020 年 12 月期间收集的晨星（Morningstar）数据库快照。这些快照包含了在美国运营的股票型基金自我指定的招募说明书基准清单，以及同时期的指数特征。将这些快照与共同基金样本的财务报告日期进行匹配，以确定基准变更生效的日期。由于使用晨星风格箱分类法对单个基金和各种基准指数进行分类，因此将样本限定为晨星指定的美国股票型基金。因此，这个结合了股票型基金与基准的“基金 - 时间” 面板数据，既捕捉了股票型基金基准随时间的总体演变情况，也捕捉了个体的演变情况。总体而言，样本中有 3709 只主动管理型股票型基金，使用了 154 个不同的基准，在样本期间共发生了 806 次基准变更。数据还历史基金回报率、晨星评级和风格箱信息。还从晨星获得了季度末基金持仓的额外信息。

2.2 基准的描述性统计

Panel A 描述了样本起始期（2008 年）和结束期（2020 年）最为常见的基准情况。尽管在 2008 年至 2020 年期间，股票型基金市场规模急剧扩张，且标准普尔 500 指数（S&P 500）仍是最广泛使用的基准，但以标准普尔 500 指数为基准的基金数量和资产占比均有所下降，分别从 759 只降至 407 只，从 52.4%降至 38.7%。

2.2.1错误匹配基准的定义

遵循 Sensoy（2009）的方法，若一只股票型基金自我指定的基准与该基金的晨星类别所对应的股票风格不同，就认为该基金存在基准不匹配的情况。具体而言，在样本期间，晨星类别对应的是 3×3 的持仓隐含风格箱，用于描述基金或基准的规模侧重（大盘股、中盘股和小盘股）和投资风格（成长型、平衡型和价值型）。如果一只基金指定标准普尔 500 指数（大盘平衡型指数）作为其招募说明书基准，但根据其持仓被归类为大盘价值型基金，将这种情况定义为基准不匹配。这种分类可能对晨星设定的风格箱边界较为敏感；因此，还使用基准不匹配的连续指标来检验研究结果的稳健性。

2.2.2初始 vs 修改后基准

共同基金有时会将其收益与多个基准指数进行对比展示。晨星公司会为所有基金报告一个“主要招募说明书基准”，并在适用情况下报告一个“次要招募说明书基准”。这种“主要”和“次要”的指定由投资顾问做出，并传达给晨星公司。本文分析聚焦于主要基准。

3 投资策略广度

在 Holmström（1982 年）提出的委托-代理设定中，对特定代理人的评判是相对于一组合适的同类群体进行的。这样一来，随着同类群体数量的增加，公司特有风险得以分散，该同类群体就能完美反映（并通过相对绩效评估，即 RPE）对冲每位代理人面临的共同风险。在实际操作中，要找到足够庞大的一组合适同类群体可能并非易事。对于共同基金而言，这一问题可能更为突出，因为许多基准的设计旨在反映特定投资目标下的股票情况与风险。对于投资策略跨越单一类别的基金，要找到一个能反映基金经理所面临的共同风险的合适基准则更为困难。由于投资策略上的这一关键差异可能会影响选择不匹配基准背后的经济逻辑，因此本文提出、验证并采用了一种衡量投资策略广度的新指标：IS 广度（Investment Strategy Breadth）。

3.1 IS Breadth 指标的构建

简单来说，投资策略广度是指基金经理的投资范围超出其核心投资目标的程度。依据晨星公司对美国股票型共同基金市场（以及股票市场整体）的分类，该分类基于基金底层持仓的市值规模（即小盘股、中盘股和大盘股）和相对估值（如市净率），将市场划分为九个类别。采用晨星公司对每只基金核心投资目标类别的划分，然后统计该基金持仓中落入其他八个风格箱的比例，以此得出一个原始度量指标。为便于后续分析中对变量系数的解读，将 IS 广度指标进行标准化处理，使所有观测值的均值归为零，标准差归为一。

3.2 IS Breadth 的概念验证

Panel A 报告了这些替代性投资组合广度度量指标的平均值，Panel B展示了以IS广度为自变量，其他广度指标为因变量的普通最小二乘法（OLS）回归系数。所有回归均纳入了（投资组合的）晨星风格箱-时间固定效应，且标准误按基金聚类。

4 业绩基准变化趋势

4.1 减少不匹配基准的趋势

4.1.1图表证据

2008 年 12 月，34.2%的主动管理型股票基金采用了不匹配的基准。这一估算结果与 Sensoy（2009）的研究相近。随着相对绩效评估的改进，发现不匹配的资产（基金只数）占比从 2008 年 12 月样本中的最高 45.4%（34.2%）稳步下降至 2020 年 12 月的 27.2%（27.8%）。Panel B 显示，随时间改变基准的基金（即集约边际）推动了这一趋势，因为该趋势与 Panel B 的结果高度吻合。与集约边际形成对比的是，基金的进入或退出并未呈现出明确规律。

与 2008 年相比，2020 年以标普 500 指数为基准的基金数量和资产规模均有所下降，资产（数量）占比从 50.1% （32.6%）降至 32.6%（22.6%）。与这一变化相呼应的是，发现 2020 年的基金采用了更多风格和规模差异化的基准。

4.2 改用不匹配基准的情况

尽管在后续分析中会对所有基准变更进行系统性分析，但单独审视从风格匹配基准转为不匹配基准的这一变动仍颇具启发性。从表面上看，正如 Sensoy（2009）以及 Mullaly 和 Rossi（2022）所指出的，这种变动在可能引发的风险调整后收益（RPE）策略扭曲方面显得尤为严重。然而，经过逐一审查，发现许多此类变动源于三个简单原因：1）将基准调整为与基金名称所暗示的风格相匹配；2）投资顾问合并导致基准变更，以确保旗下各基金的统一性；3）基金家族指数许可协议的变更。这一简单审查表明，对于 51%的此类变动，不仅其背后的基本逻辑合理，而且即便发生了这些变动，最终仍观察到基准一致性的提升趋势。此外，从投资基准广度（IS Breadth）的角度来看，广泛投资型基金在这些变动中占比达 69%。

4.3 业绩评估与投资者选择

先前文献表明，招募说明书中的基准指标决定了投资者如何解读基金过往业绩（Sensoy，2009）。通过控制其他基金业绩衡量指标后，针对自身样本复现了这一结果，即评估基金自行申报的基准调整后收益对投资者资金流的影响。采用三种方式衡量投资者资金流：一是采用 Spiegel 和 Zhang（2013）提出的市场份额百分比变化（%市场份额变化）；二是资金流入正向指标变量（正向资金流）；三是文献中最常用的资金流百分比（%资金流）。其中，自行申报的 36 个月基准调整后收益的衡量指标为原始收益与基准收益之差（Raw–Benchmark Return）。重要的是，还控制了其他主要业绩指标，包括 36 个月 Fama-French 三因子调整后阿尔法值（36 个月阿尔法值）以及晨星整体评级平均值（星级评级）。所有资金流数据均为滞后月度数据（取 t+1 月数值），而业绩数据则为回望数据（使用截至 t 月的数据）。此外，还纳入了日期（年-月）与投资风格固定效应。

5 IS Breadth 与基准不匹配之间的基础关系

在本节中，深入探讨导致基准不匹配水平的若干因素，随后将在下一节中分析相关趋势。假设，投资组合广度越高，选择匹配基准的难度就越大。因此，当广泛投资型基金选择不匹配的基准时，其动机可能更倾向于对冲风险，而非操纵业绩。相反，投资组合更专业化的基金有明确的基准可供参照，因此它们选择不匹配基准的行为可能具有潜在的战略意图。基金设立时的战略考量或许能解释这些基金基准不匹配的基准水平。然而，正如在下一节中所阐述的，在样本期间内，市场力量似乎正日益约束此类战略操纵行为。

5.1 不匹配基准的偏差与方差

为评估基准不匹配（Benchmark Mismatch）事件的发生频率是否与操纵业绩或对冲更广泛投资策略中风险的动机相符，考察了与基金特定基准选择相关的偏差（Bias）与方差（Variance）。这些指标基于 Sensoy（2009）确定的 12 个最常用基准中，与基金最匹配的基准构建而成。具体而言，偏差是指过去 36 个月内，最匹配基准的月度收益与基金自行申报基准的月度收益之间的平均差值（最匹配基准收益减去自行申报基准收益）。方差则是指过去 36 个月内，这两个基准收益之间的平均平方偏差。正偏差表明基金可能存在业绩评估操纵行为——即基金选择了表现逊于最匹配基准的基准。方差较大则表明，所选基准的收益随时间变化的波动与基金收益的波动匹配度较低。尽管基金经理可能选择基准以最小化偏差或方差（Geman、 Bienenstock 和 Doursat，1992），但若选择导致正偏差且未伴随方差降低，则符合业绩操纵的特征。针对基准不匹配的基金子样本，将偏差和方差对投资基准广度（ISB 广度）进行回归分析，以检验上述假设。所有回归均包含晨星投资组合风格箱-时间固定效应以及基准固定效应（以控制各基准本身可能存在的无条件偏差和方差），标准误按基金聚类。第一个回归设定（第（1）列）显示，ISB 广度较高的基金在选择主要基准指数时，偏差往往较低。ISB 广度每提高一个标准差，不匹配基金的基准偏差在 36 个月内累计降低 0.0132%。在多元回归设定（第（2）列）中，观察到 ISB 广度系数的幅度相近，为 0.0127%。此外，为刻画基准在对冲共同风险中的作用，在第（3）列和第（4）列中将方差对 ISB 广度进行回归。发现，在不匹配基金中，广泛投资型基金的方差往往略低于专业化基金。这表明，广泛投资型基金选择“不匹配”基准，可能是为了对冲其更广泛投资策略下管理者可能面临的潜在共同风险或系统性风险。此外，专业化基金的结果更符合业绩操纵的特征。这些基金表现出更高的偏差且方差并未降低，因此，其行为与偏差和方差之间的预期权衡关系不符。

5.2 专业化基金：基金设立时的业绩操纵证据

作为对可能的最适配基准分析的补充，在本小节中，研究了随时间变更基准的基金子样本。该子样本使能够探究相对基准收益（可能反映业绩操纵动机）如何影响基金的初始基准选择与其未来基准的相对关系。例如，若某不匹配基金在设立时以标准普尔 500 指数（S&P 500）作为其主要基准，最终却切换至罗素 1000 成长指数（Russell 1000 Growth），则其最初选择 S&P 500——若出于业绩操纵动机——将反映基金经理预期 S&P 500 的表现将逊于罗素 1000 成长指数。反之，无业绩操纵动机的不匹配基金选择 S&P 500 可能出于其他原因（如遵循行业惯例），这意味着两个基准之间不存在未来收益差异。

6 经济渠道

实证金融文献发现，相对业绩评价（Relative Performance Evaluation, RPE）在缓解代理成本方面的有效性。在共同基金领域，关于从不匹配基准转向正确基准的证据表明，其他经济力量可能通过减少此类操控行为，强化 RPE 的有效性。为探究潜在的经济驱动力，本节展开分析。

6.1 投资者学习

若投资者能够识别基金经理披露的不匹配基准的性质，或能从其他渠道了解到正确的同业群体信息，那么基金自行指定的基准所产生的影响可能会被削弱。将这种因识别到基准设定不当而引发的投资者行为调整，以及错误信息纠正的过程，称为“投资者学习假说”。

6.2 机构投资者监督

基于投资者学习成果，改善监督的另一种途径是机构监督。假设，由于机构投资者具备专业性，他们能够洞悉基金基准选择的偏差（Bias）和方差（Variance），并在相对绩效评价（RPE）中要求采用能同时降低两者（如果可能的话）的基准。此外，如果一家服务于非专业投资者的零售基金同时受到专业机构投资者的监督，那么该基金的基准不太可能出现不匹配的情况。同样，这一假设主要适用于专业基金。因变量是零售基金是否拥有不匹配的基准。主要关注的回归变量是指示共同基金在 t 月是否拥有机构“双胞胎”的指标。第（1）列未控制基金固定效应，并表明在横截面分析中，拥有机构“双胞胎”且投资组合广度（IS Breadth）处于平均水平的基金，其基准不匹配的可能性更低，这与机构投资者的治理效应相一致。根据概率单位系数（0.129）计算了边际效应，表明拥有机构“双胞胎”的基金基准不匹配的可能性降低了 4%（保持投资组合广度在平均水平）。

6.3 竞争

虽然从相对绩效评价（RPE）相关文献来看，强化监督显然是一个潜在的合理解释，但产品市场竞争提供了另一个可能对匹配基准的选择产生积极影响的经济渠道。在本节中，将探讨市场竞争的直接衡量指标如何影响不匹配基准的减少。假设，当一只基金当前基准所属类别面临更大竞争时，该基金更有可能更换其基准。这一假设主要适用于具有专业投资组合的基金。对于基准不匹配的专业基金而言，它们有一种自然的战略应对方式，即转向正确的专业基准，这也能更好地对冲基金经理所面临的系统性风险。在主动管理型基金领域，一个重要的竞争来源是指数基金，它们以低费率提供基准指数回报（Cremers、Ferreira、Matos、Starks，2016；Sun，2021）。考虑来自指数基金的竞争压力的两种衡量指标：某一基准类别中的被动基金数量（包括指数共同基金和交易型开放式指数基金，为简化起见，以下均称为“指数基金”）以及该基准类别中指数基金的市场份额。根据晨星（Morningstar）对基准的分类，在基准类别层面构建指数竞争衡量指标，以便具有相同基准类别的基金被视为相互竞争。

6.4 产品市场特征——相对收益与风险

为何要从基准转换的角度来考虑相对收益与风险呢？这是因为，转换基准可能会改善其中一个或两个指标，从而增加投资者的需求。尽管先前文献强调了申报不匹配基准可带来更高的相对业绩这一好处，但不匹配基准也可能增加感知风险（跟踪误差）。因此，假设，基金会在更高的相对业绩与更高的跟踪误差之间进行权衡，以决定是选择不匹配基准还是匹配基准。

7 结论

1993 年，美国证券交易委员会（SEC）开始要求共同基金选择并披露一项“广泛基础证券市场指数”，以缓解对过度承担风险可能引发道德风险的担忧，从而承认相对绩效评价（RPE）在共同基金行业中具有缓解道德风险的潜力。在披露文件中， SEC 解释称：“选择合适的基准对于评估业绩至关重要，因为必须做到同类比较”同时，SEC 还指出，投资者应对选择风格不匹配基准的基金保持警惕，并建议投资者 “应质疑为何使用该基准”。尽管 SEC 对正确进行风险调整的关注，以及其对相对绩效评价（RPE）缓解道德风险潜力的认可值得肯定，但 SEC 在该问题上的监管方式至少存在三个方面的不足。首先，监管指引将标准普尔 500 指数（S&P 500）作为合适基准的范例，这可能导致该指数（往往与投资风格不匹配）的过度使用。其次，SEC 关于何为“合适指数”的指引，缺乏关于基准投资风格应如何与基金投资风格相匹配的明确指导。第三，SEC 要求由基金自身而非独立的第三方来选择合适的基准。鉴于这三个方面的不足，先前文献记录的基金经常选择风格不匹配基准的证据并不令人意外，且凸显了相对绩效评价（RPE）可能带来的潜在成本。

然而，本文献发现：i）并非所有基准不匹配现象似乎都是出于战略性地攫取超额收益的考量；ii）显性激励合同之外的力量能够有效“监督”基金经理，从而减少不匹配基准的出现及相关道德风险。在相对绩效评价（RPE）框架下理解基准选择的经济学意义，对政策制定具有重要意义。对于宽泛型基金而言，选择不匹配基准似乎并非出于攫取超额收益动机。然而，对于专业型基金，如果委托人（投资者）缺乏警惕性，而代理人（基金经理）为攫取超额收益目的选择基准，那么旨在限制基准选择的监管措施可能潜在提升消费者福利。不过，文献表明，包括投资者学习效应和市场竞争在内的市场力量共同作用，能够缓解基准选择中的偏差。这意味着，加强投资者教育、促进针对成熟投资者的竞争，以及减少管理层固守职位现象，均具有潜在价值。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）