传统的债券违约模型大致可分为线性模型和非线性模型两大类。线性模型中,最具代表 性的如 Altman Z-score 模型,该模型通过计算多个财务比率并加权得出一个综合风险评 分,简便易用,但其局限性也较为明显,主要在于选取的财务指标较少,可能无法全面 反映债务人的财务状况。非线性模型方面,最具代表性的为 Merton 模型,它基于期权 定价理论,将企业违约定义为企业资产价值小于债务账面价值,使用 Black-Scholes 公式 对企业的股票和负债进行估值,从而推算违约概率。此模型能够较好地捕捉资产价格波 动,但在实际应用中对参数的依赖较大,且未能考虑跳跃性事件的影响。 机器学习作为对债券市场传统违约模型的重要补充,主要体现在其强大的数据处理能力 和自适应特性。传统模型通常依赖于固定的财务指标和简单的假设,可能难以捕捉债券 违约风险中潜在的复杂非线性关系。而机器学习模型能够自动从大量历史数据中挖掘潜 在的规律和模式,尤其在面对非线性特征时表现出色。除此之外,机器学习方法能够有 效处理大规模数据和缺失值,避免了传统模型在数据不完全时的局限性。由于其强大的 自适应性,机器学习模型可以随着市场环境的变化实时更新,提供更加精确和个性化的 风险评估。这些优势使得机器学习在债券市场中的应用不仅提高了预测的准确性,还能 够更好地应对市场的动态变化和复杂性,从而成为传统违约模型的有效补充。 为了便于读者理解报告的内容,我们在开篇首先梳理整个模型从搭建、训练到预测的过 程。整个过程大致分为 4 步,观察真实世界中数据的分布情况并构造适应于分类学习模 型的数据集,选取不同维度的因子,使用不同的分类模型(如逻辑回归、支持向量机、 随机森林等)训练并测试模型,并给出最新一期的预测情况。

上市公司债券信用风险识别的意义不仅仅停留在于对于债券风险的规避,其同样可以用 于对上市公司股票的筛选。如果将上市公司对应的债券信用风险作为一个筛选股票池的 因子的话,其同样具有良好的效果。统计 2016 年 5 月 1 日至 2024 年 8 月 31 日之间发 生信用风险的债券对应的上市公司在财报截止日之间的表现(假设某支债券发生信用风 险的日期为2016 年5 月13 日,则对应的区间为2016 年5 月1 日至2016 年8 月30 日), 以中证 800 作为基准,超额收益为负的占比为 73.03%,超额收益的中位数为-14.18%。这就意味着可以通过剔除预测可能发生信用风险的上市公司来进行股票策略的增强。
数据截面选取
信用风险样本与正常样本的不平衡性
在本篇报告中定义的信用风险事件包括两个大类:一个是发生实质性违约事件的债券, 包括本息违约、提前到期未兑付、展期资金未兑付等;另一个则是信用评级下调事件。 在数据整理阶段,我们首先对信用风险样本进行梳理,并根据信用风险样本的分布情况 从正常样本中“匹配”对应的子集。这一处理的核心原因在于,信用风险样本与正常样 本之间存在严重的不平衡性。如果直接将全部正常样本纳入模型,数据的不平衡将显著 影响模型的性能,使其倾向于预测多数类(即正常样本),从而削弱模型对少数类(即信 用风险样本)的识别能力。 以 2022 年 5 月 1 日至 8 月 31 日的区间为例(2021 年年报&2022 年一季报截面),2022 年 4 月 30 日存量上市公司信用债的数量为 41365 个,而在上述区间中发生信用风险的 债券数量总计为 243 个,占全部信用债的比例约为 0.59%。显然,如果将全部截面的正 常样本全部纳入数据集,会造成严重的数据不平衡,从而影响模型的性能。因此,我们 将首先处理信用风险样本,并将信用风险样本按照比例进行划分,进而确定使用的正常 样本的截面。
违约以及评级下调数据处理
对于违约数据,首先在 wind 终端债券——信用债研究——债券违约——债券违约及展 期大全中拉取特定时间内所有违约及展期的债券信息。本文研究从 2015 年年报及 2016 年一季报发布截止日期(2016 年 4 月 30 日)开始,拉取 2016 年 5 月 1 日起至今所有 违约及展期的债券,债券分类中剔除金融债。 对于评级下调数据,首先在 wind 终端债券——信用债研究——评级预警——债项评级 调低债券拉取特定时间内所有评级下降债券评级调低对应的时间。本文研究从 2015 年 年报及 2016 年一季报发布截止日期(2016 年 4 月 30 日)开始,拉取 2016 年 5 月 1 日起至今所有债券评级下调债券分类中剔除国债、地方政府债、央行票据、同业存单以 及金融债。 上述方法拉取的excel中并不包含债务主体的相关信息,为了便于后续因子数据的拉取, 我们在 excel中提取对应信息。由于 wind 无法直接通过债券代码提取对应债务主体代码, 我们将其拆解为两步:1.提取债务主体中文简称;2.中文简称转换为 wind 代码。 针对同一债务主体在同一季度内有多个不同债券信用风险的情况,我们保留其中上市日 期最早的债券的信用风险记录;针对同一个债券在同一个季度内的多条信用风险记录, 保留违约日期最早的记录。
信用风险数据集划分
为了测试模型在完整截面数据(对全部)上的能力,我们单独保留最新截面(2024Q3 财报截止日)作为验证集。对于剩余的信用风险数据,我们尝试找寻一个财报截止日截 面,使得训练集与测试集的划分比例最接近 7:3。根据计算,2016 年 5 月至 2024 年 10 月的信用风险样本按 7:3 划分的时间节点为 2022 年 8 月 29 日,因此我们采用 2022 年一季报截面划分训练集以及测试集(对应信用风险样本区间为 2022 年 5 月至 2022 年8 月)。
正常样本
根据上述信用风险数据集的划分,我们确定 2022 年一季报截面以及 2024 年中报截面分 别作为训练集以及测试集的正常样本时间。由于正常样本数量较多,因此在正常样本中 我们将仅保留公司债与可转债两个大类。
不平衡样本数据处理
在信用风险研究中,数据不平衡性是一个需要重点解决的问题。通常,违约样本相较于 非违约样本数量极少,这种样本比例的不对称会导致预测模型偏向多数类(即非违约样 本),从而降低对少数类(即违约样本)的预测准确性和识别能力。在处理这种不平衡问 题时,常用的技术包括过采样(Oversampling)和欠采样(Undersampling)。 过采样通过增加少数类样本数量来平衡数据集,这可以通过重复少数类样本或生成合成 样本(如使用 SMOTE 等方法)来实现。然而,过采样可能会导致模型过拟合,特别是 在少数类样本数量本就稀少时,这种问题尤为明显。 欠采样则是通过从多数类样本中随机移除部分数据或基于某种策略选择子集,使多数类 和少数类的样本数量相等或接近。虽然欠采样能够有效减少样本不平衡的影响,但同时 也可能导致重要信息的丢失,尤其是在多数类样本中包含了大量有价值的异质性信息时。 为了在信用风险预测中尽可能保留与风险事件相关的重要信息,本文采用了一种基于欠 采样的策略进行数据不平衡处理。在此过程中,保留所有违约样本(或信用评级被下调 的债券样本),并从正常样本(非违约样本)中随机抽取数量相等的子集,构成与违约样 本平衡的训练集。通过这种方法,既平衡了数据集的类别分布,避免模型过于偏向多数 类,又尽可能降低因欠采样而丢失关键信息的风险。在这个系列报告中我们将统一使用 RandomUnderSampler 将正常样本的数量删减至与信用风险样本一致。
特征选取
在寻找特征时,首先是能够直观体现企业资本结构及运营情况的各项财务指标。借鉴国 内多家信用评级公司的评级逻辑,分别选取反映企业偿债能力、盈利能力、成长能力的 多项财务比率,进行上市公司财务状况的评价。其次,考虑到信用债自身的特性,选取 和债券性质相关的指标,包括债券余额、票面利率、剩余期限、最新主体评级。最后, 根据退市新规的条款,纳入交易性退市相关的股票量价信息,包括累计成交量、平均收 盘价、累计收益等。 特征选取前,训练集/测试集/验证集的违约数据分别有 358/149/5 条;训练集/测试集/ 验证集的非违约数据分别有 660/711/684 条。 剔除掉缺失值占数据集数量超过百分之三的因子之后,训练集/测试集/验证集的违约数 据分别有 328/128/4 条;训练集/测试集/验证集的非违约数据分别有 632/686/662 条。
模型评估参数介绍
混淆矩阵(Confusion Matrix)是分类模型评估的一个重要工具,用于展示模型在各个类 别上的预测结果与实际标签之间的差异。它通过四个基本值来描述模型的表现:真正例 (TP),即预测为正类且实际为正类的样本;假正例(FP),即预测为正类但实际为负类 的样本;真反例(TN),即预测为负类且实际为负类的样本;假反例(FN),即预测为 负类但实际为正类的样本。混淆矩阵不仅可以帮助我们计算诸如精确度、召回率和 F1 分数等评价指标,还能直观地展示模型在不同类别上的分类效果,特别是在类别不平衡 的情况下,提供比准确率更为全面的评估。 召回率,也叫真正率(True Positive Rate),是分类模型性能的一个重要指标,衡量模型 正确预测正类样本的能力。其计算公式为:召回率 = 真正例 / (真正例 + 假反例)。召 回率越高,说明模型能更多地识别出正类样本,适用于需要关注“漏检”问题的场景(如 信用风险识别)。不过,召回率高也可能导致假阳性增加,因此通常需要与精确度 (Precision)等其他指标一起综合评估。 ROC 曲线是一种通过描绘不同决策阈值下分类器的性能来评估其表现的工具。在该曲线 中,横轴表示假阳性率(FPR),纵轴表示真正率(TPR),也就是召回率。ROC 曲线通 常用于二分类问题,帮助观察分类器在各个阈值下的灵敏度与特异性。ROC 曲线越靠近 左上角,说明分类器的性能越好。 AUC 指的是 ROC 曲线下的面积,它是一个综合性指标,用来量化分类模型的整体表现。 AUC 值的范围是 0 到 1,越接近 1 表示模型的性能越好,越接近 0 则表示模型的性能较 差。AUC 的直观含义是“随机挑选一个正类和一个负类样本,模型将正类样本排在负类样 本之前的概率”。当 AUC 为 0.5 时,表示模型的性能与随机猜测相当。
随机森林
随机森林(Random Forest)是一种基于决策树的集成学习算法,广泛应用于分类和回 归任务中。其核心思想是通过构建多个相互独立的决策树,并将这些树的输出综合起来, 以提高模型的准确性和鲁棒性。与单棵决策树相比,随机森林通过引入随机性(数据和 特征的随机抽样)降低了模型的方差,进而提升了泛化能力。 随机森林的训练过程可以分为两个主要步骤:第一步是构建多个决策树,第二步是对这 些决策树的结果进行综合。在构建每棵树时,随机森林采用 Bagging(Bootstrap Aggregating ) 技 术 , 即 通 过 带 放 回 抽 样 从 训 练 数 据 中 生 成 若 干 个 数 据 子 集 {1 ,2 , ⋯ ,},每个数据子集与原始训练数据集大小相同但样本可能重复。此外, 对于每个节点分裂,随机森林随机从全部特征集中选择一个特征子集 {1 ,2 , ⋯ , },并 基于该特征子集寻找最佳分裂点。通过引入这两种随机性,随机森林可以构建出相互独 立且多样化的决策树,降低过拟合的风险。
支持向量机
支持向量机(Support Vector Machine, SVM)是一种基于统计学习理论的机器学习算法, 广泛应用于分类和回归任务中,尤其适合处理高维数据集。其核心思想是通过构造一个 超平面,将数据点划分到不同的类别中,同时最大化类别间的间隔(Margin)。SVM 以 其良好的理论基础和强大的泛化能力,在许多实际问题中都表现出色。
XGBoost
XGBoost(Extreme Gradient Boosting)是一种基于梯度提升决策树(Gradient Boosting Decision Tree, GBDT)的集成学习算法,广泛应用于分类和回归任务中,以其高效、灵 活和鲁棒性而著称。XGBoost 的核心思想是通过逐步构建多个决策树模型,每棵树用于 修正前一棵树的预测误差,从而使模型的预测能力逐步提高。与传统 GBDT 相比, XGBoost 引入了多项优化和正则化机制,使其在处理高维稀疏数据和大规模数据集时性 能更加卓越。
LightGBM
LightGBM(Light Gradient Boosting Machine)是一种基于梯度提升框架的高效机器学习 算法,广泛应用于分类、回归以及排序等任务中。其核心思想是通过逐步优化目标函数, 利用一系列弱学习器(通常为决策树)构建出一个强大的预测模型。相比于传统的梯度 提升方法(如 XGBoost),LightGBM 采用了多项优化技术,使其在处理大规模数据、高 维特征以及稀疏数据时具备更高的效率和性能。
各类模型性能比较
鉴于支持向量机所使用训练集数据是经过统一量纲处理的(这是由于支持向量机必须要 平衡所有特征的量纲,不然将导致模型依赖量纲最大的特征),而其他模型的训练集并没 有做相同处理,接下来统一使用处理后的训练集,评估模型表现。 使用统一量纲处理后的训练集的各个模型的 AUC 都有所降低、召回率大幅提高,平均召 回率提高超过 10 个百分点。考虑到违约数据并不完全是同一截面的,统一量纲的处理 就会存在一定的未来函数问题。根据 4 个模型的情况来看,召回率的提高主要源于统一 量纲的操作。为了避免未来函数的问题,我们将不再考虑支持向量机作为信用风险识别 模型。 在剩余的四个模型中,随机森林不论是在 AUC 还是召回率上都具备明显的优势。因此, 选择随机森林作为预测最新一期债券信用风险的模型。
特征重要性
特征重要性(Feature Importance)是指在机器学习模型中,各个特征对预测结果的贡 献程度。通过评估特征的重要性,我们可以了解哪些特征在模型决策过程中起到了关键 作用,哪些特征可能是冗余的或不重要的。特征重要性通常通过模型的训练过程计算得 到,对于树模型(如决策树、随机森林、XGBoost 等),它通常基于特征对信息增益、分 裂节点的影响等进行评估。高重要性的特征意味着它们对模型的预测结果影响较大,低 重要性的特征则可能不提供有价值的信息。特征重要性可以帮助我们优化模型、进行特 征选择,甚至提升模型的可解释性。 计算随机森林模型中特征的平均重要性,排名前 10 的特征中有 7 个为对应上市公司财 务指标,2 个债券本体相关指标以及 1 个上市公司股票量价相关指标,前 10 名指标的合 计占据 58.92%的重要性。
最新截面预测
选取 2024 年 11 月 1 日至 2024 年 12 月 20 日的信用风险样本以及 2024 年第三季报截 面的正常样本构成验证集,我们首先对比在最新一期截面发生的信用风险事件以及模型 给出的预测概率情况。可以看到,对于已经产生的信用风险事件,随机森林均给出了相 对准确的分类(预测概率均大于 50%),并且调整概率均大于 50%。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)