2025年基于财报文本的情感语调的分析：DeepSeek辅助识别财务瑕疵

国信证券2025/04/18
举报

财务造假上市公司样本整理

造假的违规类型

认定财务造假需满足三个要件：主观故意性、财务数据操纵性、误导利益相关者目的性。在15个违规类型中，通常认为虚构利润、虚列资产、虚假记载、重大遗漏、披露不实、欺诈上市、一般会计处理不当为财务造假类违规。

样本初步处理

在财务造假样本筛选中，本文的数据来源于CSMAR数据库的“ 财务违规表”。本文选择2010年1月1日之后的样本进行分析。同时，由于财务造假的处罚公布具有滞后性，因此决定暂时不研究最近2年，即2023年12月31日之后的所有样本。

财务造假上市公司的行业、造假类型、年份分布

通讯服务行业财务造假公司占比最高（19.4%），金融和公用事业领域造假比例最低（均低于8.5%），显示出行业监管强度、业务复杂性与财务舞弊风险负相关关系。财务造假持续时间与公司数量呈显著负相关，约58.3%的造假行为集中在1-2年内暴露或终止，表明系统性舞弊难以长期维持，且监管纠偏机制在中期（3-5年）逐渐显效。 2010-2018年财务造假公司数量及占比持续攀升（从7.5%增至 17.9%），2019年后呈下降趋势（2023年财务造假率反常骤降则主要由于财务造假行为暴露的滞后性），反映证券法修订后监管趋严，财务造假行为得到显著遏制。

财务造假上市公司的行业、造假类型、年份分布

从行业动态与违规模式演变来看，财务造假呈现显著的结构性特征：行业风险周期分化：2010-2018年间，通讯服务、能源与金融行业成为违规重灾区，其中通讯服务行业违规率从2010年的8.7%激增至2018 年的32.7%，金融业在2015年因资产端扩张与监管套利导致违规率达25.6%的历史峰值。这一趋势与行业特性密切相关——通讯服务行业技术迭代快、资本开支密集，管理层倾向于通过模糊技术商业化进展（重大遗漏）掩盖现金流压力；能源行业则受大宗商品价格波动驱动，常通过虚增储量或成本资本化调节利润。2019年后随着新《证券法》实施及穿透式监管推进，全行业违规率普遍下行，但房地产行业在2022 年仍维持15.5%的高违规率，凸显行业流动性危机下企业通过虚增预售收入、隐匿表外负债等复合手段粉饰报表的顽疾。违规手段迭代升级：信息披露违规（重大遗漏57.8%、虚假记载54.9%）取代传统利润操纵成为主流，其技术隐蔽性体现在两方面，一是通过选择性披露行业利好政策、弱化技术研发失败风险、构建片面叙事误导投资者；二是借助复杂术语包装关联交易、利用模糊表述规避业绩承诺。相较而言，虚构利润和虚列资产因审计程序中对银行流水、存货监盘的强化而大幅萎缩。

基于结构化数据构建财务造假识别模型特征池

特征池构建——基于结构化财报数据

数据来源与筛选依据：聚焦上市公司定期财务报告信息，提取标准化财务报表数值信息（资产负债表、利润表、现金流量表等）。采用年度报告作为核心数据来源，主要因其具备完整性，涵盖法定披露的全部财务与非财务信息。具体数据来源于CSMAR数据库的“ 财务指标分析表”。

特征构建原则：基于跨公司&跨行业可比性考虑，1）采用比率型指标：将绝对值转化为相对值（如资产负债率、销售净利率）；2）归一化&标准化：对不同行业内的样本指标通过Max-Min方法将指标值限定在[0,1]区间，且进行Z-score标准化处理；3）行业属性处理：保万得一级行业分类作为控制变量，采用独热编码处理行业属性。4）多维度覆盖原则：从8个维度构建财务指标体系，分别为偿债能力、经营能力、盈利能力、发展能力、比率结构、风险水平、现金流分析、每股指标。

特征池优化机制：1）充足性筛选：剔除缺失值超过50%的指标；2）显著性检验：保留p值小于0.1的因子。3）离群值处理：采用IQR方法，离群值用上下限代替。

原有8个维度，总计378个指标，对于指标数据缺失超过 50%的样本直接进行删除，同时对所有指标进行显著性检验，筛选出 p 值小于 0.1的指标。最终保留指标 100 个，财务造假样本 5483 个，控制样本 42046 个。

DeepSeek辅助构建基于财报文本的情感语调因子

非结构数据：基于财报文本的情感语调因子

传统财务指标受会计准则和法律约束，可能存在人为操纵空间，而文本情感语调反映了管理层对企业经营状况的真实情绪流露，具有更强的隐蔽性特征。过度积极的表述可能是管理层掩盖财务问题的策略，如虚增收入时通过夸大描述转移投资者注意力；负面情绪升高往往预示资金链紧张或业绩下滑，可能触发管理层通过财务造假缓解短期压力。而且从合法性的角度来看，年报文本中流露出的负面情绪也是公司为了降低投资者预期，避免未来遭遇法律诉讼困扰的必要手段。文本情感分析捕捉非结构化风险线索：情绪矛盾：财务数据向好但语调消极，可能暗示数据真实性存疑；模糊表述：大量使用复杂术语或转折词（如“尽管”、“但是”）可能掩盖真实风险；行业异常：与同行业情感倾向偏离较大的公司更可能存在舞弊。从DeepSeek生成的财报文本情感语调分数分布来看，财务造假公司的情感语调分数整体低于正常公司的情感语调分数；这一规律在以万得一级行业分类后的样本中依旧成立。

情感语调因子在财务造假识别模型中的表现

DeepSeek情感语调因子加入特征池前后Logistic模型表现对比

加入情感语调因子后，模型在召回率（测试集：65.27%→69.01%，+3.74%）得到提升，第二类错误同步下降，验证了情感因子在识别财务造假场景中的核心价值。尽管其他指标（准确率、特异性）有所下降，但这反映了模型在平衡“抓造假”与“保正常”目标时的合理权衡。在财务造假检测中，降低漏判（第二类错误）的优先级通常高于误判（第一类错误），因此情感因子对召回率的提升具有实际意义。

财务造假公司往往在财报文本中隐含负面情感信号（如模糊措辞、矛盾逻辑、过度乐观修饰），情感因子通过量化文本情感倾向，帮助模型更敏感地捕捉这些特征，强化对造假样本的识别能力。作为线性模型，Logistic通过调整特征权重优化分类边界。情感因子通过正向权重调整（负面情感→更高造假概率），直接扩大了造假类别的判别边界，从而提高召回率。

DeepSeek情感语调因子加入特征池前后Logistic模型特征变量重要性

1）情感因子隐性协同：虽未进入前10，但通过调整财务指标权重分布（如偿债能力指标重要性提升、ROA权重下降），间接强化模型对造假信号的组合识别能力。2）财务主导逻辑稳固：前10全为财务指标（盈利能力/偿债能力/每股指标），情感语调因子仅辅助优化特征关联，解释召回率提升源于财务与情感信号的线性组合增强。3）业务兼容性优先：模型保持"财务基本面为主，情感为辅"的可解释结构，符合风控场景对财务指标核心地位的强依赖。

DeepSeek情感语调因子加入特征池前后LightGBM模型表现对比

从训练集和测试集的指标来看，LightGBM模型整体存在一定程度的过拟合，泛化能力仍有提升空间。单从召回率观测，训练集与测试集的召回率差距从26.38%（70.86% vs. 44.48%）缩小至25.38%（77.52% vs. 52.14%），说明模型泛化性未因情感因子而恶化，反而测试集指标优化更显著。

加入情感语调因子后，LightGBM模型的召回率显著提升（测试集：44.48%→52.14%，+7.66%），第二类错误同步下降（55.52%→47.86%）。召回率提升幅度高于此前Logistic回归模型（+3.74%）。情感语调因子在财务造假检测场景中对原有特征池的优化作用仍然得到体现。

基于LightGBM特性可进行特征工程强化以提升模型泛化能力，如通过SHAP值分析情感因子对预测造假的贡献方向，若负面情感与高造假概率强相关，可对极端负面样本加权训练，或对LightGBM误判的正常样本（第一类错误）进行聚类分析，识别潜在误标或新型造假模式，反哺特征工程等。

特征变量在Logistic、MLP、LightGBM模型中的平均重要性排名

情感语调因子的模型依赖性：情感语调因子依赖模型类型，其在非线性模型（MLP第2、LightGBM第4）中表现强劲，但在线性模型（Logistic第34）中重要性较小，说明需通过复杂交互挖掘。

召回率提升的核心驱动力：MLP/LightGBM中情感语调分别贡献了最高的召回率增幅（+8.93%/+7.66%），验证其作为文本风险信号的独立判别力，尤其在当下违规手段迭代升级，信息披露违规取代传统利润操纵成为财务造假隐蔽手段，情感语调的预警作用意义重大。

与传统财务指标的协同性：情感语调与固定资产比率（MLP第1）、现金资产比率（LightGBM第2）等高权重财务指标形成交叉验证，如"高固定资产+负面情感"组合可能指向资产虚增类造假，提升综合预警能力。

业务落地优先级：尽管情感语调因子平均重要性排名与资产负债率并列第九（受Logistic拖累），但在实际应用中应优先考虑 MLP/LightGBM模型，充分发挥情感语调在复杂场景中的补充作用，而非受限于线性模型的弱表现。

未来优化方向：需针对情感语调开发细粒度衍生特征（如情感波动性、行业情感基准校准），进一步释放其在非线性模型中的潜力，构建"财务+文本"双引擎风控体系。

AI挖掘财报文本信息的拓展路径

AI挖掘财报文本信息的拓展路径：基于Zero-Shot的财报文本直接分析模式

核心逻辑：对比原情感语调因子，仅输出单一情感评分本质是全局文本情绪浓缩，无法区分具体风险类型。基于ZeroShot的财报文本分析利用大模型（如DeepSeek）的通用语义理解能力，无需特定训练即可从财报文本中挖掘潜在造假信号，通过Prompt工程引导模型生成结构化风险标签。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）