整体流程可概括 为以下四个关键步骤:
步骤 1:结合 LLM 与人工标注高质量数据集
LLM 在标注数据集的任务中类似一个实习生,效率很高,可以快速写出初稿,但可能存在 细节错误、逻辑不严谨或事实性偏差(即“幻觉”),需要进行有效引导和人工复核。提示 工程是引导的一种方式,它的目标不是消除幻觉,而是尽可能减少 LLM“自由发挥”的空 间,将其引导至期望的输出格式和逻辑上。我们可以通过提供明确指令、定义输出、提供 少样本示例、提供链式思考逻辑等引导 LLM 进行初步标注。“生成-抽样-分析-优化提示” 的过程需要经过多轮迭代才能有效修正 LLM 的系统性错误,进而提升其输出的准确率与一 致性。但 LLM 的本质是概率生成模型,它的底层机制决定了幻觉难以根除,所以需要人的 介入,进一步提升数据集的质量。 宏观新闻分析的核心在于区分“事实”与“观点”,后者是增量信息,即从文字中判断事实 相对于市场已知信息(预期、目标、趋势)是“好”还是“坏”,以及“好/坏”的程度。我 们会对宏观事件进行三个方面的标注:(1) 相关性判断:是否和选定的宏观维度直接相关(相 关-Y/不相关-N),确保后续分析聚焦关注维度上。(2) 方向性判断:判断相关事件所体现的 宏观变化方向(积极-P/消极-N/不确定-U),将文本信息转化为具有预测指向性的信号。(3) 影 响强度判断:评估事件的影响程度或重要程度(取值范围为[0,1])。在对多个推理能力较强 的大模型进行迭代测试后,我们发现提示工程的优化能大幅提高 LLM 的标注效果,减轻人 工复核的工作量。下表是以经济增长为例给出了一些经验性总结。
以经济增长为例,我们进行了 10 次随机抽样,每次抽取 5 万份样本进行文本识别,LLM 模 型选取推理能力较强的 Qwen-Max。结果表明,与未使用提示工程优化的 LLM 标注结果相 比,经过优化的模型在对相关性和情感方向的判断上表现更为严格,能够有效去除噪音信 息,且正负样本分布更均衡。我们选取 2014 年 8 月至 2020 年 12 月作为样本内,使用优 化后的 LLM 对宏观事件进行初步标注,然后人工复核,形成带标签的数据集,用于后续的 Bert 模型训练。

步骤 2:微调 Bert 模型实现知识蒸馏
根据新闻标注宏观情感是一个多任务学习(Multi-Task Learning, MTL)问题,Bert 模型需 要同时完成相关性判断(Relevance)、方向性判断(Direction)和影响强度判断(Intensity) 三个子任务。我们采用预训练的 mengzi-bert-base-fin 模型作为共享的特征编码器。所有任 务的输入文本首先通过该 Bert 模型,取其[CLS]的最终隐藏状态作为整个输入句子的压缩语 义表示。这一步使得三个子任务能够共享底层的语言知识和语法语义特征,提升了模型的 泛化能力和数据利用效率。在共享的 Bert 特征之上,我们为每个子任务构建了独立的轻量 级神经网络层(即输出头),以捕获任务特定的模式: 1) 相关性判断头(二分类任务):由一个线性层构成,将共享特征映射为 1 个神经元,并 通过 Sigmoid 激活函数输出一个 0 到 1 之间的概率值,表示该新闻与目标宏观维度相 关的置信度; 2) 方向性判断头(三分类任务):由一个线性层构成,将共享特征映射为 3 个神经元(分 别对应正面、中性、负面),并通过 Softmax 函数输出三个类别的概率分布; 3) 影响强度判断头(回归任务):由一个线性层构成,输出 1 个神经元。为了将预测值约 束在[0,1]的合理范围内,我们同样使用 Sigmoid 函数对其进行激活,将其输出解释为归 一化的强度分数。
步骤 3:计算新闻宏观情感得分并合成因子
计算新闻宏观情感得分的步骤如下: 1) 剔除无效样本。过滤掉相关性判断为“N”(不相关)以及情感方向判断为“U”(无明 显观点或中性)的新闻样本,确保后续分析仅基于具备明确倾向性的有效数据; 2) 计算单事件原始得分。将有效新闻的方向判断标签(P/N)转换为数值形式(1/-1),并 与对应的事件强度数值相乘,得到每个事件的原始情感得分; 3) 新闻级别情感聚合。针对同一新闻对应多个事件的情况,计算该新闻内所有事件得分的 平均值,作为该新闻的整体情感得分。这一步骤可以避免因事件拆分数量不均导致的单 条新闻权重失真问题; 4) 构建日度指标。将同一交易日内的所有新闻得分再次进行平均计算,最终生成日频的新 闻宏观情感得分,取值范围为[-1,1],绝对值大小反映情绪强度。
AI 经济增长因子
本研究选取的经济增长的衡量因素包括但不限于:(1) 核心经济指标;(2) 影响增长的核心 驱动力的变化;(3) 与经济前景等有关的判断。最终从 1303072 个原始宏观事件中识别出 了 311512 个相关样本。其中,正面新闻(反应增长向好/预期向好)的比例为 28.71%,负 面新闻(反应增长悲观/预期悲观)的比例为 23.86%,中性新闻的比例为 47.43%。在所有 相关且方向非中性的新闻事件中,现实类新闻(R)和预期类新闻(E)的年度分布情况如 下表所示,整体上现实类新闻数量大于预期类新闻数量,正负比例分布相对均衡。
构建因子时,我们可以根据国别/地区标签,构建不同国家的 AI 增长因子;可以根据时间性 质标签,分别构建增长现实因子、增长预期因子和综合增长因子。受限于样本量,本研究 仅展示 AI 中国增长因子和 AI 美国增长因子的构建结果,预期因子和综合因子仅展示 2020 年及之后的构建结果。此外,考虑到样本量分布失衡会影响新闻情感得分的分布,我们使 用滚动 zscore 标准化方式对日频因子值进行二次处理,后续因子处理同理。增长因子上行 表示增长景气提升,下行表示增长景气回落。 基于新闻事件构建的 AI 因子能有效追踪和刻画中国经济的高频增长变化。我们通过两种周 期因子(滚动 3 个月均值和滚动 1 年均值)来展示其效果: 1) AI 短周期因子:能够迅速捕捉宏观事件的影响。例如,在 2024 年“9·24”一揽子刺 激政策发布后,该因子迅速回升,反映市场情绪的积极转变。而在 2025 年 3 月中下旬 开始,关税风波下该因子迅速回落,捕捉到关税不确定性对增长预期的削弱; 2) AI 长周期因子:与花旗中国经济意外指数(实际数据与彭博预测数据之差的 3 个月移 动平均)走势大体一致,但两者在 2024 年截至 8 月份的走势出现较大背离。2025 年 4 月下旬以来,AI 因子的复苏斜率小于花旗指数。 近期 AI 中国经济增长因子的走势表明:(1) 长周期现实向好但预期不足。AI 长周期现实因 子自 2024 年 10 月开始持续爬升,但预期因子自今年 5 月开始下滑;(2) 短周期经济复苏 动能趋缓。AI 短周期因子 6 月份已下滑至负值区间,表明短周期经济复苏动能趋缓。
由于 2020 年之前的可用新闻样本数过少,统计失真,所以我们统一从 2020 年开始展示 AI 美国经济增长因子的构建效果。整体上看,现实因子和预期因子的走势较为一致;AI 因子 与花旗美国经济意外指数的走势趋同,但 AI 因子的细节波动更多。今年以来,AI 美国短周 期因子自 1 月份开始持续下滑,直至 4 月见底,5 月开始持续回升,于 7 月升至正值区间 且 7 月以来呈现预期强于现实的特征。

AI 地缘政治与国际关系因子
本研究选取的地缘政治与国际关系(简称“地缘政治”,下同)的衡量因素包括但不限于: (1) 地缘政治冲突;(2) 国际贸易政策与冲突;(3) 重大领导人外交言论;(4) 国家间重要经 济合作。最终从 1303072 个原始宏观新闻事件中识别出 106580 个相关样本。其中,正面 新闻(反应地缘政治风险下降/国际关系缓和等)的比例为 26.69%,负面新闻(反应地缘 政治风险上升/国际关系紧张等)的比例为 26.73%,中性新闻的比例为 46.31%。在所有相 关且方向非中性的新闻事件中,现实类新闻(R)和预期类新闻(E)的年度分布情况如下 表所示,整体上现实类新闻数量略大于预期类新闻数量,自 2022 年以来负面新闻占比趋势 提升,2025 年来负面新闻激增。
考虑到地缘政治属于全球性维度,我们不进行具体国别/地区的区分。同样地,我们分为现 实因子、预期因子和综合因子进行展示。地缘政治因子上行表示地缘局势缓和,下行表示 地缘局势紧张。从构建结果看,AI 地缘政治因子能有效追踪和刻画全球地缘政治与国际关 系局势,预期和现实因子同步性高: 1) AI 长周期因子:自 2024 年以来,地缘政治局势紧张程度持续加深; 2) AI 短周期因子:2024 年 10 月开始,AI 地缘政治短周期因子持续下探,直至 2025 年 4 月份关税风波暂缓后才开始回升。今年 7 月份开始重新回落,8 月中旬跌至负值区间。 我们将 AI 因子与美联储经济学家 Caldara 和 Lacoviello(2022)构建的地缘政治风险指数 进行了对比。该指数基于主流报纸中与负面地缘政治事件相关的文章数量占总文章数的比 例编制而成。总体来看,AI 地缘政治因子因涵盖更多维度而体现出更丰富的细节,如 2018 年,地缘政治风险指数窄幅波动,而 AI 地缘政治因子因捕捉到了中美贸易摩擦事件呈现下 行趋势。2021 年以来,AI 地缘政治因子的走势与