2025年金工深度研究：LLM赋能资产配置，基于新闻数据的AI宏观因子构建与应用

华泰证券2025/09/25
举报

本文导读

市场是由“叙事”驱动的——关于经济的叙事、关于公司的叙事、关于未来的叙事。文本信息是这些叙事的主要载体。传统量化模型只能量化“叙事”的结果，如经济数据、资产价格等，而大语言模型（Large Language Model，LLM）等技术让我们能够直接量化“叙事”本身。对于自上而下的资产配置而言，重难点在于刻画宏观状态及其与资产间的互动关系。相较于相对滞后且信息量有限的结构化数据，文本信息作为一种另类数据源，能够提供对经济更及时和丰富的洞察。

LLM 赋能资产配置：关键在于“增强认知”而非“替代决策”

LLM 如何赋能资产配置？最直接的思路是依托模型预训练所得的推理能力，根据文本信息对资产进行情感打分；或是将宏观、行业及市场行情相关信息全部输入，由模型自主判断未来的风格走势。然而，这类做法实质上是将过多的决策权让渡于 LLM，其固有的幻觉问题可能会放大投资偏差。我们曾尝试直接使用 LLM 根据文本信息对主要大类资产进行情感打分，发现即便是在比较清晰的 prompt 指引下，模型的幻觉问题依然严重，包括但不限于： 1) 虚构内容：生成原文中并未出现的事件或数据，如从“研究发现股指期货流动性对现货市场波动性具有影响”解读出利好股市的信号，认为“股指期货流动性充裕降低现货市场波动性”；这一结论单看合理，但纯属模型自行推断生成，偏离了文本事实； 2) 过度泛化：将个别股票或局部行业的情绪错误地推广至整个指数，如将“某家新能源公司的技术突破”判断为利好沪深 300，忽视了该成分股在指数中的权重以及行业新闻对宽基指数的有限影响； 3) 判断不当：对文本所描述的事实对资产的潜在影响判断失误，如认为“深交所对公司 A 和公司 B 发出关注函，质疑双方是否存在一致行动人关系”利好黄金，因为“避险情绪升温”，因果关系建立不当。

此外，我们还发现，在从宏观信息中解读对资产的影响时，LLM 通常遵循一种分步推理机制：首先将文本信息映射到特定宏观维度，并判断该维度的变化趋势，再对宏观变量与资产价格之间的关联进行推断，且 LLM 对宏观趋势判断的准确率往往高于对资产价格变化方向的预测。这表明，尽管 LLM 能够从海量训练数据中习得一般性的经济学规律，但在涉及 “定量”推演与“博弈”权衡的复杂判断——例如宏观变化对资产价格的影响方向、幅度与时滞方面，由于缺乏真实世界价格信号的充分训练，仍容易产生幻觉或系统性偏差。事实上，我们可以先借助 LLM 做好宏观叙事的提取和量化，将策略博弈交由专业投资者和传统量化模型。因此，我们认为，LLM 赋能资产配置的正确思路并非替代投资者直接做出投资判断，而是作为一个高效的“信息处理与推理加速器”，增强投资者在宏观认知层面的广度和对宏观事件的响应速度。这是一种从“利用结构化数据实现对宏观经济的降维和抽象建模”到“利用非结构化数据实现对宏观经济的高维感知和认知升维”的思路转变。

基于文本信息构建宏观因子：核心在于宏观信息的有效提炼

本研究作为 LLM 赋能资产配置系列的开篇，选取易于获取的新闻数据作为文本信息源，尝试从海量新闻数据中提取有效的宏观信息，并进行信息的量化，构建 AI 宏观因子，以更及时、更全面地刻画宏观状态。与结构化数据相比，文本信息在刻画宏观状态方面具有以下增量价值： 1) 宏观解读深化：宏观量化中常面临对经济指标判断过于僵化的问题。不同阶段市场对经济关注的重点不同，文本信息提供了数值之外的观点性解读，信息含量更丰富； 2) 跨市场覆盖：使用文本信息能够快速对多国宏观进行建模，可以自动筛选出市场关注度高的重要数据，减轻了人工选择与整合数据的工作量； 3) 拓展宏观维度：文本可以捕捉难以量化的宏观信息，从而扩展宏观状态的刻画维度，弥补了传统结构化数据在此类软性维度上的缺失； 4) 高频实时刻画：文本信息更新频率高，为构建日度或更高频的宏观情绪与事件因子提供了基础。

AI 宏观因子的构建流程与传统宏观因子类似：(1) 筛选反映宏观的文本信息；(2) 数据预处理；(3) 判断文本反应的宏观状态变化，统一方向；(4) 因子合成。AI 宏观因子的有效性高度依赖于前三步对宏观信息的提炼质量。本研究提出了一套从海量新闻中提炼有效宏观信息的框架。该框架强调“任务解耦”和“减轻幻觉”原则，即将宏观分析拆解为多个子任务，并依据任务特点针对性选配语言模型，以充分发挥 LLM 的强大语义理解能力。同时引入提示工程和大小模型协同等策略，以减轻 LLM 的幻觉问题： 1) 提示工程：目标不是消除幻觉，而是尽可能减少 LLM“自由发挥”的空间，将其引导至期望的输出格式和逻辑上。通过“生成-抽样-分析-优化提示”的多轮迭代来提升 LLM 输出的一致性与准确性； 2) 大小模型协同：采用“LLM 标注+人工复核”生成高质量标注数据，兼顾 LLM 的广度与人类的深度；然后训练轻量化专用模型用于大规模批量标注。这个方法充分发挥了 LLM 在语义理解上的优势，同时利用小模型可控、高效和低耗的特点，实现大规模新闻的高稳定性标注与实时分析，显著降低了幻觉发生率与计算成本。

该框架具备良好的可迭代性，任一子任务均可随基座模型升级而独立优化，从而持续提升整体框架的性能与适应能力。具体而言，整个因子构建流程包含三个核心环节： 1) 新闻预处理。从原始新闻数据出发，依次进行宏观新闻的粗筛、事件切割与去重，旨在滤除无关噪声并整合冗余信息，从而得到“宏观信息含量”更高的新闻事件数据集； 2) 结合 LLM 与人工标注高质量数据集。针对目标宏观维度，使用 LLM 对新闻事件反应的宏观状态进行初步情感标注。为缓解 LLM 的幻觉问题，需要针对性优化 Prompt 并引入人工复核，对错误样本进行纠偏； 3) 微调 Bert 模型实现知识蒸馏。利用经过校验的高质量数据集对轻量化模型进行微调与知识蒸馏，固定参数确保结果可复现。然后使用微调后的模型对新闻事件进行批量标注。本研究选取经济增长和地缘政治与国际关系这两个维度进行因子构建尝试。对于经济增长维度，文本信息能提供对“硬数据”的多维解读和“软事件”的补充描述。对于地缘政治与国际关系维度，文本信息可以将难以量化的地缘政治与国际关系事件转化为可分析的指标。下文主要分为三个部分，第一部分介绍数据预处理流程，第二部分介绍因子构建流程并展示因子构建效果，第三部分尝试将因子应用于资产配置。

数据预处理：提纯新闻中的宏观信息

本部分我们从原始新闻数据出发，依次进行新闻粗筛、事件切割和去重，构建高质量的宏观新闻数据集以用于后续研究。在此过程中，我们强调“任务解耦”，即针对不同任务选用最适合的模型，充分发挥 LLM 的工具属性，同时兼顾效率与效果。

新闻数据说明

本研究所使用的新闻数据来自大智慧财汇、新浪财经等多家数据提供商，包含发布时间、发布机构、标题及正文等基本要素，覆盖个股、行业、宏观等多个维度，但缺乏明确的新闻类别标签，所以需要自行构建分类体系。综合考虑数据可得性、处理效率与信息质量，我们选取 2014-07-01 至 2025-08-31 期间的样本，并聚焦于可用新闻数量达标、影响力大且可靠性高的全国性主流媒体机构。

预处理流程

步骤 1：新闻粗筛

由于原始数据缺少“新闻分类”标签，我们需自主构建一个分类系统以实现对宏观新闻的初步筛选。我们考虑了以下三种分类方案： 1) 使用本地部署的 LLM 完成全量新闻分类； 2) 使用 API 调用商业版 LLM 完成全量新闻分类； 3) 借助推理能力较强的 LLM 标注高质量样本，然后训练一个轻量化模型，固定参数后用于批量新闻分类。方案一的优势在于成本较低且数据私密性高，但其处理速度严重依赖本地硬件性能；方案二的优点在于高效便捷，但推理调用成本高。值得注意的是，前两种方案均难以有效缓解 LLM 普遍存在的“幻觉问题”。本研究选择方案三，因为方案三在效率与效果之间取得了较好平衡——利用 LLM 高效生成标注样本，再通过蒸馏得到的轻量模型（如 Bert）执行快速分类。同时，通过对 LLM 标注结果进行人工复核，可有效减轻幻觉问题——因为人工审核能够识别并纠正模型生成的不合理标签，从而提升训练数据的质量，进一步保障分类器的可靠性。此方案也会在后续处理时使用。

考虑到宏观新闻分类任务的难度和推理需求，LLM 端可以使用本地部署的中等规模参数模型，或者商业版模型如 Qwen-Plus。后者在效果、速度和成本上相对均衡，且支持批量推理。批量推理是阿里云推出的一项服务，对于无需实时响应的业务场景，批量推理服务可以通过离线方式进行大规模数据处理，且计费仅为实时推理的 50%。轻量化模型端选取 Bert 模型。Bert 模型是一类通过大量语料进行预训练的语义表征模型，可针对下游具体任务进行微调。具体而言，我们选用由澜舟科技于 2021 年发布的 mengzi-bert-base-fin1模型。该模型具有参数量适中、推理速度快、对中文金融数据处理任务适配良好等优点。Bert 模型的详细介绍可参考《人工智能 37：舆情因子和 BERT 情感分类模型》（2020-10-22）。我们按照如下步骤进行数据准备和模型训练： 1) 新闻预处理：对新闻的标题和正文进行清洗，去除无效字符、具体时间等噪音信息，保留新闻的明确语义，避免模型过度依赖时间等“伪特征”； 2) LLM 标注数据集：使用 Qwen-Plus 模型对新闻进行分类，选择新闻标题作为输入，因为对于高质量新闻而言，标题通常高度概括正文核心内容，信息密度高，同时文本长度显著短于正文，有利于降低标注成本并提升大模型处理效率。输出标签设为 5 类：M（宏观新闻），P（市场行情），I（行业新闻），C（公司新闻），O（其他）。不选择宏观-非宏观的二分类标签，是因为通过多分类（M/P/C/I/O）任务中的对比学习，模型能更深刻地理解“宏观”的边界与特征，从而比直接进行二分类获得更精准、更可靠的识别效果。我们随机抽取样本进行标注，并确保各个类别的标签对应的样本量保持一致，最终得到 150000 条标注好的数据集，并人工进行抽样复核； 3) Bert 模型训练：将标注好的样本划分为训练集、验证集和测试集，划分比例为 4:1:1，在 mengzi-bert-base-fin 模型的基础上进行微调。微调后的模型在测试集上表现优异，准确率为 0.9529，F1 分数为 0.9308，具有较高的预测精度，说明“LLM 标注+微调 Bert 模型”的方法能够满足宏观新闻粗筛的任务需求，同时兼顾效果和效率。我们使用微调后的 Bert 模型对剩余样本进行分类，预测概率阈值设置为 0.8，最后从 5804404 条新闻中获得 624411 条宏观新闻（占比 10.75%）。

步骤 2：事件切割

对于粗分类为宏观新闻的样本，我们将新闻正文内容进一步切分为子事件集，主要基于以下两点考虑：(1) 模拟人的分析思路。专业的分析师在处理复杂宏观新闻时，一般会将其拆解为多个独立的驱动因素，并逐一评估每个事件的影响。(2) 便于后续模型训练。将新闻提炼为更小的、更聚焦的子事件，可以避免同一条新闻内部观点的相互抵消，能够为下游的模型训练提供更精细、更具结构化的数据，从而提升模型在理解和处理复杂信息时的准确性，也降低了后续分析的时间和成本开销。此外，对每一条子事件都需要标注两个关键标签——国别/地区和时间性质。国别/地区标签用于后续宏观事件的地域分类；时间性质用于标识子事件的时间指向性，服务于后续因子构建。时间性质标签主要包含三类： 1) 历史回溯（H）：对已发生事件或历史数据的描述与总结； 2) 现实陈述（R）：对最新发布、正在发生或当前状态的客观报道； 3) 未来预期（E）：对未来情况的预测、预估、展望或前瞻性指引。

具体操作上，考虑到新闻正文字数累加之和高达 9.1 亿，我们使用阿里云的 Qwen-Long 系列模型完成事件切割任务。Qwen-Long 是一款专为超长上下文处理设计的大模型，适用于实体抽取、长文本推理等任务且成本相对较低，能够同时满足我们对效果、效率和经济性的要求。该任务的需求十分明确，Prompt 设计需要注意以下几点： 1) 需要输入新闻的发布时间，并清晰界定不同时间性质的分类标准，辅助模型判断新闻的时间性质； 2) 需强调保留事件的关键描述，包括但不限于主体、行为、对象、数据、观点等； 3) 需要强调保留影响资产价格的宏观事件，忽略次要信息； 4) 需要严格约束输出格式，强调事件与国别、时间性质的一一对应。最终从 624411 条原始宏观新闻中识别出 1635684 个子事件，平均一条新闻对应 3 个宏观子事件。根据语义相似度去重后剩下 1303072 个子事件。从事件的分布趋势上看，2020 年开始新闻数量激增。从国别/地区方面看，中国相关新闻最多，其次是美国、日本、英国等。从时间性质方面看，反映既定事实的宏观现况事件（R）占比最高，宏观预期类事件（E）次之。历史回溯类（H）事件也有一定比例，该类事件缺乏时效性，不提供增量信息，遂不纳入后续分析。

需说明的是，我们并不训练轻量化模型来进行国别/地区标签和时间性质的分类，主要原因有两点：(1) 标签分类依赖信息完整性。准确判断国家/地区和时间性质，需要全面理解原始新闻的全部内容。而轻量化模型在长文本理解和上下文整合方面能力有限。(2) 使用 LLM 更具效率。子事件的切割任务必须借助 LLM。在此过程中，同时输出额外的标签不会显著增加计算成本和 token 消耗。

因子构建：量化宏观新闻中的有效信息

本部分主要介绍从宏观事件中提取有效信息并构建宏观因子的处理流程。该流程核心在于综合利用 LLM 的高效处理能力与人类专家的判别能力，制备高质量的结构化数据集，并训练高效可靠的轻量级 Bert 模型用于大规模生产部署。该方案延续并深化了我们在宏观新闻粗筛阶段采用的有效策略（方案三），可以有效地缓解 LLM 的幻觉问题。整体流程可概括为以下四个关键步骤：(1) 确定宏观分析维度；(2) 使用 LLM 标注初始数据；(3) 引入人工复核确保数据质量；(4) 训练并固定轻量模型参数，实现知识蒸馏。我们选取经济增长和地缘政治与国际关系这两个维度进行因子构建尝试。

因子构建流程

步骤 1：结合 LLM 与人工标注高质量数据集

LLM 在标注数据集的任务中类似一个实习生，效率很高，可以快速写出初稿，但可能存在细节错误、逻辑不严谨或事实性偏差（即“幻觉”），需要进行有效引导和人工复核。提示工程是引导的一种方式，它的目标不是消除幻觉，而是尽可能减少 LLM“自由发挥”的空间，将其引导至期望的输出格式和逻辑上。我们可以通过提供明确指令、定义输出、提供少样本示例、提供链式思考逻辑等引导 LLM 进行初步标注。“生成-抽样-分析-优化提示” 的过程需要经过多轮迭代才能有效修正 LLM 的系统性错误，进而提升其输出的准确率与一致性。但 LLM 的本质是概率生成模型，它的底层机制决定了幻觉难以根除，所以需要人的介入，进一步提升数据集的质量。宏观新闻分析的核心在于区分“事实”与“观点”，后者是增量信息，即从文字中判断事实相对于市场已知信息（预期、目标、趋势）是“好”还是“坏”，以及“好/坏”的程度。我们会对宏观事件进行三个方面的标注：(1) 相关性判断：是否和选定的宏观维度直接相关（相关-Y/不相关-N），确保后续分析聚焦关注维度上。(2) 方向性判断：判断相关事件所体现的宏观变化方向（积极-P/消极-N/不确定-U），将文本信息转化为具有预测指向性的信号。(3) 影响强度判断：评估事件的影响程度或重要程度（取值范围为[0,1]）。在对多个推理能力较强的大模型进行迭代测试后，我们发现提示工程的优化能大幅提高 LLM 的标注效果，减轻人工复核的工作量。下表是以经济增长为例给出了一些经验性总结。

以经济增长为例，我们进行了 10 次随机抽样，每次抽取 5 万份样本进行文本识别，LLM 模型选取推理能力较强的 Qwen-Max。结果表明，与未使用提示工程优化的 LLM 标注结果相比，经过优化的模型在对相关性和情感方向的判断上表现更为严格，能够有效去除噪音信息，且正负样本分布更均衡。我们选取 2014 年 8 月至 2020 年 12 月作为样本内，使用优化后的 LLM 对宏观事件进行初步标注，然后人工复核，形成带标签的数据集，用于后续的 Bert 模型训练。

步骤 2：微调 Bert 模型实现知识蒸馏

根据新闻标注宏观情感是一个多任务学习（Multi-Task Learning, MTL）问题，Bert 模型需要同时完成相关性判断（Relevance）、方向性判断（Direction）和影响强度判断（Intensity）三个子任务。我们采用预训练的 mengzi-bert-base-fin 模型作为共享的特征编码器。所有任务的输入文本首先通过该 Bert 模型，取其[CLS]的最终隐藏状态作为整个输入句子的压缩语义表示。这一步使得三个子任务能够共享底层的语言知识和语法语义特征，提升了模型的泛化能力和数据利用效率。在共享的 Bert 特征之上，我们为每个子任务构建了独立的轻量级神经网络层（即输出头），以捕获任务特定的模式： 1) 相关性判断头（二分类任务）：由一个线性层构成，将共享特征映射为 1 个神经元，并通过 Sigmoid 激活函数输出一个 0 到 1 之间的概率值，表示该新闻与目标宏观维度相关的置信度； 2) 方向性判断头（三分类任务）：由一个线性层构成，将共享特征映射为 3 个神经元（分别对应正面、中性、负面），并通过 Softmax 函数输出三个类别的概率分布； 3) 影响强度判断头（回归任务）：由一个线性层构成，输出 1 个神经元。为了将预测值约束在[0,1]的合理范围内，我们同样使用 Sigmoid 函数对其进行激活，将其输出解释为归一化的强度分数。

步骤 3：计算新闻宏观情感得分并合成因子

计算新闻宏观情感得分的步骤如下： 1) 剔除无效样本。过滤掉相关性判断为“N”（不相关）以及情感方向判断为“U”（无明显观点或中性）的新闻样本，确保后续分析仅基于具备明确倾向性的有效数据； 2) 计算单事件原始得分。将有效新闻的方向判断标签（P/N）转换为数值形式（1/-1），并与对应的事件强度数值相乘，得到每个事件的原始情感得分； 3) 新闻级别情感聚合。针对同一新闻对应多个事件的情况，计算该新闻内所有事件得分的平均值，作为该新闻的整体情感得分。这一步骤可以避免因事件拆分数量不均导致的单条新闻权重失真问题； 4) 构建日度指标。将同一交易日内的所有新闻得分再次进行平均计算，最终生成日频的新闻宏观情感得分，取值范围为[-1,1]，绝对值大小反映情绪强度。

因子构建效果

AI 经济增长因子

本研究选取的经济增长的衡量因素包括但不限于：(1) 核心经济指标；(2) 影响增长的核心驱动力的变化；(3) 与经济前景等有关的判断。最终从 1303072 个原始宏观事件中识别出了 311512 个相关样本。其中，正面新闻（反应增长向好/预期向好）的比例为 28.71%，负面新闻（反应增长悲观/预期悲观）的比例为 23.86%，中性新闻的比例为 47.43%。在所有相关且方向非中性的新闻事件中，现实类新闻（R）和预期类新闻（E）的年度分布情况如下表所示，整体上现实类新闻数量大于预期类新闻数量，正负比例分布相对均衡。

构建因子时，我们可以根据国别/地区标签，构建不同国家的 AI 增长因子；可以根据时间性质标签，分别构建增长现实因子、增长预期因子和综合增长因子。受限于样本量，本研究仅展示 AI 中国增长因子和 AI 美国增长因子的构建结果，预期因子和综合因子仅展示 2020 年及之后的构建结果。此外，考虑到样本量分布失衡会影响新闻情感得分的分布，我们使用滚动 zscore 标准化方式对日频因子值进行二次处理，后续因子处理同理。增长因子上行表示增长景气提升，下行表示增长景气回落。基于新闻事件构建的 AI 因子能有效追踪和刻画中国经济的高频增长变化。我们通过两种周期因子（滚动 3 个月均值和滚动 1 年均值）来展示其效果： 1) AI 短周期因子：能够迅速捕捉宏观事件的影响。例如，在 2024 年“9·24”一揽子刺激政策发布后，该因子迅速回升，反映市场情绪的积极转变。而在 2025 年 3 月中下旬开始，关税风波下该因子迅速回落，捕捉到关税不确定性对增长预期的削弱； 2) AI 长周期因子：与花旗中国经济意外指数（实际数据与彭博预测数据之差的 3 个月移动平均）走势大体一致，但两者在 2024 年截至 8 月份的走势出现较大背离。2025 年 4 月下旬以来，AI 因子的复苏斜率小于花旗指数。近期 AI 中国经济增长因子的走势表明：(1) 长周期现实向好但预期不足。AI 长周期现实因子自 2024 年 10 月开始持续爬升，但预期因子自今年 5 月开始下滑；(2) 短周期经济复苏动能趋缓。AI 短周期因子 6 月份已下滑至负值区间，表明短周期经济复苏动能趋缓。

由于 2020 年之前的可用新闻样本数过少，统计失真，所以我们统一从 2020 年开始展示 AI 美国经济增长因子的构建效果。整体上看，现实因子和预期因子的走势较为一致；AI 因子与花旗美国经济意外指数的走势趋同，但 AI 因子的细节波动更多。今年以来，AI 美国短周期因子自 1 月份开始持续下滑，直至 4 月见底，5 月开始持续回升，于 7 月升至正值区间且 7 月以来呈现预期强于现实的特征。

AI 地缘政治与国际关系因子

本研究选取的地缘政治与国际关系（简称“地缘政治”，下同）的衡量因素包括但不限于： (1) 地缘政治冲突；(2) 国际贸易政策与冲突；(3) 重大领导人外交言论；(4) 国家间重要经济合作。最终从 1303072 个原始宏观新闻事件中识别出 106580 个相关样本。其中，正面新闻（反应地缘政治风险下降/国际关系缓和等）的比例为 26.69%，负面新闻（反应地缘政治风险上升/国际关系紧张等）的比例为 26.73%，中性新闻的比例为 46.31%。在所有相关且方向非中性的新闻事件中，现实类新闻（R）和预期类新闻（E）的年度分布情况如下表所示，整体上现实类新闻数量略大于预期类新闻数量，自 2022 年以来负面新闻占比趋势提升，2025 年来负面新闻激增。

考虑到地缘政治属于全球性维度，我们不进行具体国别/地区的区分。同样地，我们分为现实因子、预期因子和综合因子进行展示。地缘政治因子上行表示地缘局势缓和，下行表示地缘局势紧张。从构建结果看，AI 地缘政治因子能有效追踪和刻画全球地缘政治与国际关系局势，预期和现实因子同步性高： 1) AI 长周期因子：自 2024 年以来，地缘政治局势紧张程度持续加深； 2) AI 短周期因子：2024 年 10 月开始，AI 地缘政治短周期因子持续下探，直至 2025 年 4 月份关税风波暂缓后才开始回升。今年 7 月份开始重新回落，8 月中旬跌至负值区间。我们将 AI 因子与美联储经济学家 Caldara 和 Lacoviello（2022）构建的地缘政治风险指数进行了对比。该指数基于主流报纸中与负面地缘政治事件相关的文章数量占总文章数的比例编制而成。总体来看，AI 地缘政治因子因涵盖更多维度而体现出更丰富的细节，如 2018 年，地缘政治风险指数窄幅波动，而 AI 地缘政治因子因捕捉到了中美贸易摩擦事件呈现下行趋势。2021 年以来，AI 地缘政治因子的走势与地缘政治风险指数较为一致，但表现出更丰富的细节波动。

因子应用：AI 因子赋能资产配置

应用一：AI 中国经济增长因子用于股债择时

我们选取沪深 300 指数作为中国股票资产的代表，选取中债-国债总净价(7-10 年)指数（简称“7-10 年国债净价指数”，下同）作为中国债券资产的代表。宏观因子与股债同比口径的相关性统计结果表明，AI 增长因子与股票明显正相关，与债券明显负相关，相关性强度显著高于传统宏观指标（花旗中国经济意外指数与中采制造业 PMI）。

进一步地，我们测试 AI 中国增长因子对于股债的择时效果。首先，我们对 AI 因子进行预处理。使用滚动 1 年均值口径的长周期因子，并降频至周频。2020 年前使用现实因子，2020 年及之后使用综合因子（现实因子和预期因子等权相加）。然后，我们使用前期报告《中国 PPI 的 Nowcasting 与通胀敏感型行业轮动》（2024-12-10）中设计的双均线系统，对周频 AI 因子计算趋势得分，即计算多组不同参数的双均线得分取均值，以减轻参数敏感。趋势得分的取值范围为[0,1]，得分越高表示上行趋势越强，反之则表示下行趋势越强。我们选择 0.7 作为判定位于上行趋势的阈值，0.3 作为判断因子位于下行趋势的阈值。

回测区间为 2016-02-28 至 2025 年-08-31，周频择时，不考虑手续费。对于股票资产，当趋势得分大于等于 0.7 时满仓，当趋势得分小于等于 0.3 时空仓，得分位于 0.3 至 0.7 之间时半仓。对于债券资产，与股票资产相反操作。基准策略为“50%资产+50%现金”。结果表明，AI 中国增长因子能够对股债资产的表现进行有效区分。AI 股票择时策略的年化超额收益为 6.55%；AI 债券择时策略的年化超额收益为 1.36%。模型自今年 1 月 12 日开始看多股票，看空债券，至今信号仍未发生变化。

应用二：AI 地缘政治与国际关系因子用于黄金择时

我们选取 COMEX 黄金期货价作为黄金资产的代理变量。相关性统计结果表明，2020 年以来，AI 地缘政治因子与黄金呈现明显的负相关性，即地缘局势趋紧利好黄金，且相关性强度显著优于地缘政治风险指数。

接着，我们使用 AI 地缘政治综合因子对 COMEX 进行择时测试。且同时使用长周期因子（滚动 1 年均值口径）和短周期因子（滚动 3 个月均值口径）发观点，黄金仓位调整规则如下： 1) 若长周期与短周期因子的趋势得分均不超过 0.3，则黄金仓位为 100%； 2) 若其中一个因子得分不超过 0.3，则黄金仓位为 75%； 3) 若两个因子得分均不低于 0.7，则黄金仓位为 0%； 4) 若仅一个因子得分不低于 0.7，则黄金仓位为 25%； 5) 其余情形黄金仓位均为 50%。基准策略为“50%黄金+50%现金”。回测区间为 2020-01-01 至 2025-08-31，其余参数设置与前文一致。结果表明，2020 年以来，AI 地缘政治因子能够对 COMEX 黄金进行有效择时，择时策略的年化超额收益为 4.41%。截至 2025-08-31，模型最新一期仓位调整发生于 2025-08-24，黄金仓位由 2025-05-25 的 25%上调至 75%。

总结与思考

本研究作为 LLM 赋能资产配置系列的开篇，论证了基于文本信息构建宏观因子的方法论与可行性。我们提出了一套以“任务解耦”和“减轻幻觉”为核心的可拓展性较强的处理框架。通过宏观新闻筛选、事件结构化解析、多模型协同与人工校验等一系列流程，实现从高噪声文本中提取高质量宏观信息，并构建了在经济增长和地缘政治等维度具有增量信息的另类因子。实证表明，本研究构建的 AI 高频因子对资产具有较强的解释力度，可以作为相关资产的一个择时指标，且与资产的相关性好于传统的低高频指标。尽管本研究为利用 LLM 构建文本宏观因子提供了一个可行的框架，并取得了初步的实证效果，但仍存在若干局限性： 1) 数据源的广度与深度局限：新闻通常侧重于报道客观事实，而对市场深层、主观的情绪波动和多样化的解读视角捕捉有限。这可能导致所构建的因子更多反映共识性预期，而难以捕捉潜在的情绪转折或市场分歧； 2) 基座模型的性能局限：为确保研究框架的严谨性与可复现性，避免使用未来信息，本研究采用了较早版本的 Bert 模型进行知识蒸馏。但模型性能受限，可能影响信息提炼的精度。且考虑到时间成本，本研究仅进行了一次性的模型训练，合理的做法是周期性滚动训练，让模型不断学习； 3) 事件处理的精细度局限：仅基于语义相似性对进行事件去重不够彻底，更合理的方案是构建一个动态的宏观事件知识库，对事件进行主题聚类与脉络梳理，从而识别出同一事件的长期演变序列。此外，将连续文本切割为独立事件虽利于标准化处理，但也损失了事件发展的上下文信息和历史脉络。

针对上述不足，未来的研究工作可从以下几个方向展开： 1) 拓展多源异构文本数据：整合宏观报告、政策文件、社交媒体舆情等多源数据，构建一个层次更丰富、视角更全面的宏观文本数据集； 2) 基座模型优化：在成本允许的前提下可尝试高性能模型，进行滚动逐期训练； 3) 构建动态事件图谱：探索基于 LLM 的更精细的事件库构建； 4) 探索更多“软性”宏观维度：将本框架应用于构建更多难以量化的宏观维度因子，充分利用文本信息的优势。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）