2025年金融工程专题报告：GPT-5发布，金融文本分析推理评测

国金证券2025/08/15
举报

一、GPT-5：更强的理解力与长文本推理

2025 年 8 月 8 日，OpenAI 通过技术直播正式发布了 GPT-5，标志着大模型从“对话助手” 向 “博士级智能协作体”的进化。GPT-5 首次使用了内嵌式三位一体集成架构，颠覆了前代模型的独立运行模式。主要由 3 个核心模型组成，分别是处理日常查询的高效应答模型（GPT-5 Main）、解决复杂任务的深度推理模型（GPT-5 Thinking），以及作为架构“大脑” 实时决策的智能路由系统（Real-Time Router），附带一个额度使用超限后启动的轻量版 GPT-5 Mini 模型。智能路由机制是一项重要创新，该机制会根据对话类型、复杂程度、工具需求以及使用者的明确意图，快速决定使用哪个模型，用最适合的模型来解决用户提出的问题。路由机制会持续接受真实信号的训练，包括用户切换模型的情况、对回应的偏好率以及测得的正确性等，因此其性能会随着时间不断提升。

1.1 场景化能力的专业突破

根据 OpenAI 公开的测试数据，GPT-5 在医疗健康、数学、编码和多模态理解领域的表现全部大幅超越前代。在健康领域，根据 HealthBench 评估体系对 GPT-5 模型家族进行的全面测试，GPT-5 Thinking 在该领域的表现大幅超越包括 GPT-4o、o1、o3 和 o4-mini 在内的所有前代模型。其中，在 HealthBench Hard 这一挑战性评估中，面对高难度医学沟通，其得分从 o3 的 31.6%提升至 46.2%，复杂病情解析能力显著提升。数学推理方面，GPT-5 在 2025 年美国 AIME 测试中无工具得分 94.6%，在 Python 工具协同下达 99.6%。而对于最具挑战性、最复杂的任务，GPT-5 Pro 专业版使用 Python 后得分达到 100%。

GPT-5 在事实性与内容可靠性方面较上一代旗舰模型 OpenAI o3 实现显著优化。以长文本与多轮推理任务为例，GPT-5（长思考版）在多项专业评测的幻觉率较 o3 降低约六倍，在事实准确性基准测试 LongFact 和 FActScore 中，GPT‑5 的错误率仅为 o3 的五分之一。在复杂知识整合、跨文档引用和事实判断等场景中表现出更高的一致性与可信度。编码是 GPT-5 最突出的核心能力。在基于真实软件工程任务的 SWE-bench Verified 评估中，GPT‑5 以更高的效率和速度得分 74.9%，大幅超越 o3 与 GPT-4o，已经能独立完成系统级开发。在应用场景上，GPT-5 只需单次提示就能自动快速完成一个单页应用程序的开发；还可以制作交互式内容来解释复杂概念；分钟级快速开发完整财务分析模版等。

另外，GPT-5 在协作 Cursor、Windsurf 和 Codex CLI 等智能体编码产品的过程中表现突出。能够在运行过程中，在工具调用间隙输出执行计划、状态更新和操作摘要。在两个月前发布的工具调用基准测试 τ2-bench telecom 中，GPT-5 以 96.7%的成绩刷新了业界最优水平，该测试用于揭示语言模型在用户可变更环境状态下的性能显著衰减现象。 GPT‑5 改进的工具智能使其能够可靠地串联数十次工具调用（无论串行还是并行），保持路径一致性，在执行复杂的现实端到端任务时表现得远优于其他模型。它还更精确地遵循工具指令，更好地处理工具错误，并在长背景信息内容检索方面表现出色。

1.2 API 功能优化定制

ChatGPT 中的 GPT‑5 是一个包含推理、非推理和路由器模型的系统，在 API 平台中，GPT‑ 5 则是驱动 ChatGPT 实现最佳性能的推理模型。OpenAI 现已在 API 平台以三种规格提供： gpt-5、gpt-5-mini 和 gpt-5-nano，以赋予开发人员更多灵活性，在性能、成本和延迟之间进行权衡。

GPT‑5 的 API 中引入了几个重要的新功能，让开发人员能以更可控的方式在速度、token 成本与答案深度之间作取舍。它把“输出详尽度”和“推理强度”做成显式参数，支持新的 verbosity 参数（取值：low/medium/high），帮助控制模型回答的详尽程度；支持设置 reasoning_effort 参数（minimal/low/medium/high）为最小值，来更快获取答案，而无需先进行大量推理。 API 还新增了一种自定义工具，使它能够使用纯文本形式编写而非 JSON 格式调用，使用者可以主动避免因输入内容过长导致的转义问题。GPT‑5 在长上下文信息性能方面也展现出显著提升。在 OpenAI-MRCR 衡量长上下文信息检索能力的指标中，GPT‑5 的表现优于 o3 和 GPT‑4.1，且随着输入长度的增加，优势显著扩大，这对用户大规模调用 API 任务的回答质量有显著提升。

可见，上下文长度在 10k Tokens 以下时，各代 GPT 模型答案匹配率都很高，超过 10k 后，模型精度出现不同程度的下降。其中，GPT-5 模型与正确答案的匹配度随着上下文长度的成倍增加仅有小幅下滑，表现出色。这一大模型在复杂长文本理解与推理能力上的突破，为依赖大量多源异构信息的金融领域带来广阔应用前景，多方面便利金融工作，包括调研纪要的实时转录与智能摘要，跨报告关联分析，文献快速筛选与元数据分析等。我们通过 Cursor 接入 GPT-5 API，对 GPT-5 的长复杂文本输入的记忆推理能力进行测试，通过输入 2 万字符以上包括中文、数据报表、英文名词、权责说明在内的某行业公司研报内容，让 GPT 模型输出精炼的 1500 字以内的整体研究框架，并与前代模型进行对比。

从输出来看，GPT-4o 模型输出调用 JSON 格式，可读性较差。且模型对出现在复杂长文本之前的问题设定存在记忆衰减，未能满足提示词对输出长度和输出形式的要求，且对带有混淆信息的长文本理解、推理能力不足，输出的框架多以问题形式给出，缺乏逻辑性和总结性。而 GPT-5 模型输出为纯文本形式，满足提示词要求的同时，输出框架存在明显推导逻辑链，且表达精炼，更接近成熟框架。在用户使用体验上，GPT-5 已在 API 平台发布三个规格的模型，上下文总交互长度达到 400k，使用部署方便，并实施分层次定价来满足多样化需求。

总体来看，GPT-5 在架构创新、推理能力、安全机制及 API 灵活性等方面实现了全方位技术突破与体验升级，叠加 OpenAI 在生态构建、产品迭代及企业级部署能力上的持续深耕，其有望进一步拓宽在金融领域的落地边界，推动多源信息整合与结构化、动态策略跟踪与优化、自动化编码、知识库管理等高价值场景的规模化落地，全面赋能金融多场景创新，显著提升工作效率，并筑牢内容质量防线。

二、高频因子超额收益概览

过去一周，各类高频因子多头组合在中证 1000 指数成分股中的表现稳定。其中，价格区间类因子多空收益率 0.07%，多头超额收益率-0.06%。量价背离因子多空收益率 0.05%，多头超额收益率 0.79%。遗憾规避因子多空收益率为-1.40%，多头超额收益率-0.52%。

三、各类高频因子近期表现跟踪

3.1 高频价格区间因子

在前期研究中，我们从高频数据的角度探究了市场的日内微观结构。利用三秒的快照数据，发现：高价格区间成交笔数与成交量因子与股票未来收益呈现显著的负相关性，即股票在日内高价格区间投资行为聚集程度与成交活跃度越低，未来上涨可能性越大。低价格区间平均每笔成交量因子与股票未来收益呈现显著的正相关性，即低价格区间的平均每笔成交量越大，大资金活跃程度越高，股票未来上涨可能性越大。我们发现高价格 80%区间成交量因子（VH80TAW）、高价格 80%区间成交笔数因子（MIH80TAW）和低价格 10%区间每笔成交量因子（VPML10TAW）在周频的调仓频率上表现较好。

3.2 高频量价背离因子

在前期深度报告《Alpha 掘金系列之二：基于高频快照数据的量价背离选股因子》中，我们发现，当量价出现背离时，无论当前股价处在上升还是下降通道，未来上涨的可能性均较高；同理，当量价趋同时，股价未来下跌的可能性较高。我们利用高频快照数据对价格和成交量的相关关系进行衡量，分别用快照成交价和快照收益率与快照成交量、成交笔数和每笔成交量计算。

可以看出，因子自 2020 年以来，收益呈现出下降的趋势，也和众多机构开始越来越多使用高频因子有关。因子在样本外整体表现也比较平淡，但今年以来表现良好，能相对稳定获取正的超额收益。

3.3 遗憾规避因子

在前期深度报告《Alpha 掘金系列之四：基于逐笔成交数据的遗憾规避因子》中，我们利用行为金融学中的遗憾规避理论发现，利用投资者的遗憾规避情绪可以构造出有效的选股因子。如某只股票买入浮亏占比较高或买入浮亏程度较大时，股票的预期收益会更高；卖出后股价反弹的占比越高或反弹程度越大时，股票的预期收益会更低。

3.4 斜率凸性因子

股票作为二级市场上被广泛交易的标的，其价格与供需量的变化受到供需弹性的规律影响。而高频快照数据中的限价订单簿所独有的委托量和委托价信息，为我们提供了绝佳的研究数据来源。我们首先将委托量数据按照其档位进行累加，用委托价和累计委托量计算出买卖双方的订单簿斜率。发现日频斜率因子基本符合我们的一般认知：即买方斜率越大，股票的需求弹性越小，买方投资者对于股票的价格敏感程度较低，则股票有更高的预期收益。对于卖方而言，斜率越小则股票的供给弹性越大，即减少相同的价格会有较大程度的委托量降低，表明卖方不愿轻易降价卖出，同样对应到股票更高的预期收益。我们将按照订单所在档位区分为高档位投资者斜率因子和低档位斜率因子，并根据两者的反向关系构建出斜率凸性因子。最后提取出低档斜率因子（Slope_abl）和高档位卖方凸性因子(Slope_alh)进行合成。

四、基于基本面因子与高频因子构建的中证 1000 指数增强策略表现

为考虑高频因子的实际选股表现，我们将上述三类高频因子等权合成构建了高频“金”组合中证 1000 指数增强策略。策略调仓频率为周度，手续费率为单边千分之二，基准为中证 1000 指数。为降低调仓手续费对策略的影响，我们加入换手率缓冲的机制降低调仓成本。

可以看出，指数增强策略在样本外同样表现出色，有着较强的超额收益水平。策略在上周、本月以来和今年以来的超额收益表现如下。近几月以来出现阶段性调整，上周录得 0.21% 的超额收益，本月以来超额收益为 0.19%，今年以来超额收益为 7.89%。

一般而言，高频因子与传统基本面因子的相关性较低，将表现较好的基本面因子和高频因子进行结合能够有效提升多因子投资组合的表现，为此我们构建了基于多因子的高频&基本面共振组合中证 1000 指数增强策略。其中基本面因子包括：一致预期、成长和技术因子，高频因子为本篇报告上述的三类因子。

可以看出，加入基本面因子后的指数增强策略的各项业绩指标均有一定程度提升。且在样本外表现稳定，有着较强的超额收益水平。近期表现整体较好，上周录得 0.50%的超额收益，本月以来超额收益为 0.14%，今年以来超额收益为 5.81%。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）