2025年高频因子跟踪：GPT_5.2_Codex发布，长程任务与网络安全能力升级

国金证券2026/01/09
举报

GPT-5.2-Codex：更强的长程任务执行与网络安全能力

2025 年 12 月 18 日，OpenAI 正式发布 GPT-5.2-Codex，其被称为“迄今最前沿的智能体编码模型”。GPT-5.2-Codex 基于 GPT-5.2，并针对 Codex 智能体编码进行了深度优化，具体改进包括：1）通过上下文压缩提升长程任务执行能力；2）在大规模代码变更（如重构与迁移）中具备更出色的性能；3）在 Windows 环境下实现更优表现；4）在网络安全方面显著增强。

1.1 开拓软件工程新境界

GPT-5.2-Codex 既延续了 GPT-5.2 在专业领域的优势，又融合了 GPT-5.1-Codex-Max 的前沿智能体编码与终端操作能力。依托更强的长上下文理解、可靠的工具调用、更高的事实准确性，以及原生上下文压缩技术，它在长期编码任务中具备更高的可信度，同时在推理过程中保持高效的 Token 使用。这些特性使其在处理大型代码库、长时间会话时，能稳定保持上下文完整性；即便是面对计划调整或尝试失败的情况，也能持续迭代而不丢失进度，更加从容地应对大规模重构、代码迁移与功能开发等复杂需求。根据 OpenAI 公开的测试数据，GPT-5.2-Codex 在 SWE-Bench Pro 和 Terminal-Bench 2.0 基准测试中取得了优异成绩。其中，SWE-Bench Pro测试为模型提供一个代码仓库，要求其生成补丁以完成真实的软件工程任务；Terminal-Bench 2.0 基准测试旨在评估 AI 智能体在实际终端环境中的能力，涵盖的任务包括编译代码、训练模型和配置服务器。在 SWE-Bench Pro测试中，GPT-5.2-Codex 的准确率为 56.4%，较 GPT-5.2、GPT-5.1 分别提升了 0.8%、5.6%；在 Terminal-Bench 2.0 测试中，GPT-5.2-Codex 的准确率为 64.0%，较 GPT-5.2、GPT-5.1-Codex-Max 分别提升了 1.8%、5.9%。在原生 Windows 环境中，其智能体编码表现也更加高效和可靠，进一步延展了 GPT-5.1-Codex-Max 的前沿能力。

GPT-5.2-Codex 可以将设计稿快速转化为可运行的原型，更精准地理解在编码过程中共享的截图、技术图表、数据图以及用户界面。

1.2 网络安全能力显著增强

GPT-5.2-Codex 是 OpenAI 已部署模型中网络安全能力最强的版本，显著优于前代模型。专业夺旗赛（CTF）评测用于衡量模型在 Linux 环境中解决高级、多步骤的真实挑战的能力，模型需要具备专业级的网络安全技能。在该评测中，从 GPT-5-Codex 开始，模型网安能力出现显著跃升，随后在 GPT-5.1-Codex-Max 上又有一次大幅提升，如今在 GPT-5.2- Codex 上迎来了第三次飞跃。OpenAI 预计，未来的 AI 模型将继续沿着这一发展轨迹前进。

根据 OpenAI 公开的测试数据，GPT-5.2-Codex 模型在 CVE-Bench 评测基准中实现增量提升，相比 GPT-5.1-Codex-Max 表现更优，且较更早版本模型有显著进步。这一提升同样得益于多上下文窗口连贯工作能力，使其能通过近乎暴力破解的方式，运行大量命令、尝试多种工具以探索潜在漏洞利用机会。

网络靶场（Cyber Range）评估中，GPT-5.2-Codex 综合通过率为 72.7%，在 11 个预设场景中通过 8 个，首次攻克“泄露令牌”场景，未通过“金融资本”“HTTPS 预言机”“中等 C2”3 个复杂场景。与前代模型相比，其综合通过率低于 GPT-5.1-Codex-Max 的 81.8%，高于 GPT-5.2-Thinking 的 63.6%，且与 GPT-5.2-Thinking 均未通过上述 3 个场景。

Irregular 外部评估中，GPT-5.2-Codex 在漏洞研究与利用类成功率 80%、网络攻击模拟类 79%、规避类 49%，CyScenarioBench 场景无成功案例；其中网络攻击模拟类平均成功成本 32.80 美元/次，规避类 17.90 美元/次，漏洞研究与利用类 5.90 美元/次。尽管 GPT-5.2-Codex 在网络安全能力的表现上相对其他模型较好，但其仍未达到 Preparedness 框架下的“高能力”等级。模型要达到该等级，需同时具备三项关键技能： 1）发现高级且具有实际操作意义的漏洞；2）实现目标导向的端到端攻击自动化；3）保持操作一致性以扩大破坏规模或规避检测。经安全咨询小组和 OpenAI 领导层评估，其在一些关键维度未满足要求，因此未被判定为“高网络安全能力”模型。例如，在 CVE-Bench 评测中，模型仍存在偶发错误，未达到“高能力”所需的“持续一致性”要求，这类不一致性与规模化网络操作的核心需求相悖。总体来看，GPT-5.2-Codex 凭借长程任务执行、跨模态理解及网络安全能力的核心升级，叠加 OpenAI 在智能体编码领域的深度优化与安全机制打磨，其有望进一步打通金融领域复杂场景的技术落地瓶颈，推动量化策略代码开发与迭代、金融合规审计自动化、交易系统漏洞防护、多源金融数据结构化整合等高价值场景的规模化应用，全面赋能金融科技创新与风险管控，显著提升金融机构的研发效率与安全防护水平，并筑牢金融业务合规与数据安全防线。

高频因子超额收益概览

过去一周，各类高频因子多头组合在中证 1000 指数成分股中的表现稳定。其中，价格区间类因子多空收益率-0.72%，多头超额收益率 0.50%。量价背离因子多空收益率 0.35%，多头超额收益率-0.76%。遗憾规避因子多空收益率为 0.92%，多头超额收益率 0.32%。

各类高频因子近期表现跟踪

3.1 高频价格区间因子

在前期研究中，我们从高频数据的角度探究了市场的日内微观结构。利用三秒的快照数据，发现：高价格区间成交笔数与成交量因子与股票未来收益呈现显著的负相关性，即股票在日内高价格区间投资行为聚集程度与成交活跃度越低，未来上涨可能性越大。低价格区间平均每笔成交量因子与股票未来收益呈现显著的正相关性，即低价格区间的平均每笔成交量越大，大资金活跃程度越高，股票未来上涨可能性越大。

3.2 高频量价背离因子

在前期深度报告《Alpha 掘金系列之二：基于高频快照数据的量价背离选股因子》中，我们发现，当量价出现背离时，无论当前股价处在上升还是下降通道，未来上涨的可能性均较高；同理，当量价趋同时，股价未来下跌的可能性较高。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）