AI技术快速发展,推动模型能力持续提升
近年来全球AI持续发展,大模型在知识问答、数学、编程等能力上达到新高度,多种任务上表现超过人类水平,在各领域的可用性及准确度快速提升。从模型技术来看:1)当前模型主流架构逐步转向MoE,通过将输入Token分配给不同的专家模型,让模型在处理复杂任务时展现出更强的能力,同时也能有效降低训练、推理所需的资源,DeepSeek-V3、Qwen3、Llama 4等模型均采用MoE架构取得了低成本的高性能表现;2)模型的多模态能力显著增强,通过跨模态对齐、异构数据融合等技术,模型能够处理图像、视频、音频等多种类型的数据,从而丰富了模型的应用场景,GPT-4o、Gemini 2.5 Pro等领先模型均采用多模态技术;3)模型开始采用思维链技术,将复杂问题逐步分解为多个简单步骤,并按照步骤推导最终答案,通过分步推理的方法,模型的回答不仅更加精确可靠,其思考过程也变得清晰可懂。2024年9月,OpenAI发布o1模型,首次将思维链技术运用在底层模型当中,大幅提高了模型在测试中的表现,后续DeepSeek-R1等模型均采用思维链技术,全球模型进入推理时代。除上述方面外,模型量化、超长上下文窗口、多种RAG变体、偏好微调等技术的发展亦共同推动了模型可用性的进步,为AI在垂直领域的应用奠定了基础。
模型加速迭代,测评成绩跃升
模型迭代速率加快、规模与能力不断提升。2025年以来,全球大模型行业正式告别了以年为单位的代际演进,转而进入了以季度甚至月度为周期的竞速时代。头部厂商的模型更新频率已从2024年的四个月以上大幅压缩至三个月内,以Anthropic为例,2024年3月公司推出了Claude3系列,随后推出Claude3.5系列,并分别于6月和10月推出Sonnet和Haiku系列,共同构成了对Claude3家族的重大升级。2025年,Anthropic于2月推出Claude3.7 Sonnet,三个月后的5月又推出Claude 4,8月公司就推出Opus4.1,更新速度相较于2024年快了进50%,从季度更新向月度更新演进。
国内方面,Deepseek、字节跳动、阿里巴巴、智谱、Minimax等头部厂商也并未放缓其模型迭代的速度。以Deepseek为例,继2024年底发布V3及2025年1月推出R1模型后DeepSeek便迅速于3月和5月推出了V3-0324与R1-0528等增强版本,并穿插发布了DeepSeekProver-V1(4月)以强化逻辑证明能力。进入下半年,其技术飞轮进一步加速:8月推出DeepSeek V3.1,9月发布3.2-Exp实验版,10月与11月分别补齐了DeepSeek OCR与DeepSeekMath V2等关键模态拼图,最终在12月正式落地DeepSeek V3.2,模型能力不断提升,版本迭代加速。
中美模型差距缩小,国产大模型崛起
美国顶尖公司和实验室占据模型性能高地,中美模型代差逐渐减少。自2022年ChatGPT发布以来,中美前沿模型之间的性能差距虽然一直存在,但目前已缩窄至历史最小水平。据斯坦福大学数据,2023年美国模型在性能上显著超越中国模型,在LMSYS聊天机器人竞技场中,2024年1月表现最好的美国模型比最佳的中国模型高出9.26%。到了2025年2月,差距缩小到仅1.70%。根据ArtificialAnalysis数据,当前中国领先AI实验室与美国领导者的性能差距已从ChatGPT发布后的超过一年,缩小到不到三个月。
多模态大模型更新汇总:Sora 2
2025年9月30日,OpenAI发布最新的旗舰视频与音频生成模型Sora 2。最初的Sora模型在2024年2月推出,在许多方面堪称视频领域的GPT-1时刻。从那时起,Sora团队便专注于训练具有更先进世界模拟能力的模型。OpenAI认为Sora 2发布直接跨越到了视频领域的GPT3.5时刻,可以做到此前视频生成模型极其困难、甚至不可能做到的事情:如奥运体操动作、在桨板上做后空翻并准确模拟浮力与刚性的动力学效果等,该模型在可控性方面也实现了巨大飞跃,能够遵循跨越多个镜头的复杂指令,同时准确保持世界状态的延续性,在现实风格、电影风格以及动漫风格的视频生成上都表现出色。
Sora 2能够创造复杂的背景声效、语音和音效,并具备高度的真实感。用户可以将现实世界的元素直接注入到Sora 2中,例如通过观察OpenAI团队成员的视频,模型就能将其插入到任意Sora生成的环境中,并且准确还原外貌和声音。这一能力具有高度的通用性,适用于任何人类、动物或物体,这验证了在视频数据上继续扩展神经网络规模以更接近模拟现实的路径。同时,OpenAI正式发布一款新的社交iOS应用,由Sora 2驱动,用户可以创作、混合彼此的生成内容,在可定制的Sora动态中发现新视频,并通过cameo(客串)功能把自己或朋友带进作品里。用户只需在应用中完成一次性的视频和音频录制,用于验证身份并捕捉形象,就能直接把自己放入任意Sora场景中。
基础大模型更新汇总:Claude Opus 4.6
2026年2月6日,Anthropic推出新版本基础大模型Claude Opus 4.6,这代模型规划更加谨慎,能够维持更长时间的自主工作流程,并在关键的企业基准测试中超越了包括GPT-5.2在内的竞争对手。新模型首次拥有100万token的上下文窗口,使AI能够处理和推理比以往版本更多的信息。Anthropic还在Claude Code中引入了类似于Kimi K2.5的智能体团队功能,允许多个AI智能体同时处理编码项目的不同方面,并进行自主协调。
Opus 4.6在多项评估中均表现出色,在智能体编码评估工具Terminal-Bench 2.0中取得了最高分,并在人类最后的考试(一项复杂的多学科推理测试)中领先于所有其他前沿模型。在GDPval-AA(一项评估模型在金融、法律和其他领域中具有经济价值的知识工作任务上的表现的测试)中,Opus 4.6的表现比业界次优模型(OpenAI的GPT-5.2)高出约144个Elo分数,比其前身(Claude Opus4.5)高出190分。此外,Opus 4.6在BrowseComp测试中也优于其他所有模型,该测试用于衡量模型在线查找难寻信息的能力。
目前大模型的一个常见问题是上下文腐烂,即当对话token数量超过一定阈值时,模型性能会下降。Opus 4.6的性能显著优于其前代产品:在MRCR v2的变体测试中,Opus 4.6的得分为76%,而Sonnet 4.5的得分仅为18.5%。这标志着模型在保持最佳性能的同时,能够利用的上下文信息量发生了质的飞跃。
近期大模型更新汇总:M2.5
公司认为取得上述进展的核心原因是大规模的强化学习,显著地提升了模型能力以及对脚手架、环境的泛化性。通过AgentRL框架、算法和Reward设计、工程优化的co-design,公司支持了对任意Agent脚手架与环境的高效优化,在包括大量公司内部真实任务的数十万个Agent脚手架与环境上大规模训练,验证了模型能力随算力和任务数的scaling取得近线性提升。
Forge作为一个原生Agent RL框架,在设计上通过引入中间层完全解耦了底层训推引擎与Agent,支持任意Agent的接入,使得公司可以优化模型在Agent脚手架和工具上的泛化。为了提升系统吞吐,公司优化了异步调度策略来平衡系统吞吐和样本的off-policyness,并设计了树状合并训练样本的训练策略,实现了约40倍的训练加速。算法层面,公司沿用了年初提出的CISPO算法以保障MoE模型在大规模训练中的稳定性。针对Agent场景长上下文带来的信用分配难题,引入了过程奖励机制(Process Reward)对完成质量进行全链路监控。此外,为深度对齐用户体验,公司直接估计任务在真实环境下的耗时并作为Reward,在模型效果与响应速度之间实现了更好的平衡。



(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)