2025年AI大模型应用分析:开源模型占据三分之一市场份额的背后逻辑

2025年成为人工智能大语言模型发展的关键转折点。随着2024年12月OpenAI推出首款广泛应用的推理模型o1,整个行业从单次模式生成转向多步思考推理,加速了AI技术的实际部署和应用创新。OpenRouter平台基于超过100万亿token的真实使用数据开展的实证研究显示,开源模型已占据约三分之一的市场份额,并且在创意角色扮演和编程辅助等特定领域展现出显著优势。研究发现,AI应用正从简单的问答交互向复杂的多步工具调用和推理任务演进,全球使用模式呈现明显地域差异。本文将深入分析当前AI大模型市场的竞争格局、应用场景变迁、技术演进趋势以及区域市场特点,为行业参与者提供全面的市场洞察。

一、开源与闭源模型的竞争格局:双轨并行下的市场分化​

根据OpenRouter平台的数据分析,2025年AI大模型市场形成了开源与闭源双轨并行的发展格局。尽管闭源模型在整体使用量上仍保持约70%的份额,但开源模型的增长势头令人瞩目,从2024年底的微不足道份额稳步提升至2025年末的约30%市场份额。这一增长并非偶然,而是与主要开源模型的发布周期紧密相关。数据显示,每当有竞争力的开源模型发布,如DeepSeek V3和Kimi K2等,都会引发使用量的显著增长,且这种增长具有持续性,表明用户确实将这些模型用于生产环境而非短期实验。

中国开发的开源模型在这一增长中扮演了重要角色。从2024年底仅占1.2%的周份额起步,中国开源模型在2025年稳步提升,在某些周份甚至达到总使用量的近30%。在整个一年观察期内,中国开源模型平均占据周token量的13.0%,而其他地区的开源模型平均为13.7%,闭源模型则保持70%的平均份额。这一现象反映了中国模型在质量竞争力、快速迭代和密集发布周期方面的优势。像Qwen和DeepSeek这样的模型通过定期更新实现了对新兴工作负载的快速适应,显著改变了开源领域的竞争格局。

从模型规模角度看,市场出现了明显分化。参数少于150亿的小型模型尽管数量众多,但使用份额持续下降;参数在150亿至700亿之间的中型模型找到了明确的市场定位,特别是自2024年11月Qwen2.5 Coder 32B发布后,这一细分市场逐渐成熟;而参数超过700亿的大型模型则呈现多元化竞争态势,用户在不同高性能模型间进行选择而非集中于单一标准。这种分化表明用户在选择模型时更加注重能力与效率的平衡,而非简单地追求最大参数规模或最低成本。

模型供应商的竞争格局也发生了显著变化。早期DeepSeek家族模型(V3和R1)曾占据开源模型使用量的过半份额,形成近乎垄断的市场结构。然而,随着2025年夏季转折点的到来,市场变得更加多元和深入。Qwen、Minimax的M2、MoonshotAI的Kimi K2以及OpenAI的GPT-OSS系列等新进入者都在发布后几周内快速获得显著采用。到2025年末,竞争平衡已从近乎垄断转向多元化混合状态,没有任何单一模型持续占据开源token量的20-25%以上,使用量更加均匀地分布在五到七个主要模型之间。

这种竞争格局的演变对行业参与者提出了新的要求。对模型构建者而言,发布具有前沿性能的开源模型可以带来即时采用,但维持使用份额需要持续的投资和改进。对用户和应用开发者来说,这意味着有更丰富的开放模型选择,在特定领域(如角色扮演)往往具有与专有系统相当甚至更优的能力。当前市场均衡点大致维持在30%左右的开源份额,反映出两种模式在现有技术条件下的相对优势平衡。

二、应用场景的多元化发展:从生产力工具到创意伙伴的转变​

AI大模型的应用场景在2025年呈现出令人惊讶的多元化特征,打破了人们对其主要作为生产力工具的固有认知。研究发现,开源模型的使用主要集中在两大领域:创意角色扮演和编程辅助,这两个类别合计占据了开源模型使用量的大部分份额。其中,角色扮演类应用 consistently 占据开源token量的50%以上,编程类应用则稳定在15-20%的区间,共同构成了开源模型的主要应用场景。

角色扮演应用的流行程度超出了许多行业观察者的预期。这类应用不仅数量庞大,而且内部结构高度专业化。近60%的角色扮演token集中在“游戏/角色扮演游戏”子类别下,表明用户将大模型视为结构化角色扮演或角色引擎而非简单的聊天机器人。此外,“作家资源”(15.6%)和“成人内容”(15.4%)的存在进一步表明,这类应用融合了互动小说、场景生成和个人幻想等多种元素。与角色扮演主要是非正式对话的假设相反,数据显示这是一种定义明确且可复制的基于类型的用例。

编程类应用则展现出不同的特点。超过三分之二的编程相关流量被标记为“编程/其他”,这表明代码相关提示具有广泛性和通用性:用户并非狭隘地关注特定工具或语言,而是向大模型寻求从逻辑调试到脚本起草等各种帮助。尽管如此,“开发工具”(26.4%)和脚本语言的小份额表明出现了专业化的趋势。这种碎片化凸显了模型构建者围绕结构化编程工作流程改进标记或训练的机会。

不同模型供应商在应用场景上呈现出明显的专业化分工。Anthropic的Claude系列高度偏向编程和技术用途,两者合计超过其使用量的80%,角色扮演和一般问答只占很小部分,这证实了Claude作为复杂推理、编码和结构化任务优化模型的定位。相比之下,Google的模型使用更加多样化,在翻译、科学、技术和一般知识等领域都有显著份额,表明其模型被更多地用作通用信息引擎。xAI的使用模式在观察期内绝大多数集中在编程上,经常超过所有token的80%,仅在11月下旬分布才有所扩大,反映出其用户基础由开发者核心和突然涌入的通用参与浪潮共同塑造的特点。

从使用模式的角度看,AI应用正在从单次交互向复杂的多步工作流演进。平均提示token长度从2024年初的约1.5K增长到超过6K,增加了近四倍,而补全token也从约150个增加到400个,增长了近三倍。这种增长幅度的差异突显了向更复杂、上下文丰富的工作负载的决定性转变。今天的典型请求不再主要是开放式生成(“为我写一篇文章”),而是更多地涉及对大量用户提供材料(如代码库、文档、记录或长对话)进行推理,并产生简洁、高价值的见解。

编程工作负载是这一趋势的主要驱动力。涉及代码理解、调试和代码生成的请求通常超过20K输入token,而所有其他类别保持相对平稳的低量级。这种不对称的贡献表明,最近提示大小的扩展并非跨任务的统一趋势,而是与软件开发和 technical reasoning 用例相关的集中激增。序列长度作为任务复杂性和交互深度的代理指标,在过去20个月中增加了两倍多,从2023年末的不到2,000个token增加到2025年末的超过5,400个token。编程相关提示的平均长度是通用提示的3-4倍,这种分化表明软件开发工作流程是更长交互的主要驱动力。

三、技术演进与用户行为变迁:从简单生成到智能体推理的跨越​

2025年AI大模型领域最显著的技术演进是从简单的文本生成向复杂的多步推理和工具调用转变。数据显示,通过推理优化模型路由的token份额在2025年急剧上升,从第一季度的可忽略份额增长到超过50%。这一转变反映了市场的供需两侧变化:供应侧,GPT-5、Claude 4.5和Gemini 3等高能力系统的发布扩展了用户对逐步推理的期望;需求侧,用户越来越偏好能够管理任务状态、遵循多步逻辑并支持智能体式工作流程的模型,而非简单地生成文本。

工具调用功能的采用也呈现稳定上升趋势。尽管5月份曾因某个大型账户的活动短暂推高了总体量,但除这一异常值外,工具采用在全年都显示出一致的上升趋势。工具调用最初集中在小型模型组中:OpenAI的gpt-4o-mini和Anthropic的Claude 3.5和3.7系列,它们在2025年初合计占据了大多数支持工具的token。到年中,更广泛的模型开始支持工具提供,反映了更具竞争力和多元化的生态系统。从9月底开始,较新的Claude 4.5 Sonnet模型迅速获得份额,而像Grok Code Fast和GLM 4.5这样的新进入者也取得了可见的进展,反映了工具可部署方面更广泛的实验和多样化。

用户保留模式呈现出有趣的“灰姑娘玻璃鞋”现象。研究发现,在高速发展的AI生态系统中,存在着一小部分早期用户群体,其参与度持续时间远远超过后期群体。这些群体不仅仅是早期采用者,他们代表了工作负载与模型之间实现了深度持久契合的用户。一旦建立,这种契合会创造经济和认知惯性,抵抗替代,即使有新模型出现。这一假设认为,在快速发展的AI生态系统中,存在一个高价值工作负载的潜在分布,这些工作负载在连续的模型世代中一直未得到解决。每个新的前沿模型实际上是对未满足需求的一次新尝试。当模型最终与特定工作负载匹配时,受影响的用户会形成基础群体,其参与轨迹基本保持平坦,表明他们已深深嵌入并依赖于该模型的功能。

实证数据显示,这一模式在Gemini 2.5 Pro的2025年6月群体和Claude 4 Sonnet的2025年5月群体中可见,这些群体在第5个月保留了约40%的用户,远高于后期群体。这些群体似乎对应于特定的技术突破(如推理保真度或工具使用稳定性),最终实现了以前不可能的工作负载。OpenAI GPT-4o Mini的图表展示了这一现象的极端情况:单个基础群体(2024年7月)在发布时建立了主导的、粘性工作负载-模型契合。所有后续群体,在这种契合建立且市场已经转变后到达,表现相同:他们流失并聚集在底部。这表明建立这种基础契合的窗口是单一的,仅发生在模型被视为“前沿”的时刻。

DeepSeek模型引入了更复杂的“回旋镖效应”模式。其保留曲线显示出高度不寻常的异常:复活跳跃。与典型的单调递减保留不同,几个DeepSeek群体在初始流失期后显示出明显的保留率上升(如DeepSeek R1的2025年4月群体在第3个月左右,以及DeepSeek Chat V3-0324的2025年7月群体在第2个月左右)。这表明一些流失的用户正在返回模型。这种“回旋镖效应”表明这些用户在尝试替代方案后重新回到DeepSeek,并通过竞争性测试确认DeepSeek由于其特殊技术性能、成本效益或其他独特功能的潜在组合,为其特定工作负载提供了最佳且通常更好的契合。

四、全球市场与成本 dynamics:地域多元化与价格弹性并存​

AI大模型的使用呈现出明显的地域差异,反映了不同区域市场的发展特点和成熟度。北美虽然是最大的单一区域,但在大部分观察期内现已占总支出的不到一半。欧洲显示出稳定而持久的贡献,其周支出相对份额在整个时间线上保持一致,通常占据中 teens 到低二十几的区间。一个显著的发展是亚洲不仅作为前沿模型的生产者崛起,而且作为快速扩张的消费者出现。在数据集的最早几周,亚洲约占全球支出的13%。随着时间的推移,这一份额翻了一倍多,在最近时期达到约31%。

语言分布进一步反映了使用的全球化特点。英语主导使用,占所有token的82.87%以上,这既反映了英语语言模型的普及,也反映了OpenRouter用户群体以开发者为主的倾斜。然而,其他语言,特别是中文、俄语和西班牙语,构成了有意义的尾部。仅简体中文就占全球token的近5%,表明双语或中文优先环境的用户持续参与,特别是考虑到像DeepSeek和Qwen这样的中国开源模型的增长。

成本与使用量的关系呈现出复杂的市场细分特征。研究发现,需求相对缺乏价格弹性:价格降低10%仅对应使用量增加约0.5-0.7%。然而,图表上的分散程度很大,反映了强烈的市场细分。出现了两种不同的 regime:OpenAI和Anthropic的专有模型占据高成本、高使用量区域,而像DeepSeek、Mistral和Qwen这样的开放模型则分布在低成本、高容量区域。这种模式支持一个简单的启发式:闭源模型捕获高价值任务,而开源模型捕获高容量低价值任务。弱价格弹性表明即使巨大的成本差异也不能完全转移需求;专有供应商在关键任务应用上保留定价权,而开放生态系统吸收成本敏感用户的容量。

从应用类别角度看,成本与使用量的关系呈现出四象限分布特征。高端工作负载(右上象限)包含高成本、高使用量应用,现在包括技术和科学,正好位于交叉点。这些代表了有价值和大量使用的专业工作负载,用户愿意为性能或专业能力支付溢价。技术是一个显著的异常值,比任何其他类别都昂贵得多。这表明技术作为一个用例(可能与复杂系统设计或架构有关)可能需要更强大和昂贵的模型进行推理,但它保持了高使用量,表明其基本性质。

大众市场容量驱动因素(左上象限)由高使用量和低于平均水平的成本定义。这一区域由两个大规模用例主导:角色扮演、编程以及科学。编程作为“杀手级专业”类别脱颖而出,展示了最高的使用量,同时具有高度优化的中位成本。角色扮演的使用量巨大,几乎与编程相媲美。这是一个惊人的洞察:面向消费者的角色扮演应用程序驱动的参与量与顶级专业应用程序相当。这两个类别的庞大规模证实了专业生产力和对话娱乐都是AI的主要大规模驱动因素。该象限的成本敏感性是开源模型找到显著优势的地方。、​

以上就是关于2025年AI大模型应用市场的全面分析。研究表明,当前AI大模型生态系统呈现出开源与闭源双轨并行、应用场景多元化、技术向复杂推理演进以及全球市场地域分化的特点。开源模型已在特定领域确立竞争优势,尤其是在创意角色扮演和编程辅助场景中表现突出。用户行为正从简单交互向复杂多步工作流转变,推理模型的使用量已超过总量的50%。全球市场方面,亚洲特别是中国市场的崛起改变了传统以北美为中心的格局,而成本弹性分析表明AI市场尚未完全商品化,性能和质量差异仍是用户选择的关键因素。这些趋势共同描绘了一个充满活力且快速演进的AI应用生态,为行业参与者提供了丰富的机遇和挑战。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告