豆包大模型Tokens持续增长,日均Tokens使用量已突破50万亿。根据火山引擎官 方微信公众号,截至今年12月18日,豆包大模型日均Tokens使用量已突破50万亿, 较25年9月的30万亿日均tokens使用量大幅增长,居中国第一、全球第三,自发布以 来增长417倍。9-12月,豆包大模型Tokens使用量的月度平均增速为22%,与5-9月 的月度平均增速21%基本持平。

算力成本下降的趋势下,豆包大模型商业化路径逐渐清晰。价格方面,字节在2025 年12月发布的豆包1.8版本的Tokens调用价格与25年6月发布的豆包1.6的价格一样。 但从算力成本来看,豆包1.8在视频理解等多模态任务中实现Token Efficiency优化, 降低了算力开销。此外,豆包1.8针对多模态Agent场景定向优化,减少多轮重试与 无效推理,降低冗余算力消耗。在单位推理成本降低的趋势下,应用端算力成本消 耗的增速或低于Tokens的增速,模型侧商业化路径逐渐清晰。
根据字节Seed官网,豆包大模型采用MoE 稀疏架构+多模态融合+工程化的方式提 升训练效率,降低训练阶段算力成本,具体方法包括: (1)采用超稀疏MoE架构:在该架构下,计算和通信间的数据实现了更低细粒度的 重叠,从而将单层级训练速度最高提升1.96倍,端到端效率平均提升 1.71 倍,有效 降低MoE分布式训练的跨设备通信开销。 (2)多模态联合训练:视频理解帧数从640帧倍增至1280帧,通过Token效率优化 减少任务所需Token量,同时支持低帧率理解超长视频,降低多模态训练的算力冗余。 (3)分阶段预训练+定向微调:预训练阶段夯实多模态基础能力,微调阶段针对 Agent场景强化工具调用、复杂指令遵循能力,搭配LoRA精调降低适配成本。 从豆包大模型的进展来看,一方面,模型训练方法优化降低了训练阶段的算力消耗; 另一方面,Tokens不断增长反映了推理和应用相关算力的旺盛需求。未来,AI算力 需求增长的驱动力将更多来自模型推理和应用落地。
国产AI算力产品和基础软件产品有望受益于推理侧算力占比的提升。相较于训练任 务所需的高密度、大算力的AI硬件,推理任务对AI硬件性能要求较低,因此,在这一 场景中可替代英伟达等海外AI芯片的国产AI芯片的选择范围更广。此外,推理任务往 往涉及与不同垂直领域以及企业私有数据的交互,在这一过程中,针对企业数据进 行模型微调以及RAG(检索增强生成)相关的基础软件也是必备的软件基础设施。
随着模型能力和商业模式的持续迭代,豆包大模型家族在多模态理解与生成能力、 Agent能力等关键方向上持续提升。2025年12月初,火山引擎分别发布了图像创作 模型Seedream 4.5和语音识别模型 2.0,进一步丰富了模型家族。2025年12月18日, 在FORCE原动力大会上,火山引擎正式发布豆包大模型1.8、豆包视频生成模型 Seedance 1.5 pro。
(一)豆包大模型 1.8(Doubao-Seed-1.8)
火山引擎最新发布的豆包大模型1.8(Doubao-Seed-1.8),反映了其在多模态智能 体方向上实现了系统化能力的提升。该模型在工具调用、复杂指令遵循及OS智能体 等关键维度均实现显著增强。根据火山引擎的官方测评数据,豆包大模型1.8在核心 能力上与Qwen3-235B-a22b-thinking模型相比呈现全面优势。在基础数学与推理能 力测试中,豆包模型分别以94.3对87.2、83.8对79.8的得分领先。在智能体相关任务 中,该模型在通用智能体与智能体编程两项评测中也保持明显优势。尽管在复杂指 令遵循维度略低于 Qwen3,但整体来看,豆包大模型1.8在基础能力与实际应用任 务执行上均表现出更强实力。

总结来看,豆包大模型 1.8(Doubao-Seed-1.8)在多模态理解与智能体执行力上 与Qwen3比肩。相比 Qwen3 系列模型,豆包 1.8 在数学推理、长视频解析及文档 图表理解等核心维度上优势显著,尤其在单次 1280 帧视频处理与智能体编程任务 中表现出卓越的稳定性与感知能力。尽管在复杂指令遵循这个特定维度上稍逊于 Qwen3,但凭借其原生的智能上下文管理与极强的多模态任务执行力,豆包 1.8 在 实际应用场景中体现出更强的综合竞争优势。
(二)视频生成模型 Seedance 1.5 pro
火山引擎发布的 Seedance 1.5 Pro 展示了其在音视频联合生成方向上对高质量 内容创作的持续加码。该模型支持文生与图生音视频,基于原生音视频联合生成架 构,实现环境音、动作音、背景音乐与人声等多元素统一生成,音画同步精度达到毫 秒级,独白及多人对白口型高精度对齐,覆盖中文、方言、英文及多种小语种,运 动、节奏和情绪表达更自然,适配影视、漫剧、电商和广告等高阶创作场景。根据火 山引擎官方微信公众号,Draft样片功能可生成低分辨率预览视频,关键要素与成片 高度一致,有望提升创作效率65%,减少约60%无效成本。
根据官方评测平台SeedVideoBench的数据,Seedance 1.5 pro在视频和音频等多 个关键维度上均展现出显著优势。Seedance 1.5 Pro 视频生成模型相比前代在 T2V语义对齐、I2V图影对齐与运动连贯性等方面上进步较大,其语义对齐指标已超 越 Veo 3.1。尤为关键的是其原声音频生成能力,在音频质量、同步性及表现力等全 维度评估中,Seedance 1.5 Pro 凭借“声画一体”的原生架构优于 Kling 2.6 与 Veo 3.1,展现出在专业音视频创作领域的突出技术优势。
(三)图像创作模型 Seedream 4.5 和语音识别模型 2.0
火山引擎发布了图像创作模型Seedream 4.5和语音识别模型 2.0,进一步丰富了模 型家族。Seedream 4.5模型在主 体 一 致 性、 指 令 遵 循 精 准 度 、空 间 逻 辑 理 解及美学表现力 等方面实现迭代,进一步提升了图像生成的整体质量与稳定性; 而豆包语音识别模型2.0推理通过深度理解上下文完成精准识别,上下文整体关键词 召回率提升20%,并且支持多模态视觉识别,不仅“听懂字”还能“看懂图”,通过 单图和多图等视觉信息输入让文字识别更精准。
(四)总结
字节豆包大模型日均Tokens调用量已突破50万亿。根据火山引擎官微数据,2024年 12月,豆包大模型日均tokens使用量为4万亿。截至2025年12月18日,豆包大模型 日均tokens使用量已突破50万亿。目前,已有超过100家企业在火山引擎上累计 Tokens使用量超过一万亿,涵盖智能终端、汽车、金融与消费等众多领域。 豆包大模型Tokens调用量的快速增长,既源于模型能力的持续迭代,也反映出其在 多场景落地中的高频使用。一方面,豆包在自然语言理解、内容生成、语音交互、视 觉识别等多模态方向持续迭代,模型性能与推理效率显著提升。另一方面,随着字 节在抖音、飞书等生态体系中的大规模部署,豆包模型被广泛嵌入到内容创作、智 能客服、广告投放、教育培训等To B与To C场景中,同样带动了调用量的高速增长。 此外,火山引擎开放平台的持续扩展,使得越来越多的开发者通过API调用大模型能 力,从云端获得高质量、低成本的Tokens,同样形成了较大的外部使用需求。

从模型迭代节奏来看,豆包大模型整体上呈现快速且稳定推进的态势,以数月级版 本更新为常态(豆包大模型1.5/1.6分别于2025年1月和2025年6月发布),并且围绕 多模态能力、推理与Agent执行、场景化落地等方向发展。其迭代不仅体现在模型内 部能力上,还通过与字节内部业务深度结合的方式放大了应用实践的反馈循环,形 成了较强的迭代动力。整体节奏相比行业大多数国产大模型处于较活跃水平。豆包 大模型不仅存在于单一聊天产品,而是嵌入字节内部抖音、飞书等业务场景,因此 模型需要不断适配不同任务与体验,从而形成更频繁的迭代需求。从模型的日均 Tokens增长等指标来看,商业化调用量大幅提升也为快速迭代积累了数据基础。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)