2025年计算机行业GenAI系列（二十三）：火山多模态和千问高德，硬核能力成生态格局新基石

广发证券2026/01/04
举报

一、豆包大模型 Tokens 持续增长，推理和应用驱动算力增长

豆包大模型Tokens持续增长，日均Tokens使用量已突破50万亿。根据火山引擎官方微信公众号，截至今年12月18日，豆包大模型日均Tokens使用量已突破50万亿，较25年9月的30万亿日均tokens使用量大幅增长，居中国第一、全球第三，自发布以来增长417倍。9-12月，豆包大模型Tokens使用量的月度平均增速为22%，与5-9月的月度平均增速21%基本持平。

算力成本下降的趋势下，豆包大模型商业化路径逐渐清晰。价格方面，字节在2025 年12月发布的豆包1.8版本的Tokens调用价格与25年6月发布的豆包1.6的价格一样。但从算力成本来看，豆包1.8在视频理解等多模态任务中实现Token Efficiency优化，降低了算力开销。此外，豆包1.8针对多模态Agent场景定向优化，减少多轮重试与无效推理，降低冗余算力消耗。在单位推理成本降低的趋势下，应用端算力成本消耗的增速或低于Tokens的增速，模型侧商业化路径逐渐清晰。

根据字节Seed官网，豆包大模型采用MoE 稀疏架构+多模态融合+工程化的方式提升训练效率，降低训练阶段算力成本，具体方法包括：（1）采用超稀疏MoE架构：在该架构下，计算和通信间的数据实现了更低细粒度的重叠，从而将单层级训练速度最高提升1.96倍，端到端效率平均提升 1.71 倍，有效降低MoE分布式训练的跨设备通信开销。（2）多模态联合训练：视频理解帧数从640帧倍增至1280帧，通过Token效率优化减少任务所需Token量，同时支持低帧率理解超长视频，降低多模态训练的算力冗余。（3）分阶段预训练+定向微调：预训练阶段夯实多模态基础能力，微调阶段针对 Agent场景强化工具调用、复杂指令遵循能力，搭配LoRA精调降低适配成本。从豆包大模型的进展来看，一方面，模型训练方法优化降低了训练阶段的算力消耗；另一方面，Tokens不断增长反映了推理和应用相关算力的旺盛需求。未来，AI算力需求增长的驱动力将更多来自模型推理和应用落地。

国产AI算力产品和基础软件产品有望受益于推理侧算力占比的提升。相较于训练任务所需的高密度、大算力的AI硬件，推理任务对AI硬件性能要求较低，因此，在这一场景中可替代英伟达等海外AI芯片的国产AI芯片的选择范围更广。此外，推理任务往往涉及与不同垂直领域以及企业私有数据的交互，在这一过程中，针对企业数据进行模型微调以及RAG（检索增强生成）相关的基础软件也是必备的软件基础设施。

二、豆包大模型性能提升较大，产品功能多维度增强

随着模型能力和商业模式的持续迭代，豆包大模型家族在多模态理解与生成能力、 Agent能力等关键方向上持续提升。2025年12月初，火山引擎分别发布了图像创作模型Seedream 4.5和语音识别模型 2.0，进一步丰富了模型家族。2025年12月18日，在FORCE原动力大会上，火山引擎正式发布豆包大模型1.8、豆包视频生成模型 Seedance 1.5 pro。

（一）豆包大模型 1.8（Doubao-Seed-1.8）

火山引擎最新发布的豆包大模型1.8（Doubao-Seed-1.8），反映了其在多模态智能体方向上实现了系统化能力的提升。该模型在工具调用、复杂指令遵循及OS智能体等关键维度均实现显著增强。根据火山引擎的官方测评数据，豆包大模型1.8在核心能力上与Qwen3-235B-a22b-thinking模型相比呈现全面优势。在基础数学与推理能力测试中，豆包模型分别以94.3对87.2、83.8对79.8的得分领先。在智能体相关任务中，该模型在通用智能体与智能体编程两项评测中也保持明显优势。尽管在复杂指令遵循维度略低于 Qwen3，但整体来看，豆包大模型1.8在基础能力与实际应用任务执行上均表现出更强实力。

总结来看，豆包大模型 1.8（Doubao-Seed-1.8）在多模态理解与智能体执行力上与Qwen3比肩。相比 Qwen3 系列模型，豆包 1.8 在数学推理、长视频解析及文档图表理解等核心维度上优势显著，尤其在单次 1280 帧视频处理与智能体编程任务中表现出卓越的稳定性与感知能力。尽管在复杂指令遵循这个特定维度上稍逊于 Qwen3，但凭借其原生的智能上下文管理与极强的多模态任务执行力，豆包 1.8 在实际应用场景中体现出更强的综合竞争优势。

（二）视频生成模型 Seedance 1.5 pro

火山引擎发布的 Seedance 1.5 Pro 展示了其在音视频联合生成方向上对高质量内容创作的持续加码。该模型支持文生与图生音视频，基于原生音视频联合生成架构，实现环境音、动作音、背景音乐与人声等多元素统一生成，音画同步精度达到毫秒级，独白及多人对白口型高精度对齐，覆盖中文、方言、英文及多种小语种，运动、节奏和情绪表达更自然，适配影视、漫剧、电商和广告等高阶创作场景。根据火山引擎官方微信公众号，Draft样片功能可生成低分辨率预览视频，关键要素与成片高度一致，有望提升创作效率65%，减少约60%无效成本。

根据官方评测平台SeedVideoBench的数据，Seedance 1.5 pro在视频和音频等多个关键维度上均展现出显著优势。Seedance 1.5 Pro 视频生成模型相比前代在 T2V语义对齐、I2V图影对齐与运动连贯性等方面上进步较大，其语义对齐指标已超越 Veo 3.1。尤为关键的是其原声音频生成能力，在音频质量、同步性及表现力等全维度评估中，Seedance 1.5 Pro 凭借“声画一体”的原生架构优于 Kling 2.6 与 Veo 3.1，展现出在专业音视频创作领域的突出技术优势。

（三）图像创作模型 Seedream 4.5 和语音识别模型 2.0

火山引擎发布了图像创作模型Seedream 4.5和语音识别模型 2.0，进一步丰富了模型家族。Seedream 4.5模型在主体一致性、指令遵循精准度、空间逻辑理解及美学表现力等方面实现迭代，进一步提升了图像生成的整体质量与稳定性；而豆包语音识别模型2.0推理通过深度理解上下文完成精准识别，上下文整体关键词召回率提升20%，并且支持多模态视觉识别，不仅“听懂字”还能“看懂图”，通过单图和多图等视觉信息输入让文字识别更精准。

（四）总结

字节豆包大模型日均Tokens调用量已突破50万亿。根据火山引擎官微数据，2024年 12月，豆包大模型日均tokens使用量为4万亿。截至2025年12月18日，豆包大模型日均tokens使用量已突破50万亿。目前，已有超过100家企业在火山引擎上累计 Tokens使用量超过一万亿，涵盖智能终端、汽车、金融与消费等众多领域。豆包大模型Tokens调用量的快速增长，既源于模型能力的持续迭代，也反映出其在多场景落地中的高频使用。一方面，豆包在自然语言理解、内容生成、语音交互、视觉识别等多模态方向持续迭代，模型性能与推理效率显著提升。另一方面，随着字节在抖音、飞书等生态体系中的大规模部署，豆包模型被广泛嵌入到内容创作、智能客服、广告投放、教育培训等To B与To C场景中，同样带动了调用量的高速增长。此外，火山引擎开放平台的持续扩展，使得越来越多的开发者通过API调用大模型能力，从云端获得高质量、低成本的Tokens，同样形成了较大的外部使用需求。

从模型迭代节奏来看，豆包大模型整体上呈现快速且稳定推进的态势，以数月级版本更新为常态（豆包大模型1.5/1.6分别于2025年1月和2025年6月发布），并且围绕多模态能力、推理与Agent执行、场景化落地等方向发展。其迭代不仅体现在模型内部能力上，还通过与字节内部业务深度结合的方式放大了应用实践的反馈循环，形成了较强的迭代动力。整体节奏相比行业大多数国产大模型处于较活跃水平。豆包大模型不仅存在于单一聊天产品，而是嵌入字节内部抖音、飞书等业务场景，因此模型需要不断适配不同任务与体验，从而形成更频繁的迭代需求。从模型的日均 Tokens增长等指标来看，商业化调用量大幅提升也为快速迭代积累了数据基础。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

2025年计算机行业GenAI系列（二十三）：火山多模态和千问高德，硬核能力成生态格局新基石

一、豆包大模型 Tokens 持续增长，推理和应用驱动算 力增长

二、豆包大模型性能提升较大，产品功能多维度增强

一、豆包大模型 Tokens 持续增长，推理和应用驱动算力增长