2026年传媒行业：字节跳动系列之—Seedance的前世今生

中信建投证券2026/03/10
举报

看前世：Seedance 系列背后是字节跳动在视频大模型上的系统化投入与组织能力

1. 从 Seedance 1.0 / 1.5 到 2.0：从“视频素材”向“工业级叙事”的跨越

1.0 解决的是“能生成好看的片段”，1.5 解决的是“能一次性生成有声音的片段”，而 2.0 解决的是“能自动完成一段有完整叙事的作品”。Seedance 系列模型职责从“视频素材供应商”变成“工业级叙事引擎”。 Seedance 1.0 / 1.0 Pro：优化下限，建立基准，未做生成式多模态。2025 年 6 月，在火山引擎 Force 原动力大会上，字节跳动正式发布 Seedance 1.0，该版本旨在解决视频生成的稳定性问题，即“不崩坏”。1.0 版本采用“时间因果 VAE+解耦时空扩散变换器”架构，支持文生视频与图生视频，具备原生多镜头叙事能力，生成视频分辨率达到 1080P，且支持 0-32k 范围内的长上下文理解，侧重改善模型表现的“下限”，优化了运动生成的稳定性，把 AI 视频从“研究 Demo”推到可用的创作工具阶段。 Seedance 1.5 Pro：视听联合生成的“过渡态”。首次采用原生音视频联合生成架构，可在输出高自然度画面的同时同步生成匹配叙事的音频，实现“音画同出”的成片式创作，标志着从“能出画面”迈向“带声的多镜头内容”。由于 2.0 重训练在数据压缩与素材采样上“推得更激进”，部分能力仅能临时“挂”到 1.5 上，导致部分深度用户对 1.5 画面质量仍有诟病，本质上 1.5 只是为 2.0 正式“上车”音画同生、多模态参考所做的过渡工程。

Seedance 2.0：以“多镜头叙事+导演级控制”完成技术奇点。Seedance 2.0 全量发布，在架构上进一步升级为统一的多模态音视频联合生成体系，强化多模态参考、复杂场景理解和编辑能力。突破了“单镜头素材生成”范式，转向在模型层面直接输出“剪好片、有声音、可上链路”的成品片段。Seedance 2.0 在两个层面完成“系统级重构”：1）统一多模态音视频联合生成架构；2）双分支扩散变换器：在同一生成流程中同步生成画面与声音，而非事后叠加音频。

2. 团队

字节 AI Seed团队在大模型和视频生成领域属于“起步偏晚但加码最猛”的典型路径：自 2023 年正式组建以来，依托 Flow–Seed–Stone 三层 AI 架构、AI Lab 整并、Seed Edge 长期 AGI 研究计划、以及 2025 年高达约 1500 亿元的资本开支与高强度股权激励，短短三年完成了从内部补课团队到集团级“技术底座”的跃迁。看团队：扁平化与“赛马”机制的胜利。字节跳动的 AI组织架构经历了从 AI Lab（偏基础研究）到 “Stone-Seed-Flow”三级火箭模式的演进,最终形成了极具战斗力的扁平化架构。通过“TopSeed”计划提供极具竞争力的薪酬，并辅以“豆包股”等独立激励，使得 AI 人才聚集在最具潜力的项目上。其组织架构打破了 BG边界，资源流向哪里，哪里能产生流量和利润，决策链条极短。

Flow–Seed–Stone“三叉戟”：应用、基模与平台分工

Stone (基建)：负责底层算力和基础设施，确保算力“供得上”。 Seed (模型)：负责大模型研发,吴永辉直接掌舵。为了追求智能上限,Seed 内部还设立了“Seed Edge” 虚拟团队，这些团队取消了季度 OKR 考核，专注于 AGI 的长期研究。这种机制极大释放了科研生产力。 Flow (应用)：负责 C 端产品的快速迭代。Flow 团队实行“赛马机制”，通过高密度的资源投入（如春节红包、流量扶持）和快速纠错能力，推动豆包等产品迅速占领市场。资源调度模式：字节跳动采用 “自运转生态系统”模式。

2024-2025 年字节围绕 AI团队进行了一系列组织架构的调整，这一轮重构的内核是：在组织上将所有大模型与多模态研发统一收拢于 Seed，从双负责人到由吴永辉主导“基础研究一号位”。 2025 年 2 月，原 Google DeepMind 研究副总裁、Google Fellow 吴永辉正式加入字节，担任 Seed 基础研究负责人，直接向 CEO 梁汝波汇报，专注大模型基础研究与 AI for Science 等长期方向，其到岗后迅速推动 Seed 内部结构调整。2025 年 4 月起，成立于 2016 年的集团级核心研究部门 AI Lab 整体并入 Seed。吴永辉加入后， Seed 团队进入双负责人模式：吴永辉负责大模型基础研究；朱文佳（从今日头条/TikTok 产品技术负责人转岗）聚焦模型应用能力。2025 年 10 月起，朱文佳的汇报线从 CEO 调整为向吴永辉汇报，标志着 Seed 在组织架构上形成“基础研究一号位”格局，业务方向进一步向底层模型能力集中。

观今生：Seedance2.0 技术奇点：从“视频素材”向“工业级叙事”的跨越

1. Seedance 2.0 带来怎样的变化？

1）可控性是核心：告别“抽卡”——可用率从 20%提升至 80-90%，可用率决定工业属性。行业内传统模型在复杂运动、多人交互和长脚本场景下，整体可用率仅约 20%左右。结合多个专业博主测评和行业反馈， Seedance 2.0 在 15 秒视频上的可用率有望提升到 80-90%，意味着每次生成大概率即可直接用于生产，而非需要多轮抽卡筛选。当可用率从 20%抬升至 80–90%时，单位有效视频成本可被压缩至原来的 1/4–1/5。 2.0 使 AI 视频生成进入到工业化可用阶段，从"抽卡祈祷好结果"的模式，走向了可控和一致的范式。

2）统一的多模态音视频联合生成架构——多模态参考：全面升级，支持文本、图片、视频、音频四种模态输入。Seedance 2.0 支持在单个项目中引入最多 12 个参考素材，用于控制风格、角色、运动和场景构图，并可调节各参考的影响权重。多模态参考能力（可参考万物）+强创意生成+指令响应精准（理解力很棒），为 Seedance 的生成能力带来了优越的可控性。相比之下，Sora 2 的 Cameo 功能仅支持单张照片植入，Veo 3 和 Kling 2.6 主要依赖文本加单图输入。这种多模态能力不是简单的素材叠加。字节引入了一种类似编程中“@”符号的引用系统，这样就能明确控制每个资源。在提示词中，用户可以写“@Image1 作为第一帧，参考@Video1 的运镜，使用@Audio1 作为背景音乐节奏”；更进一步，创作者可以调整每个参考素材的“影响权重”。其最大的好处就是，改变了以往“扔一堆素材给 AI，然后碰运气”的创作模式。

3）指令遵循与多镜头导演能力：把导演思维内嵌进模型。模型具备“自分镜、自运镜”能力，可根据自然语言脚本自动规划景别切换（全景—中景—特写）、机位运动（推拉摇移）与情绪节奏，并在切换过程中保持角色和风格的统一。在用户只给一段文本的前提下，生成多镜头、节奏完整的短片，接近人类导演对镜头语言的掌控，很多导演引以为傲的运镜能力，被 Seedance2.0 集成到了模型里。在传统模型中，用户需要在提示词中精确描述“从左向右平移”“从全景推到特写”等复杂运镜指令，稍有不慎便会出现镜头不稳或逻辑错乱。Seedance2.0 则将这一复杂度收纳进模型内部。自分镜——根据故事情节自动拆解场景，决定哪些画面需要特写、何处需要过场或转场，形成完整镜头语言。自运镜——在大幅度运动、打斗和追逐场景中，模型能产生符合动作逻辑的摄影机运动，如跟拍、侧拍、抖动、慢动作等，评测中被认为“像真人导演一样不断改变摄影机的位置”。

4）音画同时生成：Seedance 2.0 最核心的架构创新在于采用了“双分支扩散变换器”（Dual-Branch Diffusion Transformer, DB-DiT）。传统模型“先生成画面、后匹配音频”的割裂流程，是导致口型错位、音效延迟的根本原因。Seedance 2.0 最大的底层变革，是采用双分支扩散变换器架构，在同一生成流程中并行建模视频与音频两条模态流，而非将声音视为事后附加层。模型甚至可以仅凭一张静态的面部照片，重建出高度模仿该人物音色和语气的语音。虽然该功能因潜在伦理和法律风险被紧急暂停，但它展示了模型在理解生物特征与声音关联方面的惊人深度。同时，音频波形可以直接驱动角色面部动画，实现高度逼真的口型匹配，让数字角色的表演不再“貌合神离”。

2. 怎样的底层技术变化带来模型能力飞升？

素材处理阶段从头优化重训练，包括时间增加、颗粒度提升等：素材准备阶段的优化：一是将原本 4 到 6 秒的单场景镜头扩展为强相关的多镜头剧情；二是素材理解的颗粒度大幅细化、取信息数量显著增加，例如单帧画面可标出 6 到 8 个主体（远超主流的 1 到 3 个主体），训练时从短视频中提取更丰富信息（如纹理、材质、多主体 ID 标注、剧情关联等），同时掩码训练的量有所增强；三是强化学习阶段奖励公式和函数维度大幅增加，整体在素材采纳、训练量及强化学习干涉维度上实现了指数级提升。因素材主体、物理关系增多，强化学习的奖励公式和函数大幅增加，提升动作衔接（如换镜头后人物动作）、打斗场面等效果。 Seedance2.0 抽卡成功率提升的原因：1）架构稳定性：确保每一帧在时间和空间上的一致性，减少画面崩坏；2）统一多模态架构：文本、图像、音频早期融合，形成全局叙事结构；3）强化学习与提示词工程：引入多维度奖励模型（运动质量、物理合理性、美感）优化生成效果，并通过基模型将用户模糊描述转化为模型可理解的密集指令。多模态素材采纳优化：多模态输入是通过编码器从用户上传的图片/视频中提取更多信息，提升生成遵循度。 Seedance1.5Pro 也支持多模态素材的参考，但本质仅迁移了一个编码器能力（类似于一个功能，形式上支持多模态参考），但基础架构未升级，导致效果差。音画同步单独训练：将视频声音分离（对话、背景、音乐等），通过“先声音映射帧、再画面核对、最后协调器同步”的方式实现，需单独训练节奏编码器，与视频编解码逻辑不同。

3. 产品及商业化：“流量—算力—应用”三位一体的闭环。

Seedance 的商业化，本质上不是“卖一个视频模型”，而是嵌入字节的 C 端应用矩阵与火山引擎 MaaS 体系，形成“流量—算力—应用”三位一体的闭环。当前阶段，C 端以即梦订阅和豆包导流为主，更多在做用户规模与内容生态的占位；B 端则依托火山引擎极低的 Token 单价和完备的多模态能力，已经进入以规模效应和 Agent 解决方案驱动收入的阶段。 Seedance2.0 依托字节生态，提供配套视频编辑工具（剪映），底层算力（火山引擎）和分发渠道（字节系 APP）：用户通过 Seedance2.0 生成的内容，可接入剪映进行二次编辑，并发布至抖音、红果短剧、TikTok 等平台，以广告分成、电商带货、短剧付费等方式变现。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

2026年传媒行业：字节跳动系列之—Seedance的前世今生

看前世：Seedance 系列背后是字节跳动在视频大模型上的系统化投入 与组织能力

观今生：Seedance2.0 技术奇点：从“视频素材”向“工业级叙事”的 跨越

看前世：Seedance 系列背后是字节跳动在视频大模型上的系统化投入与组织能力

观今生：Seedance2.0 技术奇点：从“视频素材”向“工业级叙事”的跨越