2026年传媒行业:字节跳动系列之—Seedance的前世今生

看前世:Seedance 系列背后是字节跳动在视频大模型上的系统化投入 与组织能力

1. 从 Seedance 1.0 / 1.5 到 2.0:从“视频素材”向“工业级叙事”的跨越

1.0 解决的是“能生成好看的片段”,1.5 解决的是“能一次性生成有声音的片段”,而 2.0 解决的是“能 自动完成一段有完整叙事的作品”。Seedance 系列模型职责从“视频素材供应商”变成“工业级叙事引擎”。 Seedance 1.0 / 1.0 Pro:优化下限,建立基准,未做生成式多模态。2025 年 6 月,在火山引擎 Force 原动 力大会上,字节跳动正式发布 Seedance 1.0,该版本旨在解决视频生成的稳定性问题,即“不崩坏”。1.0 版本 采用“时间因果 VAE+解耦时空扩散变换器”架构,支持文生视频与图生视频,具备原生多镜头叙事能力,生 成视频分辨率达到 1080P,且支持 0-32k 范围内的长上下文理解,侧重改善模型表现的“下限”,优化了运动 生成的稳定性,把 AI 视频从“研究 Demo”推到可用的创作工具阶段。 Seedance 1.5 Pro:视听联合生成的“过渡态”。首次采用原生音视频联合生成架构,可在输出高自然度画 面的同时同步生成匹配叙事的音频,实现“音画同出”的成片式创作,标志着从“能出画面”迈向“带声的多 镜头内容”。由于 2.0 重训练在数据压缩与素材采样上“推得更激进”,部分能力仅能临时“挂”到 1.5 上, 导致部分深度用户对 1.5 画面质量仍有诟病,本质上 1.5 只是为 2.0 正式“上车”音画同生、多模态参考所 做的过渡工程。

Seedance 2.0:以“多镜头叙事+导演级控制”完成技术奇点。Seedance 2.0 全量发布,在架构上进一步升 级为统一的多模态音视频联合生成体系,强化多模态参考、复杂场景理解和编辑能力。突破了“单镜头素材生成”范式,转向在模型层面直接输出“剪好片、有声音、可上链路”的成品片段。Seedance 2.0 在两个层面完 成“系统级重构”:1)统一多模态音视频联合生成架构;2)双分支扩散变换器:在同一生成流程中同步生成 画面与声音,而非事后叠加音频。

2. 团队

字节 AI Seed团队在大模型和视频生成领域属于“起步偏晚但加码最猛”的典型路径:自 2023 年正式组建 以来,依托 Flow–Seed–Stone 三层 AI 架构、AI Lab 整并、Seed Edge 长期 AGI 研究计划、以及 2025 年高达 约 1500 亿元的资本开支与高强度股权激励,短短三年完成了从内部补课团队到集团级“技术底座”的跃迁。 看团队:扁平化与“赛马”机制的胜利。字节跳动的 AI组织架构经历了从 AI Lab(偏基础研究)到 “Stone-Seed-Flow”三级火箭模式的演进,最终形成了极具战斗力的扁平化架构。通过“TopSeed”计划提供极 具竞争力的薪酬,并辅以“豆包股”等独立激励,使得 AI 人才聚集在最具潜力的项目上。其组织架构打破了 BG边界,资源流向哪里,哪里能产生流量和利润,决策链条极短。

Flow–Seed–Stone“三叉戟”:应用、基模与平台分工

Stone (基建):负责底层算力和基础设施,确保算力“供得上”。 Seed (模型):负责大模型研发,吴永辉直接掌舵。为了追求智能上限,Seed 内部还设立了“Seed Edge” 虚拟团队,这些团队取消了季度 OKR 考核,专注于 AGI 的长期研究。这种机制极大释放了科研生产 力。 Flow (应用):负责 C 端产品的快速迭代。Flow 团队实行“赛马机制”,通过高密度的资源投入(如春 节红包、流量扶持)和快速纠错能力,推动豆包等产品迅速占领市场。资源调度模式:字节跳动采用 “自运转生态系统”模式。

2024-2025 年字节围绕 AI团队进行了一系列组织架构的调整,这一轮重构的内核是:在组织上将所有大模 型与多模态研发统一收拢于 Seed,从双负责人到由吴永辉主导“基础研究一号位”。 2025 年 2 月,原 Google DeepMind 研究副总裁、Google Fellow 吴永辉正式加入字节,担任 Seed 基础研究 负责人,直接向 CEO 梁汝波汇报,专注大模型基础研究与 AI for Science 等长期方向,其到岗后迅速推动 Seed 内部结构调整。2025 年 4 月起,成立于 2016 年的集团级核心研究部门 AI Lab 整体并入 Seed。吴永辉加入后, Seed 团队进入双负责人模式:吴永辉负责大模型基础研究;朱文佳(从今日头条/TikTok 产品技术负责人转岗) 聚焦模型应用能力。2025 年 10 月起,朱文佳的汇报线从 CEO 调整为向吴永辉汇报,标志着 Seed 在组织架构上 形成“基础研究一号位”格局,业务方向进一步向底层模型能力集中。

观今生:Seedance2.0 技术奇点:从“视频素材”向“工业级叙事”的 跨越

1. Seedance 2.0 带来怎样的变化?

1)可控性是核心:告别“抽卡”——可用率从 20%提升至 80-90%,可用率决定工业属性。行业内传统模 型在复杂运动、多人交互和长脚本场景下,整体可用率仅约 20%左右。结合多个专业博主测评和行业反馈, Seedance 2.0 在 15 秒视频上的可用率有望提升到 80-90%,意味着每次生成大概率即可直接用于生产,而 非需要多轮抽卡筛选。当可用率从 20%抬升至 80–90%时,单位有效视频成本可被压缩至原来的 1/4–1/5。 2.0 使 AI 视频生成进入到工业化可用阶段,从"抽卡祈祷好结果"的模式,走向了可控和一致的范式。

2)统一的多模态音视频联合生成架构——多模态参考:全面升级,支持文本、图片、视频、音频四种模 态输入。Seedance 2.0 支持在单个项目中引入最多 12 个参考素材,用于控制风格、角色、运动和场景构图, 并可调节各参考的影响权重。多模态参考能力(可参考万物)+强创意生成+指令响应精准(理解力很棒), 为 Seedance 的生成能力带来了优越的可控性。 相比之下,Sora 2 的 Cameo 功能仅支持单张照片植入,Veo 3 和 Kling 2.6 主要依赖文本加单图输入。这种 多模态能力不是简单的素材叠加。字节引入了一种类似编程中“@”符号的引用系统,这样就能明确控制 每个资源。在提示词中,用户可以写“@Image1 作为第一帧,参考@Video1 的运镜,使用@Audio1 作为背 景音乐节奏”;更进一步,创作者可以调整每个参考素材的“影响权重”。其最大的好处就是,改变了以 往“扔一堆素材给 AI,然后碰运气”的创作模式。

3)指令遵循与多镜头导演能力:把导演思维内嵌进模型。模型具备“自分镜、自运镜”能力,可根据自 然语言脚本自动规划景别切换(全景—中景—特写)、机位运动(推拉摇移)与情绪节奏,并在切换过程 中保持角色和风格的统一。在用户只给一段文本的前提下,生成多镜头、节奏完整的短片,接近人类导演 对镜头语言的掌控,很多导演引以为傲的运镜能力,被 Seedance2.0 集成到了模型里。 在传统模型中,用户需要在提示词中精确描述“从左向右平移”“从全景推到特写”等复杂运镜指令,稍 有不慎便会出现镜头不稳或逻辑错乱。Seedance2.0 则将这一复杂度收纳进模型内部。自分镜——根据故事 情节自动拆解场景,决定哪些画面需要特写、何处需要过场或转场,形成完整镜头语言。自运镜——在大 幅度运动、打斗和追逐场景中,模型能产生符合动作逻辑的摄影机运动,如跟拍、侧拍、抖动、慢动作等, 评测中被认为“像真人导演一样不断改变摄影机的位置”。

4)音画同时生成:Seedance 2.0 最核心的架构创新在于采用了“双分支扩散变换器”(Dual-Branch Diffusion Transformer, DB-DiT)。传统模型“先生成画面、后匹配音频”的割裂流程,是导致口型错位、音效延迟 的根本原因。Seedance 2.0 最大的底层变革,是采用双分支扩散变换器架构,在同一生成流程中并行建模 视频与音频两条模态流,而非将声音视为事后附加层。 模型甚至可以仅凭一张静态的面部照片,重建出高度模仿该人物音色和语气的语音。虽然该功能因潜在伦 理和法律风险被紧急暂停,但它展示了模型在理解生物特征与声音关联方面的惊人深度。同时,音频波形 可以直接驱动角色面部动画,实现高度逼真的口型匹配,让数字角色的表演不再“貌合神离”。

2. 怎样的底层技术变化带来模型能力飞升?

素材处理阶段从头优化重训练,包括时间增加、颗粒度提升等:素材准备阶段的优化:一是将原本 4 到 6 秒的单场景镜头扩展为强相关的多镜头剧情;二是素材理解的颗粒度大幅细化、取信息数量显著增加,例如单 帧画面可标出 6 到 8 个主体(远超主流的 1 到 3 个主体),训练时从短视频中提取更丰富信息(如纹理、材质、 多主体 ID 标注、剧情关联等),同时掩码训练的量有所增强;三是强化学习阶段奖励公式和函数维度大幅增加, 整体在素材采纳、训练量及强化学习干涉维度上实现了指数级提升。因素材主体、物理关系增多,强化学习的 奖励公式和函数大幅增加,提升动作衔接(如换镜头后人物动作)、打斗场面等效果。 Seedance2.0 抽卡成功率提升的原因:1)架构稳定性:确保每一帧在时间和空间上的一致性,减少画面崩 坏;2)统一多模态架构:文本、图像、音频早期融合,形成全局叙事结构;3)强化学习与提示词工程:引入 多维度奖励模型(运动质量、物理合理性、美感)优化生成效果,并通过基模型将用户模糊描述转化为模型可 理解的密集指令。 多模态素材采纳优化:多模态输入是通过编码器从用户上传的图片/视频中提取更多信息,提升生成遵循度。 Seedance1.5Pro 也支持多模态素材的参考,但本质仅迁移了一个编码器能力(类似于一个功能,形式上支持多模 态参考),但基础架构未升级,导致效果差。 音画同步单独训练:将视频声音分离(对话、背景、音乐等),通过“先声音映射帧、再画面核对、最后 协调器同步”的方式实现,需单独训练节奏编码器,与视频编解码逻辑不同。

3. 产品及商业化:“流量—算力—应用”三位一体的闭环。

Seedance 的商业化,本质上不是“卖一个视频模型”,而是嵌入字节的 C 端应用矩阵与火山引擎 MaaS 体 系,形成“流量—算力—应用”三位一体的闭环。当前阶段,C 端以即梦订阅和豆包导流为主,更多在做用户 规模与内容生态的占位;B 端则依托火山引擎极低的 Token 单价和完备的多模态能力,已经进入以规模效应 和 Agent 解决方案驱动收入的阶段。 Seedance2.0 依托字节生态,提供配套视频编辑工具(剪映),底层算力(火山引擎)和分发渠道(字节系 APP):用户通过 Seedance2.0 生成的内容,可接入剪映进行二次编辑,并发布至抖音、红果短剧、TikTok 等 平台,以广告分成、电商带货、短剧付费等方式变现。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告