视频生成:融合多模态信息能力,决定AIGC技术上限
视频同时融合文本、图像、音频等多模态信息,天然具备更高的复杂性与表达力,代表着AIGC产业能力上限。视频需处理空间、时间、因果与交互等高维结构,并要 求将文字、图像、音频等模态映射到同一表征空间,其复杂性要求模型必须具备对真实世界的综合理解与推演能力:1)空间:视频需理解物体形状、位置关系、遮挡 与深度等三维结构;2)时间:视频要求模型在连续帧中保持状态演化一致性,学习动力学规律与行为轨迹;3)因果与交互:视频呈现对象间的作用、反应与事件链 条,迫使模型掌握因果机制和多实体交互规则。当前文本、图片、音乐等模态生成技术已相对成熟,视频仍是行业技术短板,其突破将对AIGC的产业应用前景起到决 定性作用。
发展历程:从早期分化逐步走向共识,产业进入高速发展期
AI视频生成技术自2010年代中后期逐步起步,经历了多个关键架构的迭代升级。视频生成技术最早可追溯至20世纪90年代的图像序列拼接方法,其开启了将静态帧合成 为动态视频的早期尝试,但真正的AI模型化探索始于2014年GAN的提出。2017年,Transformer架构的引入为模型带来了更强的时序建模与语义表达能力,但仍存在计 算资源受限、生成质量不稳定等问题。因而在2020年后,部分开源社区尝试将扩散模型应用于视频生成,试图跳出Transformer架构限制,行业技术路线一度呈现分歧。 直至2022年,Diffusion与Transformer的融合思路逐步成型,叠加2024年OpenAI发布的Sora验证了DiT架构在视频生成中的可行性与效果,行业迎来关键转折点,主流 厂商全面向DiT路径演进,视频生成自此进入快速发展阶段。
GAN–VAE阶段(2014-2016):确立“视频可被端到端生成”的技术方向,是后续技术跃迁的理论起点。视频生成技术最早可追溯至2016年UC Berkeley提出的VGAN, 该模型首次将生成式对抗网络(GAN)引入视频生成任务,并通过空间–时间卷积结构实现低分辨率短时动态序列的合成。同年,京都大学与东京大学提出的TGAN将视 频生成分解为时间潜变量序列与图像生成器协同工作的方式,实现捕捉跨帧运动信息。在此基础上,2018年NVIDIA团队提出MoCoGAN,将视频内容与运动显式解耦, 分别建模并通过对抗学习生成一致动作序列,从而实现了更具可控性的基础视频生成框架。但该阶段的模型多基于GAN的对抗式重建能力+VAE的连续潜空间表达,受限 于模型架构限制,应用范围仅限于简单场景(如数字、基础动作),生成分辨率与时长均较低。
Transformer表征阶段(2017–2021):时空表征能力显著提升,为视频生成真正可用奠定底层基础,但生成质量、成本化能力均属过渡期。2017年Transformer论文 发表后,该架构快速渗透至各类序列建模场景,并在视频生成任务中开启探索。自2021年Google推出Video Vision Transformer(ViViT)起,GODIVA、VideoGPT、 Phenaki、CogVideo、NUWA 等视频模型相继出现。相较于GAN系列,Transformer具备明确的概率密度建模能力、收敛过程更稳定,并能够有效捕捉跨帧长程依赖, 在生成时序一致、衔接自然的动态内容上更具优势。但由于其计算复杂度随空间与时间token数呈平方级增长,分辨率与时长提升将带来指数级的算力压力,导致该阶段 模型在生成效果上仍受限制,其产业价值主要体现在从“能生成”迈向“能理解再生成”。
Diffusion扩散模型阶段(2020–2023):实现高质量短视频生成,但受限于时长与物理一致性,存在技术上限。扩散模型(Diffusion)通过“逐步加噪—逆向去噪” 的显式概率建模范式,解决了GAN在训练稳定性和可控性上的核心缺陷,为高质量视觉生成奠定了基础。2022年,Meta发布Make-A-Video,其可根据自然语言生成约 5秒短视频,是推动视频生成技术进入商业化探索阶段的早期代表之一。但传统扩散模型的去噪网络基于U-Net,其本质是一种以局部卷积为主的二维图像编码器,只能 在空间维度内进行局部感受野建模,缺乏对时间维度的统一表征,也无法捕捉跨帧的长程依赖、物体状态延续与物理一致性。基于此结构的视频扩散模型,误差会沿时间 轴不断累积,导致跨帧漂移、运动不连续,使视频生成在时长与整体一致性上存在上限。
DiT扩散模型阶段(2024至今):在Sora推动下进入商业化周期,形成视频生成的主导技术路线。DiT的核心思想是以Transformer结构取代传统扩散模型中的U-Net作 为去噪网络。2024年2月,OpenAI发布Sora,首次在工业级规模上验证了Diffusion+Transformer结合的有效性:在更长时长、更高分辨率、更复杂场景物理一致性以 及更强的帧间连贯性上实现突破。
技术进展:美学、多模态化能力表现优异,物理性、生成时长是主要瓶颈
1)美学质量方面:当前AI视频生成模型已能够根据提示直接生成包含多人物主体、动作、背景与光影的完整动态画面,短片段生成能力已接近专业影视制作水准
主流视频生成模型普遍已支持1080p及以上分辨率,部分模型可生成4K及以上画面;帧率方面,多数模型可稳定支持24fps,部分已提升至30fps。以Sora 2为例,其在拟真 性、风格表达以及复杂场景生成方面已取得显著进展,整体水平以基本满足影视与商业内容制作需求:1)真实性方面,人物表情与动作连续性提升,同时在光影关系、纹理 细节与景深层次等环境维度表现愈发成熟,整体画面真实感明显,已接近工业级CG制作能力;2)风格层面,模型可覆盖写实、动漫等多种视觉风格,能够适配悬疑、科幻等 不同题材与叙事氛围的创作需求;3)复杂人物主体及多镜头连续叙事能力方面,模型已能够在同一场景中生成多人物、多动作的协同表现,并支持多镜头角度切换下的连续 叙事。
2)多模态方面:从“无声”向“视听”阶段全面演进,路径收敛或将推动技术加速迭代
AI视频音效生成技术主要分为一体化生成和后期分离生成两类技术路径。1)原生音视频一体生成:采用多模态联合训练架构,在视频合成过程中同步生成高保真音频流,一步到位 生成带有音效的视频;2)后期分离式生成:采用解耦式的跨模态推理框架,将音频生成剥离为一道独立工序。该类模型通过对视频帧序列进行时序特征提取与事件识别,驱动合成物 理属性匹配、情感语义一致的音效轨迹。
从技术路径看,一体化音画生成在技术原理上具备天然优势,但实现门槛较高;分离式方案则因更强的可行性,长期占据行业主流。一体化路径将音效直接嵌入视频生成的底层流程,在统一时间轴与语义空间内完成联合建模,因而能够实现物理事件与声音的高精度对齐,相比分离式具备先天技术优势。但由于一体化生成壁垒较高,行业早期较多侧重分离式研究。典型产品包括2024年Pika、Google推出的Sound Effects与V2A系统,以及2025年国内厂商可灵、腾讯发布的Kling-Foley、HunyuanVideo-Foley 等。但严格意义上讲,由于分离 式音频生成并未纳入视频生成的统一建模过程,本质仍是独立音频模块,并不代表视频模型本身已具备了多模态生成能力。
技术趋势:世界模型或将带来新技术变革,视频生成有望再迎发展拐点
从架构来看,世界模型与现有视频生成模型(DiT)是不同技术路线,其发展不受DiT范式的进展约束。后者侧重对下一帧像素进行条件式外推,本质仍属于“表层渲染逻辑”,缺乏对长期状态、空间关系与物理反馈的内部表达,因此在长时序生成与一致性维持方面迭代速度仍相对缓慢。而世界模型通常由状态表征模型、动态模型与决策模型三部分 构成,通过显式维护环境状态并模拟动态变化,使生成过程转向“世界内部演化”,从机制上更具备长时空一致性和物理遵循能力。
从推进速度来看,世界模型在“时间维度、空间一致性与物理逻辑”等关键性能上的迭代也要明显更快,未来可能成为视频生成的另一条主流演进路径。以Google Genie系列 为例:2024年底发布的Genie2仅能支持浅层三维环境搭建与基础交互,画面维持约10~20秒即出现信息崩溃;不到一年时间,Genie3已能够以24fps实时生成可供自由探索的 动态虚拟世界,并在720p分辨率下维持数分钟级画面一致性。同时,其新增“可提示的世界事件”与“视觉记忆”机制,使得房间内物品布局、涂鸦等实体特征在用户多次往 返时仍保持稳定,空间一致性呈现量级式提升。
市场规模持续扩张,2034年有望突破30亿美元,C/B端双轮驱动商业化路径逐步清晰。全球AI视频生成市场正处于高速成长阶段,根据Precedence Research预测, 2025年市场规模约为2.19亿美元,预计2026年将增长至2.96亿美元,同比增长35.16%;至2034年有望达到33.32亿美元,2025–2034年间的复合增长率(CAGR)达 35.32%。随着模型能力提升与应用场景拓展,行业商业化路径已逐步分化为C端订阅与B端API/解决方案两大模式:
To C端:主要通过订阅制收费,用户可按需选择免费版、标准版、高级版、尊享版等不同等级,月度订阅价格从几元至数百元不等,典型客户包括内容创作者、短 视频用户及泛娱乐消费群体;
To B端:主要通过API调用与定制化解决方案变现,客户覆盖影视制作、互联网平台、电商营销、广告代理等行业,费用按调用次数、生成时长或项目定制程度计 价,月度支出从几十元至数万元不等。
C端:订阅模式为主,社交化等新方向探索有望拓宽商业路径
目前C端仍然以订阅模式为主要收入来源,业内多采用“免费试用+多档订阅+积分充值”服务架构。目前海内外主流视频模型面向C端均普遍采用“免费试用+多档订阅 +积分计量”的三段式结构,即先通过免费额度引导用户试用,再以订阅机制分层解锁核心能力(如生成次数、清晰度、时长限制),并辅以积分体系满足超额使用需求, 形式上延续了传统SaaS的基本框架。从定价来看,海外主流厂商的基础订阅价格多集中在20~30美元/月,国内则普遍为60~80元/月,国内具备性价比优势。但从产品 丰富度看,Sora 2、Veo 3等海外模型并未单独计费,而是作为ChatGPT、Gemini等大模型生态会员中的一部分,用户在订阅后可同步使用其他生成类能力,整体使用 维度更为丰富。
B端:API模式逐步跑通,影视级项目有望迎来商业化元年
目前海外已有初创企业开始尝试提供影视级AI解决方案,并在收入层面验证了商业可行性。以Utopai为例,其成立于2025年,是一家AI原生影视工作室,前身为3D生成AI 公司Cybever。不同于传统模型厂商以API或单点工具授权变现的路径,Utopai选择向下游内容生产与发行端纵向延伸,直接参与影视项目的制作与收益分配,并通过多类 AI工具的系统化整合,规避了单一模型能力不足与制作方整合成本高企的问题,使AI成功以解决方案形态嵌入影视工业流程。目前公司已通过《科尔特斯》(Cortés)、 《太空计划》(Project Space)等项目实现累计约1.1亿美元收入,成为当前在影视级AI制作领域实现规模化变现的重要案例之一。
传媒行业是“AI+应用“的主阵地,广告、影视、游戏等细分板块均高度契合。传统传媒行业内容供给高度依赖创意与人力,生产链条长、成本高、更新频率快,而AI具备 大规模内容生成、个性化分发与自动化运营能力,能够有效缓解传统传媒在效率与成本上的瓶颈,提升供给弹性与商业化效率:1)在广告营销环节,AI可基于多模态大模 型精准洞察用户兴趣、生成多版本创意素材,并动态优化投放,实现千人千面的内容分发,提升转化效率与ROI;2)在影视制作环节,AI可介入策划、剧本、分镜、剪辑、 特效等各个流程,缩短制作周期、降低人力成本并提升内容质量,助力长周期IP资产化运营;3)在游戏环节,AI可赋能角色设计、剧情生成与场景搭建,显著提升用户沉浸 感与付费意愿,延长内容生命周期,增强商业变现能力。
营销:内容变革有望带动AI广告需求提升,营销服务商或迎新增量价值
内容创作环节重视度提升或将重塑产业链角色分工,营销环节价值权重有望进一步抬升。当前广告营销链条主要由广告主、营销服务商与媒介平台三类主体构成。以往在“流量 链接+投放执行”为核心的传统逻辑下,营销服务商更多扮演工具性和中介型角色,核心价值集中于渠道投放与资源对接。而在生成式AI等新技术推动下,内容生产环节的降本 增效需求日益凸显,品牌方对内容定制、场景适配与快速测试的需求提升,使内容创作在整体营销中的战略地位迅速上升。AI工具的普及有望打破原有服务商的能力边界,使其 从单一媒介投放职能,转型为能协助品牌进行内容策划、生成、测试与投放优化的全链路合作伙伴。传统营销商或将从“执行型中介”升级为具备技术理解与内容创作能力的 “智能增值节点”,在AIGC营销生态中扮演更具战略价值的关键角色。从资本市场反馈来看,回顾2025年,Applovin股价全年累计涨幅108.08%,充分反映海外市场对AI+营 销产业的认可,国内头部营销类企业跟进速度较跟进。
游戏:短期创作环节持续降本增效,长期新品类有望拓宽产业边界
视频生成与3D生成在技术路径上具有同源性,其底层均依赖扩散模型与Transformer等生成式架构的发展。当前3D资产生成主要可分为两类:
2D图像生成+3D重建:先生成一组多视角图片,再通过3D重建为三维资产。前端图像生成沿用了目前图像/视频生成模型的扩散模型体系,区别在于后端额外引入 3D重建模块。当前重建技术主要为NeRF,本质是通过多视角图像学习一个连续的体渲染函数,视觉连续性与真实感较强。但其结果以隐式表示存在,难以直接编辑 或用于复杂交互场景。行业内目前有厂商开始尝试以3D Gaussian Splatting替代传统NeRF,即通过在三维空间中显式构建高斯分布点集,使生成结果能够直接转化 为可用于后续渲染、动画等场景的通用3D资产。例如前文提及的Marble模型,其输出即可直接导出为3D Gaussian Splatting数据;
原生3D生成:核心思路是跳过中间形态,将原本DiT架构中的2D训练数据替换为3D数据,使模型直接学习和生成三维结构本身,在几何还原度、多视角一致性以及 生成效率方面具备更高的理论上限。但受制于3D训练数据稀缺,当前仍处于早期阶段。



(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)