AI 生成视频从 2023 年以来呈现快速增长态势,但模型性能一度遇到瓶颈。根 据 A16Z 的统计,AI 视频生成模型在 2023 年四季度呈现井喷式增长。然而在如火如 荼的模型发布热潮中,模型本身的进步却难言迅速,大多视频生成模型都遇到了类 似的瓶颈:实现较好控制性难度高——即如何让模型精准按照语言的描述控制视频 中发生的场景。实现时间一致性难度大——如何让角色、对象和背景在帧之间保持 一致,而不会变成其他的东西或者扭曲不易实现,这也直接决定模型生成视频的时 长。因此我们通常看到的生成式视频,通常会快速切换画面,并且内容天马行空, 这正是为了规避模型弊端采取的举措。
1.1、 Sora 横空出世,引燃市场热情
Sora 凭借惊艳的视频生成效果和分钟级的时长引领市场。前述视频生成模型所 遇到的问题在 Sora 诞生后出现根本改变。2023 年 2 月 16 日凌晨,OpenAI 发布了文 生视频大模型 Sora,能够根据用户提供的文本描述生成长达 60 秒的视频,同时视频 精准反应提示词内容,复杂且逼真,效果惊艳,引燃市场热情。
1.1.1、 功能强大,可完成多种视频图片生成任务
Sora 功能强大,可实现多种视频和图像生成任务。(1)Sora 可通过提示词生成 视频并灵活改变视频持续时间、分辨率和宽高比,即可以为各类不同的设备生成内 容相同或相似的视频;(2)通过图片提示生成视频,如基于 DALL·E2 和 E3 生成 的静态图片生成具有动态效果的视频。(3)通过视频提示生成视频,如将不同开头 的视频最终生成相同的结局,或者生成无限循环的视频,以及对视频进行编辑,改 变其中的某些元素和环境,同时也可以将不同的视频进行拼接。(4)通过提示词生 成高分辨率的精美图片。
1.1.2、 性能优异,对比其他产品形成显著优势
对比其他的视频生成工具,Sora 的性能优异呈现出碾压式的优势:(1)视频时 长:可生成时长长达 1 分钟的视频,并且品质优异,内容稳定;(2)场景复杂内容 逼真:Sora 可生成包含多个角色、特定运动类型以及主题精确背景细节复杂的场景, 视频效果逼真。(3)语言理解能力优异:Sora 能够深入理解提示词并且精准、忠实 的表达。(4)灵活度高:Sora 可随意生成不同时长、长宽比、分辨率的视频。

以最热门的 Pika 和 RunwayML 以及 Stable Video 和 Sora 做比较,可发现相同的 提示词下,Sora 生成的视频不仅时长远超其他,效果也优于同时期其他产品。
1.1.3、 起于视频生成,迈向世界模拟器
Sora 在进行视频生成任务时,生成的视频一定程度上能够遵循现实世界的物理 规律,这使得其模拟现实世界中的人物、动物、环境等,拥有了更广阔的想象空间。 (1)空间一致性:Sora 能够生成带有动态摄像头的运动视频,随着摄像头的移动和 旋转,人物和场景元素在三维空间中始终保持一致的运动规律。(2)时间一致性: 在 Sora 生成的长视频中,元素之间通常能够保持较好的时空一致性,如即使动物被 遮挡,或离开画面,在后续的视频中仍然能被较好的呈现。(3)因果一致性:Sora 生成的视频可呈现一定的因果关系。比如画家可在画布上留下笔触,人吃汉堡也能 在汉堡上留下痕迹。Sora 还能够模拟人工过程,如视频游戏,可用基本策略控制《我 的世界》,无需特殊的微调,在 Sora 中提示“我的世界”即可实现。
Sora 也呈现出一定的局限性,对物理规律的遵循没有那么严格。在某些场景下 无法准确还原物理交互过程,如无法完美的模拟水杯打碎液体飞溅的场景,有些视 频中物体会凭空起飞等,表明 Sora 仍然具有较大的提升空间。
1.2、 Diffusion 构成 Sora 基座,不断进步羽翼渐丰
1.2.1、 扩散模型逐渐成为 AI 视觉生成的主流方案
生成式模型在人工智能领域由来已久,近年随着大模型的兴起,生成式模型逐 步占到了舞台中央。生成式模型类型丰富,常见的有生成对抗网络(GAN,Generative Adversarial Networks)、变分自编码器(VAE,Variational Autoencoders)、扩散模型 (Diffusion)、Transformer 等。早年,GAN 和 VAE 模型占据生成式模型市场的主流, GAN 的生成效果尚可但收敛难训练困难,而 VAE 虽然易于训练,但生成效果一般, 常常出现样本失真等问题,并不具备大规模使用的基础。Diffusion 生成效果优异样 本多样性好,相对更容易收敛,逐步引发市场关注,当然方案本身也存在样本生成 速度慢、对算力消耗大等问题,近年亦涌现出基于掩码的自回归视频生成算法,总 体而言,在生成式模型领域,算法不断演进,性能亦不断提升。
Diffusion 模型历经发展逐步确立地位。扩散模型最初在 2015 年被提出,2020 年伯克利大学发布 DDPM 的论文,标志着架构上扩散模型逐步迈向成熟,其后不断 有新的机构将扩散模型不断完善,OpenAI 也加入行列之中,发表了“Improved Diffusion”、“Classifier Guidance”、“Classifier Free Guidance”等模型,2021 年 OpenAI 发表文章《Diffusion models beat GAN on image Synthesis》表明扩散模型的性能已经 超越其他模型方案。2022 年 DALLE-2 横空出世,通过利用扩散模型和海量数据, 该模型呈现出前所未有的理解和创造能力,将扩散模型彻底引入公众视野。此后不 到一个月时间谷歌发布文生图模型 Imagen、Stability AI 公司发布 Stable Diffusion 的 基石模型 Laion-5B、系列的基于扩散模型的生成式模型不断出现,持续掀起市场热 潮,扩散模型逐步衍生出潜在扩散模型(LDM)、Diffusion Transformer 等架构,后 期包括 Sora 等文生视频的模型以及部分文生 3D 的模型均以扩散模型作为基础,确 立了 Diffusion 模型在视觉生成领域的地位。
1.2.2、 扩散模型依靠噪声的添加和祛除实现图像生成
“加噪声”,“祛噪声”形成扩散模型基本原理。扩散模型最初受到了热力学扩 散定理模型的启发,像墨水滴入清水中一样,通过前向加噪声训练,反向去噪声推 理,经过多个步骤渐进式实现视觉内容的生成。具体而言,为了让扩散过程可以逆 转,会训练一个神经网络称为噪声预测器(Noise Predictor)。在训练过程中,建立一 个噪声预测器神经网络,选择一张照片,加入文字条件,并逐步骤加入噪声使图像 变得嘈杂,最终生成纯噪声图片。这一过程中噪声预测器将学习到中间加入了多少 次噪声以及每次加入的是何种噪声。在推理过程中,将训练步骤反向操作,让噪声 预测器预测并生成当前步骤下图片中的噪声,从前一步噪声图片中减去该步骤下噪 声预测器预测的噪声,图像即变得更加清晰,经过多次迭代即可还原出对应的图片。
1.2.3、 Stable Diffusion 推动模型迈向更广泛受众
潜在扩散模型提升计算效率,增强算法能力,助力扩散模型更广泛推开。前述 提到的扩散模型,是在像素空间运行,模型对于算力的消耗巨大,为了解决这一问 题,诞生了潜在扩散模型(LDM、稳定扩散模型,Stable Diffusion)。其先通过编码 器将图像压缩到一个称作潜在空间的区域中,这时扩散模型将面向潜在空间中的张 量来进行添加噪声和祛除噪声的过程,进而大幅减少计算量,之后再将生成的张量 通过解码器还原成为图像即可。这样的算法帮助 Stable Diffusion 能够在个人电脑上 运行,同时这样的方式也被诸多后续的文生图乃至文生视频的算法所采用包括 OpenAI 的 DALLE-3、甚至 Sora 等。潜在空间(Latent Space)即为抽象的多维空间, 能够展示出数据在抽象层面的一些有意义特征和共性,模型通过这些共性的特征可 以实现对数据的识别、归类、处理等任务。以人感知世界为例,识别“椅子”时通常会观察其是否包含四只腿和靠背,而颜色、材质则会被忽略,近似的我们将椅子 的概念在大脑中压缩成为“带有四个腿、靠背的物体”。

1.2.4、 Transformer 作为主干的扩散模型 DiT,规模优势凸显
Diffusion 进一步进化,与 Transformer 结合,Diffusion Transformer 横空出世。 扩散模型中的噪声预测器是决定模型生成质量的关键,在扩散模型的奠基性文章 DDPM 中,作者采用 U-net 作为噪声预测器的基础网络,U-net 为卷积神经网络(CNN) 的一种,具有简洁、语义连贯性强等特点,输入和输出的维度相同,天然适合扩散 模型,但在和文本融合的过程中 U-net 会遇到一定的问题。在 2022 年,伯克利大学 的 William Peebles 和纽约大学的谢赛宁,发表了论文《Scalable Diffusion Models with Transformers》,在扩散模型中采用 Transformer 替代了传统的 U-net,通过实验证明这 样的架构体现出明显的规模效应,其运算速度更快、并且生成的图像效果更佳。
具体而言,模型首先采用类似 Stable Diffusion 的架构,将图像通过解码器 (Encoder)压缩至潜在空间,之后参考 ViT(Vision Transformer,视觉 Transformer, 用 Transformer 来实现图像分类等任务),将图像压缩并分割(Patchify)成为小的序 列(Tokens)。之后送入基于 Transformer 构建的扩散模型中,这里作者设计了四种不 同类型架构。最后将生成的序列编码进行解码,输出相应噪声,实现图像生成。 DiT 的多模态能力提升,视频效果优异,规模效应增强。相比 CNN,Transformer 在图像处理领域拥有更好的性能表现,同时更加擅长处理多模态的任务,而这一特 点也被 Transformer 带到了 Diffusion Transformer 中, DiT 拥有更好的多模态信息处 理能力和视频生成效果。除此之外,模型显示出显著的规模效应:更大的计算量会 显示出明显更优的计算效果。更小的 Patch Size(意味着更大的计算量)和更大的参 数量都带来更好的图像生成效果。这表明 DiT 是一个非常适合于通过规模来提升显 示效果的模型。
1.2.5、 视频生成历经发展,Diffusion 模型逐步占据主要市场
Diffusion 和 Transformer 结合在视频生成领域崭露头角。文生视频和文生图拥 有着千丝万缕的联系,按照传统,视频本身可以拆分为不同帧的图像,因此文生视 频算法的发展通常会伴随文生图算法的演绎路径。早期文生视频领域多采用 GAN 或 VAE 架构,如 VGAN、VQGAN、DVDGAN 等,这一时期生成的视频分辨率低、效 果差。随后受到文本 GPT3 和大规模预训练 Transformer 架构的启发,很多玩家开始 开发基于 Transformer 架构的文生视频工具如 VideoGPT、NUWA 等。最后伴随扩散 模型的广泛应用,人们开始逐步将其应用在视频生成领域,伴随着文生图工具的井 喷,文生视频行业在 2023 年也迎来了蓬勃发展的状态。而在 2024 年,Sora 的横空 出世更是将文生视频的水平推升到新的高度。后续推出的 Open Sora 采用了类似 DiT 架构,清华大学和生数科技推出的 Vidu 采用了自研的 Diffusion 和 Transformer 融合 的 U-ViT 架构,均实现了惊艳的视频生成效果。
1.3、 Sora——践行 Scaling law+强大工程化能力下的产物
1.3.1、 Sora 以扩散模型为基是多种技术的结合体
Sora 是扩散模型和 Transformer 以及视频压缩网络的综合体。我们可以大致推 断 Sora 模型的技术架构。Sora 的主干网络是一个 Diffusion Transformer 模型,在训 练过程中采用了特殊设计的编码器将图像和视频信息进行编码,之后将视频数据压 缩为隐变量,输入 Diffusion Transformer 模型中对模型进行训练。推理的过程中,将 自然语言(文字)或者图像乃至视频作为提示词输入到模型中,通过扩散模型输出 相应的去噪之后的隐变量并通过解码器将信息解码成为视频,即可输出品质优越的 视频结果。
1.3.2、 坚定 Scaling law+强大工程化构筑最强视频生成模型
对于大模型来说,除了足够的算力之外,算法结构、数据处理亦是非常重要的 环节。相比传统的视频生成模型,Sora 模型在数据、算法等几个方面呈现出明显的 特点:
数据处理:视频分割和压缩方式、丰富的数据集、强大的自动标注很关键
(1)采用特殊的编码方式对视频进行模块化,构建适合于视频生成模型训练的 时空模块(SpaceTime Patchs)。大语言模型通常将文本信息转变成 Token 输入模型 进行训练,而在训练视频生成模型时,如何将整段视频经过压缩、转换之后,恰当 的分解成小的片段(Patchs)交给扩散模型训练很关键,这一定程度上将决定模型能 从输入的视频信息中学到什么。Patch早年在ViT模型中即有体现,在采用Transformer 处理图像问题时,会将图像进行分块,进而提升模型处理效率。在视频领域,Sora 技术文档中引用的论文《ViViT: A Video Vision Transformer》介绍了几类视频切分方 式:第一种是均匀帧采样,即将每一帧图片进行切分,最后将这些不同帧切分出来 的模块一起送入 Transformer;另一种方法则将 T 时间内视频分块,形成管状的模块, 模块中同时包含时序和空间信息,这样有效捕捉视频的动态性。我们推断 Sora 采用 了第二种视频数据切分方式。而这样的训练方式或许能够让模型获得更好的帧间关 系处理能力。
(2)通过原有文生图等能力,构建高质量的视频文本数据集和文本生成提示词。 在构建 Sora 的过程中,OpenAI 训练了专门的模型对视频进行描述,实现对模型内容 的标注。在将文本和视频关联起来的过程中,模型是否能够从训练数据中习得“准 确的文字描述”对模型性能会产生关键影响。OpenAI 采用类似 DALLE 的技术训练 自动标注模型来对所有视频生成文字字幕,这有助于提升视频质量。同时在推理过 程中,Sora 还利用 GPT 将剪短的用户提示扩充为较长且非常详细的提示词输入模型, 进而让所生成的视频能够忠实的反应客户提示词。
(3)Sora 采用了特殊的数据处理形式,能够保证视频以原有尺寸进行训练。 通常情况下的图像和视频生成方法在训练模型时会将视频调整大小、剪裁到标准尺 寸。OpenAI 则通过特殊的数据处理方法,可以允许视频数据以原始尺寸进行训练。 这使得 Sora 能够以灵活的分辨率生成视频,同时能够改善生成视频的构图。研究人 员根据 Sora 技术报告引用的文献推测,OpenAI 采用了论文《Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》中的“patch n' pack”的数据处 理方式,来实现对多种分辨率/持续时间/宽高比的视频的适应。
(4)特殊的数据集。Sora 的训练采用了独特的数据集,有研究人员提出,Sora 模型可能采用了游戏引擎的数据来进行训练,到底 OpenAI 采用了什么样的数据集来 训练模型仍然是未知数。以往的经验来看,比如此前的研究发现对大语言模型进行 代码训练,会显著提高模型的逻辑性。不同的数据集对模型的性能也会有较大影响。
算法层面:引入 DiT 算法大幅增强可扩展性
(1)Sora 采用了 DiT(Diffusion Transformer)算法,将传统 Diffusion 模型中的 类卷积神经网络 U-net 替换成为 Transformer 模型,这一方案在 2022 年被伯克利大学 的 William Peebles 和纽约大学的谢赛宁提出,并发表在论文《Scalable Diffusion Models with Transformers》中,而 William Peebles 也是 Sora 的主要作者之一。主干 网络替换为 Transformer 拥有明显优势,其一,Transformer 目前已经被应用于各类多 模态数据的处理,因此本身 Transformer 更适合处理多样化的视频生成任务;其二, Transformer 天然具备捕捉长程或者不规则时间依赖性的能力,在处理长时间维度之 间的信息时具有性能有时;最后 Transformer 的规模效应远远好于其他模型,能够充 分发挥规模化的优势。(2)OpenAI 的开发者可能在模型训练中增添了某些自回归任 务,以让模型能够更好地学习帧与帧之间的关系。
算力层面:强大算力是实现模型优异效果的基础
OpenAI 强大的算力基础亦给与模型强力支持。在其技术报告中显示,当算力提 升时,模型的推理效果也显著提高。
Sora 的出现是 OpenAI 强大工程化能力的综合体现,尽管 OpenAI 并非所有算法 的原创,但无论数据集、数据预处理、算法架构上 OpenAI 都进行了诸多探索,寻找 出一套行之有效的方案,结合自身强大的算力基础,将 Scaling law 推升到极致,最 终诞生现象级的产品。
2.1、 世界模型——理解世界,预测未来
世界模型——预测未来的“梦境”。对于世界模型,最早可以追溯到 20 世纪四 五十年代的心理学研究,认为任何动物可以依靠世界模型预测世界的下一个状态。 谷歌在 2018 年发表了影响深远的论文《World Models》,对世界模型做出了如下描述: 人类通常会以有限的感官所能感知到的事物为基础,在内心建立一个世界模型,我 们所有的行为都基于这个内部的模型来展开。这样的模型不仅能够预测未来,而且 能够根据我们当前的运动行为来预测未来的感官数据,我们能够基于这种预测迅速 采取行动。以棒球为列,棒球运动员只有毫秒级的击球时间,甚至比视觉信号从眼 球传到大脑还短,因此运动员根本无法在挥棒过程中调整和规划路线,之所以能够 提前控制肌肉以正确的方式挥出球棒并击中棒球,得益于他们大脑中的“预测模型”, 这个能够预测未来世界状态,在我们大脑中凭空演示一遍的“梦境”,就被称为世界 模型。之后这篇论文里还构建了一套世界模型的体系,并通过游戏实验发现,如果 让模型在“梦境”中预测未来会发生的事情,那么模型的游戏技能将明显提升。

世界模型也是对物理世界“常识”的理解。另外一个被经常提到的是人工智能 三巨头之一的 Yann Lecun 的“World Model”。在 Yann Lecun 的著名论文《A Path Towards Autonomous Machine Intelligence》中提到,青少年可以在 20 小时练习中学 会开车,而人工智在大量的训练中仍然无法实现良好的自动驾驶,因此动物和人对 世界的理解能力远超当前人工智能和机器学习系统。人类和动物快速学习能力是基 于对于世界的基础认识和常识。在人类最初出生的几天,几周,几个月就会学习了 大量关于世界如何运转的基本知识,如左右眼有视差,物体不会凭空产生、消失、 变形或传送,有些物体的轨迹可预测(如无生命的物体)、有些物体的行为方式有些 不好预测(如风沙、水、风中的树叶等),在此基础之上,又会形成一些如稳定性、 重力、惯性等概念。后续抽象的概念正式基于这样简单的概念建立。有了这些世界 的知识(常识),动物或者人类就可以快速学习新事物,对合理与否进行判断。当然 “具备常识”可以被认为是一种实现的路径,基于对世界更深入的理解,最终更好 的“预测未来”。
2.2、 世界模型——感知/记忆/控制的综合体
世界模型的构建——感知、记忆、控制模块齐备。在谷歌和 DeepMind 的论文 中,提出了一个简单的世界模型构建的方法,包含视觉感知组件(Vision Model,V)、 记忆组件(Memory RNN,R)、和控制组件(Controller,C),几个部分。其中重点 在于视觉感知和记忆组件。视觉感知模块采用变分自编码器(VAE)学习一个抽象 的、压缩的表示来描述每一帧的图像输入,这一点与人类相似,人类在观察事物的 时候也会对其进行处理,将抽象的信息如物体之间的相对关系、位置等总结出来, 而不是观察其绝对尺寸形状等;记忆组件将历史信息进行关联和压缩,并对下一个 状态的信息进行预测,当然也会受到自身行为带来的外部环境变化的反馈所影响; 世界模型主要由“感知”和“记忆”模块构成;控制组件负责确定所要采取的行动。 经过试验发现,世界模型能够以远超其他方法的分数完成赛车游戏。
2.3、 世界模型是自动驾驶助推器,助力模型训练、验证测试、甚至推理
世界模型可以有效赋能智驾。在自动驾驶领域,能够准确预测驾驶场景未来的 演变至关重要,通过对场景即将发生的事件进行预判,汽车可以自如的进行规划和 控制做出更明智的决策。怎样构建这样一个可以通过理解世界运行规律进而预测未 来的模型,学界和工业界都进行了不懈的探索。与大语言模型类似,玩家采用自回 归的模型,将数据压缩和提炼,在潜在空间通过无监督的训练构建模型对未来进行 预测,之后通过不同的解码器将预测好的信息解码成为需要的表达方式进而构建世 界模型。从结果来看模型可以通过海量的数据一定程度上总结世界运行的物理规律 并对未来进行一定程度的预测。在自动驾驶领域,世界模型可以用来生成场景,也 可以直接用来做决策规划。具体而言:(1)可以生成诸多逼真的场景,生成稀缺、 难以采集的场景,为模型训练提供足量的数据;(2)同样生成的场景亦可以作为仿 真测试工具对算法进行闭环验证;(3)多模态的世界模型亦可以直接生成驾驶策略 来指导自动驾驶行为。
自动驾驶进入深水区,端到端逐步成为未来方向,世界模型重要性凸显。一方 面,随着自动驾驶走入深水区,玩家对数据的要求日益提升,厂家希望数据能够模 拟复杂交通流、具有丰富的场景、广泛收集各类长尾场景、并且具备 3D 标注信息。 而现实状态下,数据的采集成本居高不下,部分危险的场景如车祸等难以采集,长 尾场景稀缺,同时 3D 标注的成本高昂,因此采用合成数据来助力自动驾驶模型训练 测试成为颇具前景的发展方向,而世界模型恰为良好的场景生成和预测器。另一方 面,随着端到端自动驾驶成为未来的发展方向,开发者需要依靠数据将驾驶知识赋 予模型,数据需求会伴随模型体量的增加而扩大。此外更重要的影响在于,在仿真 和验证环节,传统的模块化算法时代可以对感知和规控模块分别进行验证,感知端 可以进行开环的检测(即将感知的结果和带有标注的真实世界状况直接对比即可, 不需要反馈和迭代),规控环节可以依靠仿真工具,将世界的状况(各类场景)输入, 通过环境的变化来给与模型反馈,进而闭环的(外部环境可以根据智能体的输出变 化而改变,形成反馈)验证规控算法的性能。这其中,感知环节更注重仿真环境的 逼真性,而规控环节更注重逻辑的丰富度。在端到端时代,感知和规控合二为一, 这要求仿真工具既可以逼真的还原外部环境,同时能够给与模型反馈实现闭环测试, 尽管 Nerf、3D 高斯等等算法层出不穷,但能够很好的做到自动驾驶全过程完整的闭 环测试亦难度较高,而世界模型则能够很好的应对类似的场景。
2.4、 自动驾驶各方势力发力研究世界模型
特斯拉的 World Model: 特斯拉世界模型可预测驾驶场景下的未来发展。特斯拉在 2023CVPR 对其端到 端模型进行了简单的介绍,希望能够构建一个完整的 4D 神经网络,能够理解世界运 行的规律。具体而言,世界模型可以根据过去的视频预测未来场景的演化,形成几 大功能:(1)预测未来;(2)在没有本体实体的情况下帮助网络学习;(3)行动本 身可以作为生成的条件;(4)自车的行为会影响生成的效果,比如左转右转会分别 生成不同的视角。(5)可以用于仿真;(6)可以生成图像、几何空间的信息、语义 信息等;(7)泛化性比较好。 经过训练,模型具备了一定程度对物理世界的理解。特斯拉发现网络可以联合 预测汽车周围 8 个摄像头的信息;同时各个摄像头的颜色保持一致,表明可以更好 地预测传感器的特性;此外尽管开发者没有显式的要求它以三维或者非三维的方式 进行计算,网络即自行理解了三维空间的概念,视频中运动的物体也具有一致性,通过自然语言的提示,模型可改变视角;其可根据要求以相同的起点生成不同的结 局;对视频语料的适应性好,可以通过行驶记录、油管或者自己手机中的数据来训 练这个模型。相比游戏引擎所生成的仿真场景,这样的世界模拟器可以表示一些很 难用显式系统描述的事物,如物体的意图和行为等。
从感知基础模型窥探特斯拉世界模型端倪。特斯拉在 2023 年 CVPR 的演讲中介 绍到了其感知基础模型的构建方式,算法中先将外部的信息经过特征提取网络进行 压缩和特征提取,送入基于 Transformer 的模型,构建对于 4D 的时空环境的理解。 之后根据不同的任务需求,加入不同的解码器或者其他算法模块来实现不同任务, 如自动驾驶加入表面输出、体积网格输出等,供后续的模块使用,机器人也是同样 的道理。并且我们看到特斯拉的模型中不光包含多摄像头视角的视频信息,还包含 里程计、自车轨迹等信息,当然特斯拉也提到,在如何将里程信息和视频信息很好 的融合,以及如何提升模型的时空理解能力方面,亦做了大量工作。而我们看到这 样的基础模型和玩家们构建的世界模型出现了诸多相似之处。
Wayve:GAIA-1
GAIA-1 亦可实现对场景的理解。英国的端到端自动驾驶公司 Wayve.ai 在 2023 年发布了 GAIA-1 模型,它可以依靠视频、文本和动作的输入生成逼真的视频。模型 可以生成分钟级的视频,同时可以生成多种合理的未来,模拟多种场景:如与道路 使用者的交互、自车行为的改变等,同时可依靠文字来对视频中元素进行精细粒度 的控制,帮助自动驾驶模型的训练和仿真。
多模态数据训练后的模型亦呈现出对驾驶场景出人意料的认知。GAIA-1 模型呈 现出一些有趣的特点:(1)学习到了高级结构和场景动态:可以生成连贯的场景, 其中的对象位于合理的位置并且展示出合理的交互状态,如路灯、道路规则、让路 等,表明模型不仅记住统计模式,还理解世界上物体的排列和基本规则。(2)拥有 强泛化性和创造性:可以产生训练集中尚未明确出现的对象和场景。(3)拥有情景 意识:可以根据上下文的信息生成连贯的动作和响应,并展示出对 3D 几何的理解以 及道路使用者决策过程中的因果关系的理解,如可反应道路不平整引起的视角俯仰 等作用。
自回归+扩散模型形成模型的骨架。GAIA-1 的构建采用了自回归的世界模型和 视频扩散模型结合的方式,原理上和大语言模型以及各类视频生成模型相似,采用 向量化的表示,将预测未来转变成预测下一个 Token 的任务。首先采用不同的编码 器将图像、文本、动作编码和压缩变成各类 Token,之后将其送入以 Transformer 为 基础构成的世界模型中来对未来进行预测,最后将预测好的向量送入以扩散模型为 主体的视频解码器将其输出成为视频。

模型架构特殊设计来增强生成视频的帧间一致性。在模型架构方面,GAIA-1 采 用了专门的设计的图像分词器(Image Tokenizer),以保证在对视频信息进行切分的 时候,能够有效压缩原始图像信息减少冗余和噪声,同时能够让压缩后的内容包含 较多的语义信息而非高频像素信号。世界模型方面,采用因果掩码的方式让模型尝 试预测未来。此外在视频解码器方面,GAIA-1 采用视频去噪扩散模型,并让模型在 扩散过程中对帧序列去噪(多帧同步生成),从而提高了视频输出的时间一致性。此 外对视频解码器在多个任务上进行训练如图像生成、视频生成、自回归解码和视频 插值等,因为同时训练会提升单一任务的性能。
Wayve 训练的 GAIA-1 呈现出良好的规模效应和潜力。GAIA-1 在数据方面采用 了 2019-2023 年在英国伦敦收集的 4700 小时,25Hz 的专有驾驶数据,对应大约 4.2 亿张图像。模型总共约 90 亿参数,其中视觉编码器部分(Image tokenizer)拥有 3 亿参数,在 32 张英伟达 A100GPU 上训练了 4 天;世界模型拥有 65 亿参数,在 64 张英伟达 A100 GPU 上训练了 15 天;视频解码器拥有 26 亿参数,在 32 张英伟达 A100 上训练了 15 天。模型显示出显著的规模效应,当将模型的参数量增加,或者 将模型的计算量增加,都可以显著提升模型的性能,表明模型仍然具有较好的潜力。
英伟达: 英伟达的基础模型基于多模态数据训练,可生成逼真且灵活变化的驾驶场景视 频。英伟达在近期 2024 年 GTC 大会上也展示了其在世界模型领域的新进展,通过 将多模态数据(传感器参数、文字如天气等、自车行为、2D/3D 检测框、道路布局 等;Token 化的传感器感知数据)输入模型训练并让模型预测未来驾驶场景,自动驾 驶基础模型可以稳定生成多个摄像头拍摄到的驾驶场景演变,效果逼真。此外通过 语言提示词也可以使得模型呈现的场景灵活变化,如告诉模型视角为前视摄像头, 汽车正行驶在雪天的道路上,两侧道路的树木被雪覆盖,道路上也有雪散落,模型 可以生成逼真的相应驾驶场景。
学术界: 学术界的自动驾驶世界模型方案层出不穷。学术界尤其是 GPT 出现后在 2023 年和 2024 年涌现出一大批关于构建自动驾驶世界模型的方案。AI 创业公司极佳科技 和清华大学联合推出的 DriveDreamer 在架构上和 GAIA-1 类似,但在输入端包含更 多模态的数据如高精地图等,可实现更加深入的理解,更加精确的控制驾驶场景的 生成,同时还增加了 ActionFormer 模块来使得模型可输出控制信号,之后的 DriveDreamer v2 结合了大语言模型和新的架构来增强模型的可塑性和一致性;此外 双方还联合推出 WorldDreamer,采用了新的架构结合 Transformer 和 Diffusion 优势 进行视频生成。旷世科技、早稻田大学、中科大等机构的论文中提出了 ADriver-1 模型,使用多模态大语言模型作为主干网络,以自回归的方式输出控制信号,使用视 频潜在扩散模型来生成未来的视频输出。德国信息技术研究中心和 KTI 推出的 MUVO 模型则包含三个部分,首先将视频、点云信息进行解码压缩以及特征融合, 并和编码过的行为数据一同输入基于 Transformer 构建的世界模型,对未来进行预测, 之后通过不同的解码器分别输出 3D 占用网络、激光雷达点云、图像。中科院自动化 所提出的 DriveWM 采用多图联合建模提升了所生成驾驶场景的质量。
DriveDreamer 构建世界模型可实现未来场景的生成以及驾驶员可能相应产生 的动作。以极佳科技和清华大学联合推出的 DriveDreamer 为例,模型主要采用注意 力机制和 Diffusion 模型构建。可对驾驶场景实现全面的理解,集成了多模态的输入 数据如文本、视频、高精度地图、3D 检测框、驾驶行为等,可以实现可控的驾驶视 频生成和预测未来的驾驶行为。同时 DriveDreamer 还可以与驾驶场景互动,根据输 入的驾驶动作预测不同的未来驾驶视频。
3.1、 模拟世界,自动驾驶世界模型、视频生成模型以及具身智能拥有相 似的目标
面向相似的目标,多种任务殊途同归。OpenAI 给自己的 Sora 模型起名叫做 World simulator(世界模拟器),无独有偶,视频生成公司 Runway 在接连发布了 Gen-1 和 Gen-2 视频生成软件后,表示将进军通用世界模型的构建,以更好的理解和预测视觉 世界及其动态,文生图新星 Midjourney 亦表示将进军世界模型。在自动驾驶领域包 括特斯拉、Wayve、英伟达等公司均通过视频或多模态的数据训练来构建自己的世界 模型,学术界也涌现出诸多相似想法。在此之外,具身智能领域也出现诸多以世界 模型为基础的算法。无论自动驾驶、具身智能还是视频生成均出现相同的目标:让 模型理解世界的基础规律,长时间稳定的对未来进行预测,最终面向不同任务采用 不同的形式将这个对未来的“预测”进行表达,如视频生成领域即通过解码器生成 各类视频,自动驾驶领域即通过解码器来预测各类自动驾驶的任务,具身智能领域 则通过解码器生成自身需要完成的各类动作。深层次而言,让模型理解世界运行的 物理规律,进行因果层面的推理,提升泛化能力,提高计算效率并开发出有效的评 估体系,是所有世界模型一致的目标。

3.2、 模型架构相似,产业发展有望加速
产业迈向相似的路径,行业发展有望加速。我们看到视频生成领域的模型结构 和训练方式和自动驾驶领域呈现出诸多相似之处:(1)通常会采用编码器将复杂外 部世界获取的数据进行编码、压缩、抽象成为低维度的向量,这个过程如何进行数 据的压缩、编码和分割通常会被精心设计。(2)通常会采用 Transformer 或者其他模 型来分析和学习这些序列在不同的时间和空间维度的关系,进而实现对下一个时间 段的情况进行预测。(3)通过不同类型的解码器将之前生成的潜在空间的向量解码 成为我们所需要的信息形式,如视频、点云、甚至执行器的控制信息。而实际上诸 多玩家需要解决的问题也高度相似,即如何将复杂的世界压缩、精简、分割,进而 让模型能够学习到“世界”的知识;如何长时间、稳定的生成前后一致的视频;如 何促进规模化,我们看到前述 Sora 采用的方案也有异曲同工之处,而后续更加开放 的 OpenSora 亦有类似的架构,产业发展有望加速。
3.3、 集结最优秀人才和资源,Sora 和世界模型有望相互促进,加速发展
集结优秀人才和资源,产业发展有望加速。我们看到在 Sora 的启发下,OpenSora、 Vidu 等视频生成工具迭出,效果亦不俗,OpenSora 可以生成 16 秒时长的视频,分 辨率最高可达 720P,支持任何宽高比、不同分辨率和时长的文本到图像、文本到视 频、图像到视频、视频到视频和无限长视频的生成需求,团队采用改进化的 STDiT 架构,参考 SD3 增强模型稳定性,最终形成效果优异的视频生成工具,可见龙头公 司的引领作用不可小觑。大模型开发和自动驾驶汇集 AI 领域诸多优秀人才和资源, 相似的开发目标和过程有望让产业互相借鉴,加速产业发展,自动驾驶亦将受益于 世界模型的发展,迈上新台阶。同时我们也看到,自动驾驶和大模型的能力需求日 益趋同,未来拥有大模型开发能力的玩家,在自动驾驶领域有望持续获得先机。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)