Sora功能、起源及技术架构介绍

最佳答案 匿名用户编辑于2024/06/03 14:10

2023 年 2 月 16 日凌晨,OpenAI 发布了文 生视频大模型 Sora,能够根据用户提供的文本描述生成长达 60 秒的视频,同时视频 精准反应提示词内容,复杂且逼真,效果惊艳,引燃市场热情。

1、 功能强大,可完成多种视频图片生成任务

Sora 功能强大,可实现多种视频和图像生成任务。(1)Sora 可通过提示词生成 视频并灵活改变视频持续时间、分辨率和宽高比,即可以为各类不同的设备生成内 容相同或相似的视频;(2)通过图片提示生成视频,如基于 DALL·E2 和 E3 生成 的静态图片生成具有动态效果的视频。(3)通过视频提示生成视频,如将不同开头 的视频最终生成相同的结局,或者生成无限循环的视频,以及对视频进行编辑,改 变其中的某些元素和环境,同时也可以将不同的视频进行拼接。(4)通过提示词生 成高分辨率的精美图片。

性能优异,对比其他产品形成显著优势

对比其他的视频生成工具,Sora 的性能优异呈现出碾压式的优势:(1)视频时 长:可生成时长长达 1 分钟的视频,并且品质优异,内容稳定;(2)场景复杂内容 逼真:Sora 可生成包含多个角色、特定运动类型以及主题精确背景细节复杂的场景, 视频效果逼真。(3)语言理解能力优异:Sora 能够深入理解提示词并且精准、忠实 的表达。(4)灵活度高:Sora 可随意生成不同时长、长宽比、分辨率的视频。

以最热门的 Pika 和 RunwayML 以及 Stable Video 和 Sora 做比较,可发现相同的 提示词下,Sora 生成的视频不仅时长远超其他,效果也优于同时期其他产品。

2.起于视频生成,迈向世界模拟器

Sora 在进行视频生成任务时,生成的视频一定程度上能够遵循现实世界的物理 规律,这使得其模拟现实世界中的人物、动物、环境等,拥有了更广阔的想象空间。 (1)空间一致性:Sora 能够生成带有动态摄像头的运动视频,随着摄像头的移动和 旋转,人物和场景元素在三维空间中始终保持一致的运动规律。(2)时间一致性: 在 Sora 生成的长视频中,元素之间通常能够保持较好的时空一致性,如即使动物被 遮挡,或离开画面,在后续的视频中仍然能被较好的呈现。(3)因果一致性:Sora 生成的视频可呈现一定的因果关系。比如画家可在画布上留下笔触,人吃汉堡也能 在汉堡上留下痕迹。Sora 还能够模拟人工过程,如视频游戏,可用基本策略控制《我 的世界》,无需特殊的微调,在 Sora 中提示“我的世界”即可实现。

Sora 也呈现出一定的局限性,对物理规律的遵循没有那么严格。在某些场景下 无法准确还原物理交互过程,如无法完美的模拟水杯打碎液体飞溅的场景,有些视 频中物体会凭空起飞等,表明 Sora 仍然具有较大的提升空间。

3、 Sora——践行 Scaling law+强大工程化能力下的产物

1.3.1、 Sora 以扩散模型为基是多种技术的结合体

Sora 是扩散模型和 Transformer 以及视频压缩网络的综合体。我们可以大致推 断 Sora 模型的技术架构。Sora 的主干网络是一个 Diffusion Transformer 模型,在训 练过程中采用了特殊设计的编码器将图像和视频信息进行编码,之后将视频数据压 缩为隐变量,输入 Diffusion Transformer 模型中对模型进行训练。推理的过程中,将 自然语言(文字)或者图像乃至视频作为提示词输入到模型中,通过扩散模型输出 相应的去噪之后的隐变量并通过解码器将信息解码成为视频,即可输出品质优越的 视频结果。

1.3.2、 坚定 Scaling law+强大工程化构筑最强视频生成模型

对于大模型来说,除了足够的算力之外,算法结构、数据处理亦是非常重要的 环节。相比传统的视频生成模型,Sora 模型在数据、算法等几个方面呈现出明显的 特点:

数据处理:视频分割和压缩方式、丰富的数据集、强大的自动标注很关键

(1)采用特殊的编码方式对视频进行模块化,构建适合于视频生成模型训练的 时空模块(SpaceTime Patchs)。大语言模型通常将文本信息转变成 Token 输入模型 进行训练,而在训练视频生成模型时,如何将整段视频经过压缩、转换之后,恰当 的分解成小的片段(Patchs)交给扩散模型训练很关键,这一定程度上将决定模型能 从输入的视频信息中学到什么。Patch早年在ViT模型中即有体现,在采用Transformer 处理图像问题时,会将图像进行分块,进而提升模型处理效率。在视频领域,Sora 技术文档中引用的论文《ViViT: A Video Vision Transformer》介绍了几类视频切分方 式:第一种是均匀帧采样,即将每一帧图片进行切分,最后将这些不同帧切分出来 的模块一起送入 Transformer;另一种方法则将 T 时间内视频分块,形成管状的模块, 模块中同时包含时序和空间信息,这样有效捕捉视频的动态性。我们推断 Sora 采用 了第二种视频数据切分方式。而这样的训练方式或许能够让模型获得更好的帧间关 系处理能力。

(2)通过原有文生图等能力,构建高质量的视频文本数据集和文本生成提示词。 在构建 Sora 的过程中,OpenAI 训练了专门的模型对视频进行描述,实现对模型内容 的标注。在将文本和视频关联起来的过程中,模型是否能够从训练数据中习得“准 确的文字描述”对模型性能会产生关键影响。OpenAI 采用类似 DALLE 的技术训练 自动标注模型来对所有视频生成文字字幕,这有助于提升视频质量。同时在推理过 程中,Sora 还利用 GPT 将剪短的用户提示扩充为较长且非常详细的提示词输入模型, 进而让所生成的视频能够忠实的反应客户提示词。

(3)Sora 采用了特殊的数据处理形式,能够保证视频以原有尺寸进行训练。 通常情况下的图像和视频生成方法在训练模型时会将视频调整大小、剪裁到标准尺 寸。OpenAI 则通过特殊的数据处理方法,可以允许视频数据以原始尺寸进行训练。 这使得 Sora 能够以灵活的分辨率生成视频,同时能够改善生成视频的构图。研究人 员根据 Sora 技术报告引用的文献推测,OpenAI 采用了论文《Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》中的“patch n' pack”的数据处 理方式,来实现对多种分辨率/持续时间/宽高比的视频的适应。

(4)特殊的数据集。Sora 的训练采用了独特的数据集,有研究人员提出,Sora 模型可能采用了游戏引擎的数据来进行训练,到底 OpenAI 采用了什么样的数据集来 训练模型仍然是未知数。以往的经验来看,比如此前的研究发现对大语言模型进行 代码训练,会显著提高模型的逻辑性。不同的数据集对模型的性能也会有较大影响。

算法层面:引入 DiT 算法大幅增强可扩展性

(1)Sora 采用了 DiT(Diffusion Transformer)算法,将传统 Diffusion 模型中的 类卷积神经网络 U-net 替换成为 Transformer 模型,这一方案在 2022 年被伯克利大学 的 William Peebles 和纽约大学的谢赛宁提出,并发表在论文《Scalable Diffusion Models with Transformers》中,而 William Peebles 也是 Sora 的主要作者之一。主干 网络替换为 Transformer 拥有明显优势,其一,Transformer 目前已经被应用于各类多 模态数据的处理,因此本身 Transformer 更适合处理多样化的视频生成任务;其二, Transformer 天然具备捕捉长程或者不规则时间依赖性的能力,在处理长时间维度之 间的信息时具有性能有时;最后 Transformer 的规模效应远远好于其他模型,能够充 分发挥规模化的优势。(2)OpenAI 的开发者可能在模型训练中增添了某些自回归任 务,以让模型能够更好地学习帧与帧之间的关系。

算力层面:强大算力是实现模型优异效果的基础

OpenAI 强大的算力基础亦给与模型强力支持。在其技术报告中显示,当算力提 升时,模型的推理效果也显著提高。

Sora 的出现是 OpenAI 强大工程化能力的综合体现,尽管 OpenAI 并非所有算法 的原创,但无论数据集、数据预处理、算法架构上 OpenAI 都进行了诸多探索,寻找 出一套行之有效的方案,结合自身强大的算力基础,将 Scaling law 推升到极致,最 终诞生现象级的产品。

0.904297s