Sora技术路径及功能解读

最佳答案 匿名用户编辑于2024/03/25 16:39

基于 Patches 视觉特征标记的 Diffusion Transformer 模型。

Sora 取法 Tokens 文本特征标记,是基于 Patches 视觉特征标记的 Diffusion Transformer 模型。OpenAI 研究团队从 LLM 中汲取灵感,认为 LLM 范式的成功在一定程度上得益于 Tokens 的使用,Tokens 统一了代码、数学和各种自然语言的文本模式。类似于 LLM 范 式下的 Tokens 文本标记,Sora 创新性地使用了 Patches(a part of something marked out from the rest by a particular characteristic;视觉特征标记)。鉴于 Patches 之前已被证明 是视觉数据模型的有效表示,OpenAI 研究团队进一步研发发现 Patches 是一种高度可扩 展且有效的表示,可以被用于在不同类型的视频和图像上训练生成模型:

Step1 将视觉数据转化为 Patches(Turning visual data into patches):将视频、图 像等视觉数据压缩至低维的潜在空间中,并将其分解为带有时空(Spacetime)特征 的 Patches(若为图像,则对空间特征进行分解),从而将视觉数据转换为 Patches。

Step2 构建视频压缩网络(Video compression network):OpenAI 训练的视频压缩 网络将原始视频作为输入,并输出在时间和空间上都经过压缩的潜在特征。Sora 在 这个压缩的潜在空间中接受训练并生成视频。OpenAI 还训练了一个相应的解码器模 型,该模型将生成的潜在对象映射回像素空间。

Step3 提取视觉数据的时空潜在特征(Spacetime Latent Patches):给定一个压缩 的输入视频,提取一系列时空特征 Patches(此方案也适用于图像,因为图像只是单 帧视频)。基于 Patches 的表示使 Sora 能够利用不同分辨率、视频时间和宽高比的 视频和图像进行训练。在推理时,可以通过在适当大小的网格中排列随机初始化的 Patches 来控制生成的视频的大小。

Step4 推广 Transformer 模型到视频生成领域(Scaling transformers for video generation):Sora 是一个 Diffusion Transformer 模型,给定输入的嘈杂(noisy) Patches(以及文本提示等条件信息),它被训练来预测原始的干净(clean)Patches, 继而生成高清视频。随着训练计算量的提高,样本质量也明显提高。

确保“物理世界常识”始终在场的通用模拟工具。OpenAI 目前发布的 Sora 视频大模型 主要具备文生视频、视频编辑、文生图三类功能,其中前二项为最核心的 AI 功能:

文生视频:基础生成:Prompt 提示词DALL·E 生成图像Sora 生成视频。用户通过输 入一段 Prompt 提示词经由 DALL·E 重述文本继而生成图像,Sora 基于初始图 像与重述后的描述性文本生成视频。目前支持 1 分钟时长以内、多种分辨率与 宽高比的视频生成,风格涵盖真实世界与虚拟世界的各类题材。

3D 一致性(3D consistency):确保景别切换时运镜的连贯性。在“一镜到底” 的样片当中,画面中场景中的天空、树木、街边的装潢与叙事主题人物的空间 关系始终符合物理世界逻辑,Sora 的 3D 一致性能够确保视频在景别切换的过 程中运镜的连贯性。

远距离相干性和物体持久性:确保透视关系下被遮挡物始终存在。如下图,在 前景中的人物陆续走过后景中斑点小狗的过程中,在画面的透视关系与景深连 贯稳定的情况下,被遮挡的斑点小狗并未在后续画面中凭空消失。

与世界的互动性:确保真实世界的常识始终在场。如下图,在绘画视频中,笔 触在画布上留下的痕迹在后续画面中始终存在;中年男人咬下汉堡之后后续画 面出现咬痕。表明在叙事主体与世界发生交互之后,真实世界的物理规律等“常 识”始终在场,并未出现违背常识的画面。

模拟数字世界:数字世界渲染引擎。除了对于真实物理世界连续且稳定的视频 呈现,Sora 同时也可以生成例如 Minecraft 这类虚拟世界视频场景。真实世界 与数字世界的双重生成能力一定程度上促使 Sora 有望成为一部“通用世界模拟 工具”。

视频编辑:1、基于时空双维度的视频扩展-时间线与空间关系前后对照;2、更换视 频所处场景及风格-一键置景一键风格化渲染;3、不同主题场景视频的无缝连接-镜 头语言创新与 IP 重组。(Sora 通过逐渐插入技术,可以创建两个完全不同主题和场 景构图视频之间的无缝过渡。在下面视频编辑的示例③中,中心的视频是左右对应的 视频之间的插值。)