Sora技术路径及功能解读 - 问答集锦

最佳答案由匿名用户编辑于2024/03/25 16:39

基于 Patches 视觉特征标记的 Diffusion Transformer 模型。

Sora 取法 Tokens 文本特征标记，是基于 Patches 视觉特征标记的 Diffusion Transformer 模型。OpenAI 研究团队从 LLM 中汲取灵感，认为 LLM 范式的成功在一定程度上得益于 Tokens 的使用，Tokens 统一了代码、数学和各种自然语言的文本模式。类似于 LLM 范式下的 Tokens 文本标记，Sora 创新性地使用了 Patches（a part of something marked out from the rest by a particular characteristic；视觉特征标记）。鉴于 Patches 之前已被证明是视觉数据模型的有效表示，OpenAI 研究团队进一步研发发现 Patches 是一种高度可扩展且有效的表示，可以被用于在不同类型的视频和图像上训练生成模型：

Step1 将视觉数据转化为 Patches（Turning visual data into patches）：将视频、图像等视觉数据压缩至低维的潜在空间中，并将其分解为带有时空（Spacetime）特征的 Patches（若为图像，则对空间特征进行分解），从而将视觉数据转换为 Patches。

Step2 构建视频压缩网络（Video compression network）：OpenAI 训练的视频压缩网络将原始视频作为输入，并输出在时间和空间上都经过压缩的潜在特征。Sora 在这个压缩的潜在空间中接受训练并生成视频。OpenAI 还训练了一个相应的解码器模型，该模型将生成的潜在对象映射回像素空间。

Step3 提取视觉数据的时空潜在特征（Spacetime Latent Patches）：给定一个压缩的输入视频，提取一系列时空特征 Patches（此方案也适用于图像，因为图像只是单帧视频）。基于 Patches 的表示使 Sora 能够利用不同分辨率、视频时间和宽高比的视频和图像进行训练。在推理时，可以通过在适当大小的网格中排列随机初始化的 Patches 来控制生成的视频的大小。

Step4 推广 Transformer 模型到视频生成领域（Scaling transformers for video generation）：Sora 是一个 Diffusion Transformer 模型，给定输入的嘈杂（noisy） Patches（以及文本提示等条件信息），它被训练来预测原始的干净（clean）Patches，继而生成高清视频。随着训练计算量的提高，样本质量也明显提高。

确保“物理世界常识”始终在场的通用模拟工具。OpenAI 目前发布的 Sora 视频大模型主要具备文生视频、视频编辑、文生图三类功能，其中前二项为最核心的 AI 功能：

文生视频：基础生成：Prompt 提示词DALL·E 生成图像Sora 生成视频。用户通过输入一段 Prompt 提示词经由 DALL·E 重述文本继而生成图像，Sora 基于初始图像与重述后的描述性文本生成视频。目前支持 1 分钟时长以内、多种分辨率与宽高比的视频生成，风格涵盖真实世界与虚拟世界的各类题材。

3D 一致性（3D consistency）：确保景别切换时运镜的连贯性。在“一镜到底” 的样片当中，画面中场景中的天空、树木、街边的装潢与叙事主题人物的空间关系始终符合物理世界逻辑，Sora 的 3D 一致性能够确保视频在景别切换的过程中运镜的连贯性。

远距离相干性和物体持久性：确保透视关系下被遮挡物始终存在。如下图，在前景中的人物陆续走过后景中斑点小狗的过程中，在画面的透视关系与景深连贯稳定的情况下，被遮挡的斑点小狗并未在后续画面中凭空消失。

与世界的互动性：确保真实世界的常识始终在场。如下图，在绘画视频中，笔触在画布上留下的痕迹在后续画面中始终存在；中年男人咬下汉堡之后后续画面出现咬痕。表明在叙事主体与世界发生交互之后，真实世界的物理规律等“常识”始终在场，并未出现违背常识的画面。

模拟数字世界：数字世界渲染引擎。除了对于真实物理世界连续且稳定的视频呈现，Sora 同时也可以生成例如 Minecraft 这类虚拟世界视频场景。真实世界与数字世界的双重生成能力一定程度上促使 Sora 有望成为一部“通用世界模拟工具”。

视频编辑：1、基于时空双维度的视频扩展-时间线与空间关系前后对照；2、更换视频所处场景及风格-一键置景一键风格化渲染；3、不同主题场景视频的无缝连接-镜头语言创新与 IP 重组。（Sora 通过逐渐插入技术，可以创建两个完全不同主题和场景构图视频之间的无缝过渡。在下面视频编辑的示例③中，中心的视频是左右对应的视频之间的插值。）

参考报告

计算机软件行业专题研究：Sora开启创意领域iPhone时刻，关注全球文生图视频投资机会.pdf
- 查看报告