2024年计算机软件行业专题研究：Sora开启创意领域iPhone时刻，关注全球文生图视频投资机会

国金证券2024/02/20
举报

1．OpenAI 视频大模型 Sora：不止于视频，剑指世界模型，初步理解物理规律

1.1 Sora 问世：OpenAI 发布视频生成大模型，剑指物理世界通用模拟工具

2 月 15 日，OpenAI 发布视频生成大模型 Sora。OpenAI 基于 Transformer 架构的 Sora 大模型能够生成长达一分钟的高清视频，同时可以指定视频时间长度、分辨率与宽高比。 OpenAI 研究团队认为，Sora 的问世一定程度上意味着扩展视频生成模型是构建物理世界通用模拟器的重要潜在途径。

1.2 技术路径：基于 Patches 视觉特征标记的 Diffusion Transformer 模型

Sora 取法 Tokens 文本特征标记，是基于 Patches 视觉特征标记的 Diffusion Transformer 模型。OpenAI 研究团队从 LLM 中汲取灵感，认为 LLM 范式的成功在一定程度上得益于 Tokens 的使用，Tokens 统一了代码、数学和各种自然语言的文本模式。类似于 LLM 范式下的 Tokens 文本标记，Sora 创新性地使用了 Patches（a part of something marked out from the rest by a particular characteristic；视觉特征标记）。鉴于 Patches 之前已被证明是视觉数据模型的有效表示，OpenAI 研究团队进一步研发发现 Patches 是一种高度可扩展且有效的表示，可以被用于在不同类型的视频和图像上训练生成模型：

Step1 将视觉数据转化为 Patches（Turning visual data into patches）：将视频、图像等视觉数据压缩至低维的潜在空间中，并将其分解为带有时空（Spacetime）特征的 Patches（若为图像，则对空间特征进行分解），从而将视觉数据转换为 Patches。

Step2 构建视频压缩网络（Video compression network）：OpenAI 训练的视频压缩网络将原始视频作为输入，并输出在时间和空间上都经过压缩的潜在特征。Sora 在这个压缩的潜在空间中接受训练并生成视频。OpenAI 还训练了一个相应的解码器模型，该模型将生成的潜在对象映射回像素空间。

Step3 提取视觉数据的时空潜在特征（Spacetime Latent Patches）：给定一个压缩的输入视频，提取一系列时空特征 Patches（此方案也适用于图像，因为图像只是单帧视频）。基于 Patches 的表示使 Sora 能够利用不同分辨率、视频时间和宽高比的视频和图像进行训练。在推理时，可以通过在适当大小的网格中排列随机初始化的 Patches 来控制生成的视频的大小。

Step4 推广 Transformer 模型到视频生成领域（Scaling transformers for video generation）：Sora 是一个 Diffusion Transformer 模型，给定输入的嘈杂（noisy） Patches（以及文本提示等条件信息），它被训练来预测原始的干净（clean）Patches，继而生成高清视频。随着训练计算量的提高，样本质量也明显提高。

1.3 算法实现：Patches 实现更灵活的采样+更优化的构图

Why Patches？——更灵活的采样+更优化的构图。

从训练角度而言，基于 Patches 视觉特征标记对原生视频进行采样扩大了可用样本的规模且省去了标准化样本的步骤。对于不同分辨率、视频长度和宽高比的视频，以往常见的做法是将视频剪辑、调整大小或修剪到标准格式（例如：分辨率为 256x256 的 4 秒视频），而 Sora 则基于 Patches 视觉特征标记对原生视频进行采样（Sora 可对宽屏 1920x1080p 视频、垂直 1080x1920p 视频以及介于两者之间的所有视频进行采样）。从推理角度而言，基于原生视频训练的模型在生成新视频方面改善了构图和取景。

Sora 基于 DALL·E 3 DCS（Descriptive synthetic captions；描述性合成标题）的描述性标题重述与 GPT 的标题扩写强化其语言理解能力。训练文本到视频生成系统需要大量带有相应文本标题的视频，OpenAI 应用 DALL·E 3，基于高度描述性的字幕器模型为训练集中的所有视频生成文本字幕，同时，OpenAI 还利用 GPT 将简短的用户提示转换为更长的详细字幕，以最终获得更优的视频输出结果。

1.4 功能解读：文生视频+视频编辑，确保“物理世界常识”始终在场的通用模拟工具

确保“物理世界常识”始终在场的通用模拟工具。OpenAI 目前发布的 Sora 视频大模型主要具备文生视频、视频编辑、文生图三类功能，其中前二项为最核心的 AI 功能：

文生视频：

基础生成：Prompt 提示词DALL·E 生成图像Sora 生成视频。用户通过输入一段 Prompt 提示词经由 DALL·E 重述文本继而生成图像，Sora 基于初始图像与重述后的描述性文本生成视频。目前支持 1 分钟时长以内、多种分辨率与宽高比的视频生成，风格涵盖真实世界与虚拟世界的各类题材。

3D 一致性（3D consistency）：确保景别切换时运镜的连贯性。在“一镜到底” 的样片当中，画面中场景中的天空、树木、街边的装潢与叙事主题人物的空间关系始终符合物理世界逻辑，Sora 的 3D 一致性能够确保视频在景别切换的过程中运镜的连贯性。

远距离相干性和物体持久性：确保透视关系下被遮挡物始终存在。如下图，在前景中的人物陆续走过后景中斑点小狗的过程中，在画面的透视关系与景深连贯稳定的情况下，被遮挡的斑点小狗并未在后续画面中凭空消失。

与世界的互动性：确保真实世界的常识始终在场。如下图，在绘画视频中，笔触在画布上留下的痕迹在后续画面中始终存在；中年男人咬下汉堡之后后续画面出现咬痕。表明在叙事主体与世界发生交互之后，真实世界的物理规律等“常识”始终在场，并未出现违背常识的画面。

模拟数字世界：数字世界渲染引擎。除了对于真实物理世界连续且稳定的视频呈现，Sora 同时也可以生成例如 Minecraft 这类虚拟世界视频场景。真实世界与数字世界的双重生成能力一定程度上促使 Sora 有望成为一部“通用世界模拟工具”。

视频编辑：1、基于时空双维度的视频扩展-时间线与空间关系前后对照；2、更换视频所处场景及风格-一键置景一键风格化渲染；3、不同主题场景视频的无缝连接-镜头语言创新与 IP 重组。（Sora 通过逐渐插入技术，可以创建两个完全不同主题和场景构图视频之间的无缝过渡。在下面视频编辑的示例③中，中心的视频是左右对应的视频之间的插值。）

2. 文生图/视频海外标杆：AI 应用端焦点，技术及产品迭代迅速

2.1 文生图/视频为当下 AI 应用焦点：相关产品流量排序名列前茅

T2V/I 产品为时下流量焦点。按邀请页面流量排序的十大 AI 应用程序，Midjourney 位列第一，Pika 排在第二。在排名前十的应用程序中，有 5 个是图片生成应用程序，2 个是音频生成应用程序，2 个是视频生成应用程序。按流量计算，图片占了前 10 名流量的 74%，其次是视频 8%，语音/音乐（音频）6%。

2.2 文生图-T2I（Text to Image）：Diffusion 模型奠定文生图商业化基石，新老玩家广泛入局

T2I 模型迭代加速演进。2016 年以来，T2I 模型算法加速演进，包括 GAN、CLIP、Diffusion 在内的多种算法模型相继涌现，DALL-E、Stable Diffusion 与 Midjourney 等知名产品或平台相继问世。 2021 到 2022 年，T2I 应用出现了突破性的进展，生成的图像质量得到了迅速提高。2022 年前，文生图的模型以生成性对抗网络（GANs）为主，但因为在实践中存在明显不足，因而无法广泛商业化。2022 年开始，Diffusion 模型由于其生成图像的高逼真度与细节丰富度开始走入主流 T2I 应用赛道且进展迅速：2022 年初，T2I 工具 Disco Diffusion（一个可直接运行在谷歌云端电脑 Google Colab 的程序，于 2022 年 2 月引发关注）仅可以生成一些很有氛围感的草图；2 个月后，DALL-E 2（OpenAI 于 2022 年 4 月发布的 T2I 模型）相比 DALL-E 分辨率提高了 400%，已经可以刻画细节，生成准确的五官；如今，T2I 模型产品 Stable Diffusion（由慕尼黑大学研究团队 CompVis 与纽约 Runway 团队共同研发而成，由出资方 Stability AI 于 2022 年 8 月发布开源版本）和 Midjourney（独立研究室 Midjourney 于 2022 年 7 月发布同名 T2I 产品）创作的图像更加精致且具有艺术感，并且将作画速度缩短到 30s。

目前 T2I 的核心方法是 Diffusion 模型。OpenAI 于 2020 年发布的基于对抗学习的图像分类模型 CLIP（Contrastive Language-Image Pre-Training）能够将文本与图像快速匹配，帮助 Diffusion 模型变得更为实用。Diffusion 模型通过在前向阶段对图像逐步添加随机噪声，直至图像被破坏变成完全的高斯噪声，然后再逆向该过程以生成高质量图像。其独特之处在于其生成过程的逐步性和渐进性，使得生成的图像具有高度的逼真度和细节丰富度。Stable Diffusion 与 Midjourney 模型均基于 Diffusion 模型开发而来。Diffusion 模型交互简单、生成速度快，极大地降低了使用门槛。

2.2.1 Adobe：老牌创意软件巨头向 AIG 出征，发布下一代 Firefly 支持多种文生图功能

Adobe Firefly 支持多种 T2I 功能。2023 年 10 月，Adobe 在 Adobe MAX 2023 大会上发布了下一代 Firefly 模型集，包含 3 个新的生成式 AI 模型：Firefly Image2 Model（改善图像渲染质量）、Firefly Vector Model（世界首个生成高质量矢量图的 AI 模型）和 Firefly Design Model（文生设计模板的 AI 模型）。与第一代 Adobe Firefly 类似，下一代 Firefly 模型也将嵌入Adobe的创意工作流中，赋予设计人士更强大的生产力。目前，下一代Firefly 模型已嵌入至 Adobe Photoshop，Adobe Illustrator 和 Adobe Express 等产品中。Adobe Firefly 目前支持多种 AI 功能，包括提示词图像生成、提示词图像生成+环境嵌入、提示词图片色彩填充、提示词字体效果填充、图片智能扩展等。 Adobe Firefly 目前披露的 AI 功能较为细分，一定程度上是软件原有功能智能化延伸， Adobe 作为老牌创意软件巨头具有客群基数规模大、紧贴市场需求、拥有多年沉淀积累的合规的创意数据集等优势。

2.2.2 Midjourney：文生图模型新锐，提升创意设计工作效率，广泛实现商业化落地

Midjourney 是自筹资金的独立研究室，目前开发了同名文生图模型及应用，产品搭载在 Discord 中，采用 SaaS 模式收费，用户通过与 Midjourney Bot 进行对话式交互，提交 Prompt（文本提示词）以获取 T2I 生成的图像。 Midjourney 生成的图片可以显著地提高创意设计的工作效率。目前 Discord 的用户中专业设计师占比达 30%-40%，包括 Nike、Adidas、NewBalance 等公司的设计师。Midjourney 主要被应用于设计工作早期，帮助设计师激发灵感，快速测试想法，并迭代图片。 Midjourney 的风格包括很多科幻元素，擅长创造环境图，同时针对人像做了优化，风格较为细腻，非常适合游戏、电影、音乐和出版等创意行业。

2.3 文生视频-T2V（Text to Video）：创意产业工作流变革前夜，MGC 时代大幕下的先行者

Latent Video Diffusion 模型的问世奠定 T2V 领域的基石。2023 年，Runway 发布 Latent Video Diffusion（潜在视频扩散）模型，能够基于初始图像与文本描述来编辑并生成新的视频。Latent Video Diffusion 被应用于 Runway Gen-1 产品当中，在 2023 年初一度被业界认为启动了文生视频的“iPhone 时刻”。2023 年 3 月，Runway 开放 Gen-2 内测版本，产品功能已支持完全的文生视频，而不仅仅是对于已有视频的编辑功能。2023 年 11 月 16 日，Meta 基于 Latent Video Diffusion 模型发布 T2V 模型 Emu Video。2023 年 11 月 18 日，字节跳动同样基于 Latent Video Diffusion 模型发布 T2V 模型 PixelDance。后续，Stability AI 与 Pika 也相继发布了旗下 T2V 模型产品。而 OpenAI 近期发布的 Sora 则是一个基于 Diffusion Model（扩散模型）的 Transformer。扩散模型的工作原理是通过连续添加高斯噪声来破坏训练数据，然后通过逆转这个加噪过程来学习恢复数据，Transformer 则是一套编码器和解码器的架构，将文本编码成数字向量，然后通过解码将数字向量还原出文本。Sora 融合了两者，通过编码器-解码器架构处理含噪点的输入图像，并在每一步预测出更清晰的图像版本，被用于从高维的时空碎片张成的空间中，观察并提取丰富的时空碎片之间的关联与演化的动态过程。

我们认为，基于 Latent Video Diffusion 文生视频大模型的 AI 产品或将深刻变革视频内容行业，在影视创作、广告创意、短视频创作等领域均有广阔的应用前景。下述段落以影视产业为例详细剖析 T2V 大模型对于视频内容产业工作流带来的深刻变革。 AI深入赋能影视产业内容生产环节。影视产业链是指以作品版权为核心的贯穿开发创作、拍摄制作、宣传发行（内容推送）、影院放映（在线播映）以及衍生品开发整个过程的影视生产链条。AI 现已逐步渗透影视产业链的各个环节，与影视内容创作、分发息息相关。以影视产业内容生产的核心环节——开发创作与拍摄制作为例，以往 AI 已经落地了一系列智能化的变革：

开发创作环节：智能选角：优酷通过全网舆情提炼出演员的个人标签，又从其历史扮演的角色中提炼出角色标签，建立模型，将演员和角色进行匹配度计算，为《长安十二时辰》选定由雷佳音扮演张小敬这一角色，并最终收获市场验证。剧本生成： ScriptBook 的剧本生成器能通过特定的词和短语识别出风格和主题，生成指定的故事设定和类型，并依据上下文正确地描绘出剧本结构。迪士尼的 Spellcheck 能分析剧本中角色的性别、种族、残疾等指标的百分比，以识别和纠正剧本的潜在的偏见，生成更中立的内容。票房预测：ScriptBook 能对先前的案例数据进行建模，从角色的行为、对话中识别角色性格特征，对电影分级、目标观众构成和最受观众欢迎的角色以及票房收入做出预测，辅助项目开发决策。

拍摄制作环节：动作捕捉：如《复仇者联盟 3》中使用机器学习算法对真人演员面部表情的捕捉和跟踪，制作出“灭霸”角色更逼真的表情；Weta 公司使用深度学习的方法推算“阿丽塔”角色的运动数据，绘制出更精致的肌肤细节。智能剪辑：特效软件 Massive 实现了 AI 模拟功能，AI 替身帮助节省了生成 CG 角色的时间，也减少对演员岗位的需求；《中国新说唱》的智能剪辑用 AI 进行自动化的音视频对位工作，极大地减轻了剪辑师的基础工作。风格迁移：AI 在后期制作的运用试图让视觉效果不断向高层次丰富，如用选取基准图片和提取视频关键帧的方式，把图片的风格迁移至视频中，实现用户对风格的定制。

以 Sora 为代表的 T2V 大模型有望深刻改变影视产业工作流。此前 AI 赋能影视产业的逻辑主要以 AI 算法进入既有的影视内容生产、分发环节，以降本增效地方式为影视产业节约成本、提高效率为主。伴随以 Sora 为代表的 T2V 大模型的问世，我们认为，机器生产内容（MGC 模式，Machine-Generated Content）的时代或在不远的将来成为现实。当影视内容的剧本创作不再需要编剧，当拍摄制作不再需要真人演员、场地置景、专业的拍摄与后期团队，当以 TikTok 为代表的“推荐你喜欢”模式转向“生成你喜欢”模式继而重新定义“生成即渠道”，影视产业，无论是传统的 PGC 电影、电剧集还是新兴的 UGC 短视频、短剧，抑或是饱受期待的 3D 视频内容，也许都将面临 T2V 大模型对于影视产品工作流的巨大冲击与深刻变革。未来，不断迭代演进的 T2V 大模型有可能以更少交互的 Agent 形态存在，从而更便捷地响应市场海量的视频内容需求。

2.3.1 Pika：AI 初创公司发布 1.0 工具，支持一键生成 3 秒共计 72 帧视频

2023 年 12 月，AI 初创公司 Pika 推出视频生成工具 Pika 1.0，卡位文生视频（T2V）、图生视频（I2V）。Pika 支持 3D 动画、动漫或电影生成，具备画布延展、局部修改、视频时长拓展等编辑功能。目前 Pika 一键最多生成长度为 3 秒的共计 72 帧视频。目前，Pika 已获得三轮合计 5,500 万美元的融资，公司估值约为 2-3 亿美元。目前，Pika 1.0 的主要功能包括： T2V/I2V：输入几行文本或上传图像，可以通过 AI 创建简短、高质量的视频。风格切换：将现有视频转换为不同的风格，包括不同的角色和对象，同时保持视频的结构。局部替换：使用 AI 编辑视频内容，比如更换衣服、添加另一个角色、更改环境或添加道具。扩展画布：扩展视频的画布或宽高比。将视频从 TikTok 9:16 格式更改为宽屏 16:9 格式，AI 模型将预测超出原始视频边界的内容。扩展长度：使用 AI 扩展现有视频剪辑的长度。

2.3.2 Runway：拥有最早商业化的 T2V 模型之一-Runway Gen-2

Runway 早期是一家以 AI 研究为中心的公司，在研究的过程中团队发现了市场机会，并将早期研究的技术成果应用在了视频后期这个应用场景当中。受到 Google 投资的 Runway 在开发 AI 图像生成器 Stable Diffusion 方面发挥了重要作用。2023 年 6 月， Runway基于Gen1发布Gen-2，是市面上最早商业化的T2V模型之一。同年8月，Runway 将 Gen-2 生成视频的最大长度从 4 秒提升到了18 秒。近日，Gen-2 新增功能“运动笔刷”，最多支持独立控制多达 5 个选定的区域，可通过笔刷选定区域实现自动灵活的 I2V。

3. 文生图/视频国内映射：万兴、美图头部标杆，相继发布视觉大模型，订阅收入占比势能向上

3.1 万兴科技：发布“天幕”大模型整合 T2V/I 能力，AI 赋能订阅及续约率双增

万兴“天幕”大模型支持视频、图片、音频等多模态 AI 功能。万兴于 2023 年 9 月世界计算大会上宣布即将发布国内首个专注于以视频创意应用为核心的百亿级参数多媒体大模型“天幕”，“天幕”将依托基础大模型及高性能全球网络平台、计算集群算力平台、海量数据平台，由视频大模型、音频大模型、图片大模型、文本大模型组成，涵盖当前市面上语言、音频、图像的大模型能力，包括视觉、音频、语言多模态 AI 生成及优化，具备一键成片、AI 美术设计、文生音乐、音频增强、音效分析、多语言对话等核心能力。

2023 年以来万兴 AI 产品相继更新/发布： 2023 年 8 月，万兴对 PDF 进行更新，AI 助手 Lumi 可直接在内唤醒。 2023 年 9 月，万兴对亿图脑图进行更新，将“思维导图”定义为一种崭新的文件范式，创新性地提供思维导图生成 PPT/音频/视频等功能；万兴在原有“视频版”基础上发布万兴播爆“直播版”，支持数字人直播、直播推流、实时互动、AI 智能脚本、 AI 翻译、智能回复等功能；万兴发布万兴智演，定位为名师讲演神器，具备人景融合、文稿编排等功能。 2023 年 10 月，万兴对旗下视频创意核心产品 Filmora 进行大版本更新，实现智能文字快剪、智能人声分离、AI 遮罩、AI 智能补帧、稳定影片、肤色保护六大功能升级。

万兴于 2022 年底至 2023 全年对旗下 T2V/I 多款拳头产品进行 AI 功能更新，发布全新 AI-Native 产品 Kwicut/万兴播爆/万兴智演等，且至少已有 3 款产品明确接入 OpenAI GPT 系列模型。加入 AI 功能之后，多款产品月活/付费率/收入数据有所增长。万兴的价格策略调整幅度较小，后续或考虑 AI Tokens 增值模式。

AI 赋能万兴订阅收入占比及订阅续约率双双逐年增长。万兴于 2018 年便开始逐步实现从传统 License 模式向 SaaS 模式转型，从跨端（桌面端、移动端）服务模式向多端（桌面端、移动端、云端）整合服务模式升级。2023H1 年公司订阅收入占比已达 72%，订阅续约率提升至 65%。

3.2 美图公司：自研视觉大模型 MiracleVision 4.0，订阅业务收入占比逐年增长

自研视觉大模型，MiracleVision 4.0 焕新升级。2023 年 6 月，美图正式发布自研 AI 视觉大模型 MiracleVision（奇想智能），全面应用于美图旗下影像与设计产品，为美图旗下 AI 图片、AI 视频、AI 设计、AI 数字人等提供服务。2023 年 12 月 5 日，美图创造力大会上， MiracleVision 升级至 4.0，具备文生视频、图生视频、视频生视频等多模态能力。美图收购站酷强化创意软件业内协同效应。2023 年 2 月，美图宣布以总价 3,964.05 万美元（约 2.85 亿元）收购站酷，交易结构中，1,778.4 万美元将以配发及发行 5,299.2 万股代价股份支付，余额 2,185.6 万美元将以现金支付。站酷成立于 2006 年，聚集了来自全球 300 多个城市的设计师、摄影师、插画师等视觉创意从业者，拥有近 1,700 万注册用户。美图 CEO 吴欣鸿表示，站酷的加入将进一步提升美图影像与设计产品业务，为美图自研的 AI 视觉大模型 MiracleVision（奇想智能）生态带来优质协同效应。

2020年以来美图订阅业务收入占比逐年增长。2022年，美图VIP订阅业务收入占比最高，占比 37.5%，实现收入 7.8 亿元，同比增长 57.4%；SaaS 及相关服务收入增长强劲，占比 22.2%，系公司收购一家专注于向化妆品门店提供 ERP 及供应链管理 SaaS 方案的企业；在线广告及达人内容营销解决方案（IMS）收入受疫情冲击影响较大，收入占比呈下降趋势。2020 年以来，美图订阅业务收入占比呈现逐年增长态势。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）