1、AI+时代下大模型百花齐放,垂类应用进展迅速
AI 浪潮下大模型百花齐放。自 2022 年 11 月 OpenAI 推出聊天机器人 ChatGPT 起,其历时两个月成为史上用户增长速度最快的消费级应用,AI 浪潮随之席卷而 来。2 月 GPT 试点推出付费订阅版本,2023 年在其业务功能中使用 ChatGPT 的公司数量超过 800 家。2023 年来,国内互联网大厂也纷纷开始探索 AI 落地场 景并不断拓宽边界,随着 AI 算力和模型的日趋成熟及供给端的丰富,文字、图 片、音乐、视频等垂类领域应用也取得了飞速的发展。 海外应用多模态能力取得突破性进展。今年以来,AI 领域涌现出许多令人眼前 一亮的垂类应用,涵盖从语音识别、自然语言处理、图像识别、视频制作、音乐 生成、社交等多个领域,这类应用相较通用大模型来说生产力特性更为明显,同 时随着模型能力发展、技术下沉,其表现出的生成能力也较早期阶段有了明显的 改善,如文生视频应用Sora、音乐应用 Suno、图片应用 Midjourney、游戏 AI 应用英伟达 Voyage、社交应用 Character.AI 等,为用户的生活和工作带来了极 大的便利,也为应用开发商及内容创作者带来了新的机遇。
随着各类应用如雨后春笋般出现在大众的视野,其本质都可归结为 AI 大背景下 的多模态 AIGC(GC,Generative Content,生成内容)技术变革。以文生视频为 例,随着文字、图片生成技术逐渐成熟,文生视频成为多模态能力拓展的关键一 环,随着技术的成熟,有望在影视、游戏等细分领域内容创作过程中极大提升效 率,加速优质供给产出,为各细分行业带来新的商业化机会。 最早的多模态生成技术之一是文生图(Text-to-Image Generation),顾名思义, 能够将文本描述转换为图像,这项技术通常利用自然语言处理(NLP)来理解文 本内容,然后使用计算机视觉技术生成相应的图像。经典的文生图工具有: Midjourney、Playground AI、Ideogram 等,此类工具极大地提高了平面设计等 领域的生产力。
紧随其后的是文生音乐(Text-to-Music Generation),能够根据文本描述生成 音乐。文生音乐涉及对文本情感和语境的理解,以及音乐理论的应用,经典的文 生音乐工具有Stable Audio,文生音乐应用的出现正在逐步降低音乐创作的门槛, 未来随着技术逐渐成熟,有望催生更多优质音乐作品的诞生,同时与文生视频、 文生图技术相结合,进行更为复杂的作品制作。随着技术的进步,逆向过程也被 开发者所注意到。研究者也开始探索如何将图像转换为文本描述,通常用于图像 标注、自动生成新闻报道。音频到文本的技术,如语音识别,可以将语音转换为 可读的文本,这在自动字幕生成、语音助手和语音到文本转换应用中较为常见。 目前国内最为常用的 AI 语音工具包括讯飞视听。 随着深度学习的发展,近年来文生视频(Text-to-Video Generation)技术开始出 现,文生视频技术能够根据文本描述生成视频,也需要更复杂的模型来处理时间 序列数据,并生成连贯的动态画面,代表性应用包括 OpenAI 旗下应用 Sora。

Sora 问世颠覆内容创作,定义 AI 文生视频新高度。2024 年 2 月,OpenAI 发布 首个文生视频模型 Sora,引起了行业轰动。Sora 能够根据简单的文字描述一次 性生成 60 秒视频,在质量、时长方面均实现行业性突破,同时能够生成复杂的 多机位视频,实现连贯的场景画面呈现和精致真实的角色刻画,效果远超行业水 平。Sora 的发布重新定义了 AI 文生视频技术的高速,也让市场对生成式 AI 在视 频领域的应用有了新的认识。对于视频领域来说,Sora 的问世意味着传统的内 容创作方式有望被颠覆,影视内容制作流程长、成本高、门槛高的问题有望出现 改变,创作者的创造力和想象力被进一步激发,人人都是导演的时代正在到来。
2、文生视频发展历程及特点
2.1 文生视频模型特点
国内外大模型发布初期,其应用场景更多集中在文字领域,而文生图模型经历多 年技术迭代,目前许多产品生成效果已经接近真实水平,爆款应用包括 Stable Diffusion、DALL-E 2、Midjourney 等。2022 年 4 月,Google 发布《Video Diffusion Model》,提出扩散模型在视频领域的应用场景,此后涌现出了更多的文生视频 模型,包括 Runway Gen1、Runway Gen2、Pika、PixelDance、Emu Video、 Video LDM 等。 文生视频是基于文本通过生成式 AI 生成视频的技术,目前发展仍处于初期阶段。 相比文生图,文生视频的难点和挑战在于:1)算力成本高,生成视频的长度和 前后帧保持连贯的前提需要大量的计算资源,而视频数据的处理也需要更强大的 计算能力;2)高质量数据集较少,目前用于文生视频模型训练的多模态数据集 相对较少,且相较文字类数据来说更为复杂,标注上具备一定难度。 根据 GIR (Global Info Research)调研,2023 年全球文生视频大模型收入大约为 720 万美元,预计 2030 年达到 22.19 亿美元,2024 至 2030 期间,年复合增长 率 CAGR 有望达到 56.6%。文生视频的商业模式可以参考文生图的发展,即按 照相关应用产品的生成量、生成速度进行计算收费。基于目前文生视频受限于技 术导致视频时长较短,商用产品主要应用于短视频方向,未来随着技术迭代,效 果改善,有望大范围应用于影视、游戏产品制作等方向。
2.2 文生视频发展历程
(1)早期阶段:以 GAN 模型为代表
早期的文生视频模型主要是基于 GAN(Generative Adversarial Nets,生成式对 抗网络),作为生成式对抗网络,是最早应用于文生图的主要模型。GAN 模型 具备参数量小、轻便等特点,能够为单个或多个对象进行建模。但由于低分辨率、 短距、视频中目标运动单一等问题,训练稳定性不足,生成图像缺乏多样性,因 而应用范围较为有限,主要是静态、单一画面的生成,分辨率有限。这一阶段 GAN 模型的代表产品包括 VGAN、TGAN、VideoGPT、MoCoGAN、DVD-GAN、 DIGAN 等。
(2)发展阶段:自回归模型及扩散模型
这一阶段的文生视频主要基于自回归模型及扩散模型。 基于 Transformer 的自回归模型突破了文生视频的时间限制,可以进行任意时 长的视频生成。技术原理是通过输入文本后利用 transformer 模型编码,将文本 转化为视频令牌,进行特征融合后输出视频。与 GANs 相比,具有明确的密度建 模和稳定的训练优势,可以通过帧与帧之间的联系生成更为自然连贯的视频,但 自回归模型计算成本消耗大,且需要大量训练数据,参数是扩散模型的 10 倍以 上,对计算资源要求及数据集的要求往往高于其他模型,代表产品主要有Phenaki、 Cogvideo 等。
扩散模型是目前 AI 视频生成的主流技术路径,在语义理解、内容丰富程度上均 有突破。2022 年 4 月,Video Diffusion Model 推出,标志着扩散模型在视频生 成领域的应用正式开启,其通过预训练模型进行文本特征提取后,再进行文本到 图片、图片到视频的生成,均基于扩散模型进行。但是扩散模型具有采样速度慢、 计算消耗大等问题,在建模时间维度时通常效果较弱,生成视频动作幅度小,连 贯性差。但由于扩散模型在生产质量和成本中能够达到较为合理的平衡,目前文 生视频产品多采用扩散模型,代表公司如谷歌、Meta、Runway,产品包括 Video LDM、Text2Video-Zero、Runway-Gen1、RunwayGen2 等。 整体看来,目前市面上的文生视频模型在风格、质量、速度、理解能力等方面均 存在差异,且各具优劣,随着技术迭代,可以预见的是,随着模型规模和训练量 的增加,文生视频 AI 的性能会得到提升,并且会向即时编辑与高效内容生成方 向发展,未来用户使用体验感有望进一步提升,从而挖掘更多的应用场景。
3、部分文生视频产品介绍
3.1 海外产品
1)Sora
Sora 由美国人工智能领域的领军企业 OpenAI 在 2024 年 2 月发布,模型大小适 中,参数量为 30 亿,能够保持较高的运算效率。适中的模型大小使得 Sora 能够 在各种计算设备上运行,为广泛的应用场景提供了可能。 Sora 能够在模型能力上超过行业平均水平,主要得益于以下方面的技术突破:1) Sora 基础架构采用了创新的“扩散+Transformer”混合模型。其中,扩散模型负 责从随机噪点图像数据逐步去噪得到清晰图像,而 Transformer 架构则用于降低 视觉数据的维度,生成不同分辨率的内容,这种混合模型的设计使得 Sora 能够 生成高质量、高分辨率的视频内容,同时保持较高的处理速度。2)Sora 具备强 大的视频生成功能。采用将视频和图像数据转化为统一表现形式的方法,提升数 据集训练效率,可以根据用户的文本提示创建最长 60 秒的逼真视频,深度模拟 真实物理世界,包括展示多个角色、特定运动的复杂场景等。3)Sora 在语义理 解上也具备优势。通过 Dall·E3 中采用的视频再描述(re-captioning)技术获 得大量配有描述文本的训练视频数据,Sora 能够理解并执行详细的文本指令, 提升文本生成视频的质量,生成具有视觉质量和连贯性的视频内容。除了物体, Sora 还可以生成具有丰富情感和个性的角色,让视频内容更加生动有趣。
2)Pika
Pika 1.0 由 Pika Labs 在 2023 年 11 月发行,Pika Labs 是由斯坦福大学 AI Lab 的博士生创立的生成式 AI 初创公司,专注于视频生成技术的研发,致力于为用 户提供高效、便捷的视频生成解决方案。 Pika 具备多种强大的功能,主要包括:1)视频生成与编辑:Pika 能够根据用户 的指令生成各种风格的视频,包括 3D 动画、动漫、卡通和电影等。用户还可以 选择延长现有视频的长度或将其转换为不同的风格。2)AI 编辑功能:Pika 提供 了 AI 编辑工具,用户可以利用这些工具更改视频内容的细节,如角色的服装或 添加新角色,实现复杂且个性化的视频编辑和创作。3)创意转视频:Pika 支持 用户上传自己的创意想法,并自动将其转化为相关的视频内容。无论是旅游博客文章、产品设计草图还是婚礼主题和音乐,Pika 都能快速生成符合用户需求的视 频。
3)Runway
Runway 旗下视频生成工具主要包括 Gen-1、Gen-2。Gen-1 于 2023 年 2 月推 出,立足于风格迁移技术,能够通过应用文本提示或参考图像中指定的风格,将 现有视频转化为新视频,但生成视频质量不足,难以作为完整的成片交付使用。 在此基础上,Runway 于 2023 年 6 月推出了 Gen-2,在 11 月发布 Gen-2 生成 4K 高清视频的更新升级。相比 Gen-1,Gen-2 实现了跨越式升级,支持提示词 一键生成超写实视频,在分辨率、细节上均实现突破。 Gen-2 利用 AI 技术自动生成视频内容,包括动画、过渡效果和视觉特效。用户 还可以通过内置的编辑工具对视频进行剪辑、合并、添加字幕等操作,轻松打造 出个性化的视频作品。主要支持功能包括:1)图像生成与处理:除了视频功能 外,还支持图像的生成和处理。用户可以利用其 AI 算法创建新的图像、修改现 有图像或进行风格转换,为视频制作提供更多的素材和选择。2)3D 内容创作: 支持 3D 模型的生成、编辑和渲染,以及实时 3D 场景的构建和交互。这使得用 户能够创建出更加逼真和生动的视频内容。3)一键式智能处理:提供了一键式 智能处理功能,能够自动优化视频质量和色彩效果,节省用户的时间和精力。4) 多平台输出:支持多种视频输出格式和分辨率,用户可以根据需要将视频上传到 社交媒体、分享给朋友或发布到专业平台。
4)Stable Video
Stable Video 由人工智能初创公司 Stability AI 推出,这款模型基于之前发布的 Stable Diffusion 文本转图片模型进行延伸,能够通过现有图片生成视频。主要 特点包括:1)稳定化效果:Stable Video 通过先进的图像识别和稳定算法,能 够有效地消除画面抖动,使视频更加平滑、自然。2)丰富的参数设置:Stable Video 提供了丰富的参数设置,用户可以根据个人需求进行灵活调整,实现个性化的视 频编辑。3)多种分辨率和帧率支持:Stable Video 支持多种分辨率和帧率的输 出,满足用户在不同场景下的需求。
5)LTX Studio
LTX Studio 是由 Lightricks 公司推出的 AI 电影生成工具。Lightricks 是一家专 注于图像和视频处理技术的公司,致力于开发创新的解决方案,简化视频创作流 程。LTX Studio 的基础架构包括先进的 3D 生成技术、风格化与渲染技术、镜头 切换和场景一致性控制以及摄像机控制等。主要功能包括:1)文本生成角色: LTX Studio 的文本生成角色功能基于人工智能技术,特别是深度学习和自然语言 处理技术。用户可以通过输入文本来生成具有高度一致性和互动性的视频角色。 2)换脸功能:通过 AI 技术实现,用户只需输入简单的文字提示即可完成换脸和 角色替换。3)深度帧控制: 包括 3D 生成技术、风格化与渲染、镜头切换、场 景一致性和摄像机控制等技术细节,以确保视频内容的连贯性、逻辑性和视觉效 果。4)角色一致性保持: 通过智能化的方式理解和转化文本内容,生成具有高 度一致性的视频角色。5)自动编辑: 提供智能编辑功能,帮助用户提高视频内 容的质量和吸引力。
6)Genmo
Genmo 作为人工智能创意内容生成平台,专注于开发基于人工智能的创意产品。 可以通过语言描述自动生成视频、图像、3D 模型等创意内容。 Genmo 具备多种强大的功能,主要包括:1)文本生成图片、视频:用户可以通 过输入文本,快速生成与文本内容相匹配的图片或视频。2)文本+图片生成视频: 除了纯文本生成外,Genmo 还支持结合文本和已有图片,生成具有动态效果的 视频。3)Inpainting 功能:在 Genmo V1 版中新增的 Inpainting 功能允许用户 使用遮罩方式在已有图片上快速生成动画效果,为创作动态故事短视频提供了便 利。4)Genmo Chat 功能:正在开发中的 Genmo Chat 通过对话方式,实现作 品的创作和修改。用户可以通过聊天方式与 Genmo 交互,生成图片、视频、动 画等内容,并对已有图像进行编辑,甚至创建 3D 物体。
7)Kaiber
Kaiber 具备多项强大功能,包括但不限于:1)文本生成视频:用户可以通过简 单的文本输入,让 Kaiber 将这些想法转化为引人注目的视觉叙事。2)音频反应 性:用户可以上传歌曲,并利用平台的音频分析技术将每个节奏和韵律以视觉形 式呈现,实现音视频的完美同步。3)动画和变换:Kaiber 提供了丰富的动画效 果和变换功能,用户可以根据需求自定义视频的长度、尺寸和摄像头角度。4) 多样化的艺术风格和模板:用户可以选择不同的艺术风格和模板,为视频创作增 添个性化和创意性。5)Spotify Canvas 集成:为音乐家提供了与 Spotify Canvas 集成的功能,方便将生成的视频直接应用于音乐平台。 Kaiber 主要应用场景为音乐视频、市场营销内容、概念艺术、社交媒体,具有直 观的界面和易于使用性,能够生成令人印象深刻的高质量视频,采用 SaaS(软 件即服务)的运营模式,用户可以通过官方网站进行注册和登录,主要通过网络 界面进行访问,因此在大多数现代浏览器和操作系统上都能良好运行。
3.2 国内产品
1)Dreamina
Dreamina 由字节跳动发行,核心功能是帮助用户根据文本或者图像,生成创意 视频,具备画面识别准确、动态丰富、创新性强等特点,支持多种风格的视频生 成,如动漫、写实、摄影和插画等,其中首尾帧相连的功能是 Dreamina 的一大 创新点,为用户提供了更多的创作可能性。Dreamina 主要支持以下功能:1)图 生视频与文生视频:用户可以根据图片或文本描述生成创意视频,支持多种风格, 如动漫、写实、摄影和插画等。2)尾帧功能:允许用户上传首尾两张图片,实 现 AI 生成补帧画面,增强视频内容的一致性。3)视频功能控制:提供基础的运 镜控制、视频比例和运动速度调节功能,使用户能够更灵活地调整视频效果。4) 中文语义理解:相较于其他 AI 视频生成产品,Dreamina 对中文语义的理解更为 精准,更适合中文用户使用。 目前来看,Dreamina 在视频生成效果上已经远超部分同类产品,但与 Sora 等领 先产品仍有一定差距。在视频生成质量上,Dreamina 对物体的运动处理较好, 但对人体尤其是运动时的细节处理仍有待提升。在视频时长方面,Dreamina 与 部分竞品相比仍有一定限制,未来有望通过技术升级来延长生成视频的长度。 Dreamina 已经具备一定的风险控制能力,对于不适内容的提示和限制有助于提 升用户体验和保障内容安全。
2)Vidu
Vidu 由生数科技联合清华大学在 2024 年 4 月发布,作为中国首个长时长、高一 致性、高动态性视频大模型,其技术特点和应用潜力有:1)模型架构创新:采 用原创的 Diffusion 与 Transformer 融合架构 U-ViT,在全球范围内都是一个创新 尝试,结合了 Diffusion 模型的生成能力和 Transformer 模型的感知能力,为视 频内容的生成提供了强大的技术支持;2)高清视频生成:Vidu 支持一键生成长 达 16 秒、分辨率高达 1080P 的高清视频内容,相较以往的视频生成模型中较为 突出,目前大多数模型通常只能生成较短的视频片段;3)文化适应性:重点理 解和展现中国元素,如熊猫、龙等,在文化表达上更具多样性和深度;4)多镜 头与时空一致性:Vidu 在生成视频时,能够在不同镜头之间保持高度一致性, 有利于制作叙事连贯的视频内容,同时能够实现远景、近景、中景、特写等不同 镜头的切换,包括长镜头、追焦、转场等效果;5)动态场景捕捉与物理模拟: Vidu 不仅能够生成静态画面,还能够捕捉和渲染动态场景,包括复杂的动作和物 体运动,同时模拟真实世界的物理特性,如光影效果、物体的物理行为等,使得 生成的视频内容更加逼真。 生数科技的核心团队汇聚了清华大学人工智能研究院的精英力量。他们致力于生 成式人工智能和贝叶斯机器学习的研究,深耕行业二十余载。在扩散模型领域也 是国内先行者,Vidu 在性能上的快速突破也正是源自团队在相关领域的长期积累, 目前 Vidu 仍在加速迭代提升中,未来有望应用于更加多元化的场景。
3) WHEE
WHEE 由 美 图 公 司 基 于 其 自 研 视 觉 大 模 型 MiracleVision4.0 推 出 , MiracleVision4.0 版本迭代主打 AI 设计与 AI 视频功能,并于 2024 年 2 月上线美 图公司旗下应用“WHEE”,主要功能包括文生视频与图生视频。MiracleVision4.0 版本的视频功能主要包括文生视频、图生视频、视频运镜、视频生视频,其生成 能力已能融入行业工作流,尤其在电商和广告领域表现突出。在电商行业中, MiracleVision 能够快速制作大量商品视频,使商品展示更加灵动且质感高级;在 广告行业中,MiracleVision 能够制作符合产品特性的创意视频,跳出套路,使品 牌理念深入人心。通过 MiracleVision 的四大功能,用户能够轻松实现视频内容 的创作和编辑,为电商和广告等行业提供了高效、创新的解决方案。
4)PixVerse
PixVerse 由爱诗科技发行。爱诗科技拥有来自清华大学、北京大学、中国科学院 等顶级学府的团队成员,在计算机视觉、机器学习、计算机工程和算法设计等领 域具备丰富的经验与技术储备,致力于为用户提供创新且实用的 AI 工具,其中 PixVerse 便是其最新力作。 PixVerse 具备多种功能,以满足用户的不同需求,支持文本生成视频和图片生成 视频两种方式,用户可以根据个人喜好和创作需求选择适合的生成模式。同时, PixVerse 内置了多种动画风格,包括写实、动画、3D 动画和 CG 游戏风格,用 户可以根据需要选择合适的风格。此外,它还具备高效压缩技术和画质提升功能, 能够在保持视频质量的同时减小文件大小,并将视频提升至 4K 超高清分辨率。
5)Etna
Etna 是由七火山科技开发的一款文生视频 AI 模型。 Etna 模型目前的主干网络采用了 Diffusion 架构,七火山科技还在实验和适配与 Sora 相似的 Diffusion+Transform 架构,融合了 Diffusion 模型和 Transformer 模型的优势,形成了高效且先进的新型模型架构,能够根据用户简短的文本描述 生成相应的视频内容。生成的视频长度在 8~15 秒,画质可达到 4K(最高3840*2160),画面细腻逼真,帧率高达 60fps。此外,Etna 模型在语言模型和 图像模型中插入了时空卷积和注意力层,能够处理视频数据,考虑图像序列中的 时间连续性,从而生成具有时间维度的视频内容。
6)ClipFly
Clipfly 是由 Fotor 孵化的 AI 长视频产品,弥补了过去部分产品文生图、图生视频 环节无法连贯的缺点,打造了一站式、全流程的 AI 长视频创作形式,在易用性、 创新性和功能性方面都表现出色。Clipfly 拥有一个丰富的媒体库,提供贴纸、图 片、音乐和文本效果等创意元素,为用户的视频创作提供更多可能性。此外,Clipfly 还强调其安全性和隐私保护措施,确保用户在使用平台时的数据安全。除视频生 成、编辑外,Clipfly 还支持 AI 视频增强、AI 照片动画制作、AI 虚拟人、视频清 晰度提升等功能,但AI视频生成效果的不稳定性是Clipfly目前面临的一个挑战, 需要在未来的版本中进一步优化。
1、影视:文生视频颠覆传统影视内容生产,激活行业新动力
政策注重影视市场内容输出,质量与丰富度提升成核心方向。我国影视行业产业 链上游为资金提供方、内容提供方和数据监测,中游包括电影、电视剧、综艺等 形式内容制作,下游为播映渠道及衍生变现。根据华经产业研究院《2023-2028 年中国影视剧行业市场发展监测及投资战略规划研究报告》,2021 年中国影视 行业市场规模为2349亿元,同比增长23.2%,2019-2021年复合增长率为7.9%。 随着线下活动恢复,市场规模预计在 2024 年达到 3618 亿元。随着居民消费能 力持续提升,未来对影视娱乐的需求有望催生更多影视产品的出现,而在政策端 注重内容输出的背景下,影视产品的质量与丰富度提升将成为核心发展方向,而影视内容的创作分工也将更为明确和细化。

文生视频赋能影视制作效果提升。在影视作品中期拍摄及后期制作过程中,文生 视频技术可以增加虚拟角色的真实感,使得虚拟角色与故事的交互更加真实和复 杂,提升影视作品质量和深度。以电影《流浪地球 2》为例,由于故事时间跨度 40 年,电影运用面部捕捉及 AI 技术,为演员还原了年轻时的面貌,实现了电影 人物年龄上的跨越,使得故事呈现更为真实。未来随着生成式 AI 的发展,影视 作品内的角色也有望发展成能够进行自主选择和模拟真实行为的模式。此外, AIGC 工具对物理世界的精确模拟能够增强画面效果,提升体验感,意味着影视 特效的效果也有望得到提升。AI 视频生成技术对于中后期制作的效率提升也有一 定的正面作用,尤其是模型制作、渲染和优化等领域。
文生视频推动影视制作降本增效。内容创作是影视制作行业的核心环节,而生成 式 AI 的应用能够大大提升内容创作效率,降低成本。文生视频可以快速生成故 事分镜视频,让故事情节一步到位地实现视频化,大幅节约剧本撰写、原画设计、 动画制作等准备周期,将所需时间从数月缩短到数天。2024 年 2 月,央视推出 中国首部文生视频 AI 系列动画片《千秋诗颂》,运用人工智能技术,综合运用 可控图像生成、人物动态生成、文生视频等最新技术成果,将诗词制作为水墨国 风动画。按照传统动画制作流程计算,制作《千秋诗颂》至少需要 8 个月时间, 而依托 AIGC 技术和总台海量视音频的语料库,该片的制作周期仅为 4 个月,制 作效率大幅提升。
文生视频降低行业门槛,加速内容产出迭代。基于目前 Sora 等 AIGC 工具的技 术,AI 已经可以模拟生成大量不同角色和场景,用于电影分镜头和动画预演阶段, 提升创作效率,进一步在没有实际拍摄场景的情况下生成预览和修改作品,在不 涉及昂贵的实景拍摄、复杂场景搭建、高成本特效的情况下制作高质量影片,降 低了独立制片人、小型制作公司以及个体从业人员的准入门槛,加速影视优质内 容的产出和迭代。以 2024 年 3 月上映的全球首部 AI 电影《我们的终结者 2 重 制版(Our T2 Remake)》为例,由 50 位 AI 领域艺术家使用 Midjourney、Runaway 等一系列 AIGC 工具,花费 3 个月的时间合作完成,没有真人演员和实景拍摄, 一切角色、场景、对话及音乐均为 AI 制作,达到近 90 分钟的常规商业电影放映 长度,讲述人类与 AI 统治斗争的故事,电影团队称其为“AI 在电影制作应用中 的重要里程碑”。
个性化、多元化呈现模糊生产消费边界。从内容创作的角度来看,影视内容生产 的个性化和多元化尤为重要,而文生视频模型能够根据用户具体需求生成视觉建 构,改变传统内容创作方式,影视爱好者、短视频创作者均可将其用于定制广告、 社交媒体内容以及针对特定观众的影视作品,提高内容吸引力和观众参与度,形 成消费与生产互动互构的局面,对此海外 AI 巨头也颇为重视。根据华尔街见闻 3 月报道,OpenAI 计划在美国洛杉矶与好莱坞的影视公司和媒体高管会面, OpenAI 希望与好莱坞合作,并鼓励电影制作人将 OpenAI 最新 AI 视频生成工具 Sora 应用到电影制作中,从而拓展 OpenAI 在娱乐行业的影响力。
2、游戏:文生视频赋能游戏制作及玩法创新,商业化空间有望提升
游戏市场趋近存量竞争,创新玩法亟待开发。根据 Newzoo 发布的《全球游戏市 场报告》,尽管宏观经济方面的挑战依然存在,但 2023 年全球游戏收入达到了 1840 亿美元,同比增长 0.6%。在《2023 年全球游戏市场报告》中,Newzoo 预测 2026 年全球游戏收入为 2054 亿美元,五年复合增长率为 1.3%,尽管 2023 年游戏市场收入的增长释放了积极的信号,但全球游戏产业仍面临一定的压力。 国内方面,根据伽马数据,2023 年中国游戏市场实际销售收入为 3029.64 亿元, 增长 370.80 亿元,同比增长 13.95%,自主研发游戏国内市场实销收入 2563.75 亿元,同比增长 15.29%。目前游戏市场趋近存量竞争模式,用户时长及 ARPU 值增长速度逐渐放缓,对成本端的管控以及创新玩法的开拓成为下一阶段占据市 场份额的重要因素。

Sora 问世加快行业革新,有望重塑游戏创作流程。2023 年 5 月,英伟达创始人 兼首席执行官黄仁勋在 COMPUTEX 大会上展示为游戏提供的定制化 AI 模型代 工服务——Avatar Cloud Engine(ACE),开发人员能够利用 AI 视频生成工具 Audio to Face进行栩栩如生的角色动画创作,一名开发者Fallen Leaf也用Audio to Face 成功制作完成了《索利斯堡》中角色的脸部动画。游戏行业对 AI 技术的 追求持续推动着AI领域的迅速发展,而 Sora的问世更是加快了行业革新的速度,开发者能够以更快的速度和更高的效率生成逼真的游戏场景、动画和视觉效果, 意味着小型开发团队也能够在资源有限的情况下产出更多优质产品。长期来看, 文生视频模型的投入有望重塑游戏产品的创作流程,激发更多优质产品的供给。 文生视频降低游戏制作门槛,提升创作效率。AIGC 在游戏领域各个环节均可得 到应用,以腾讯 AI Lab 为例,从前期的美术设计、内容设计、测试,游戏中的 体验优化、运营优化,以及游戏周边的竞技、直播、训练等领域,AIGC 技术的 投入均能够一定程度节约成本,提升产出效率。Unity 发布的《2024 年 Unity 游 戏报告》显示,2023 年,接受调研的工作室中,有 62%的游戏开发者在工作流 程中使用了 AI,并且有大量的工作室正在将 AI 技术投入现有的工作流中。Unity 数据显示,有 71%的工作室表示 AI 技术改善了交付和运营效率,37%的开发者 表示会使用 AI 加速代码的撰写,而 64%的开发者倾向于用 AI 来创建 NPC 以完 善虚拟世界,增强完整性和趣味性。
文生视频赋能玩法创新,AI 带来更多个性化可能。以 Sora 为例,其在生成视频 时长、内容逻辑一致性、视频分镜等方面形成突破,一方面技术革新了内容创作 流程,降低了游戏制作的门槛,有望推动更多创新项目落地,鼓励独立游戏及多 元化内容生态的崛起;另一方面,类似 Sora 的文生视频模型在上线后的玩法迭 代、用户体验优化等方面同样具备深刻意义。基于文生视频模型,游戏开发者可 以快速生成可视化原型,降低试错成本,缩短了制作和更新周期,也提高了研发 的灵活性与成功率。此外,AI 也为个性化剧情、NPC 设计等方面提供了更多可 能性,有望进一步优化用户的沉浸式体验。目前国内利用 AI 实现玩法创新的作 品包括网易《逆水寒》,利用 AIGC 首次实现高智能 NPC、AI 捏脸、AI 创作诗 歌画作、AI 剧情演绎等游戏内智能体验。
降本增效叠加玩法创新,有望打开商业化新阶段。Unity 首席执行官约翰・里奇 蒂洛在接受美联社采访时表示,生成式人工智能将使游戏“更快、更好、更便宜”, 尤其是大幅提高开发速度,大约为 5 到 10 倍。EA 公司 CEO Andrew Wilson 也 提到,生成式 AI 将帮助公司提升 30%的开发效率、获得额外 50%的用户、并提 升 10%-20%的 ARPU。文生视频在游戏领域的应用从前期的素材制作和开发到 上线后的玩法调试和更新,均为游戏市场带来了新的可能,基于文生视频模型打 造的个性化的游戏体验不仅满足了玩家的多样化需求,也有望随着技术不断迭代 成熟进一步为游戏厂商开辟全新的商业模式和市场空间。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)