从传媒领域的覆盖情况来看,更注重内容端成果落地,因此我们着重探讨图像生成、 视频生成及音频生成发展情况及相关产品运营情况。
AI文生图,即通过人工智能技术解析文字描述内容,提取关键信息,利用深度学习模 型形成草图,再经过优化算法细化图像细节,增强图像质量,输出符合描述的视觉内 容,是近年来快速发展的一项技术。技术的成熟标志性事件是2022年7月,MidJourney V3上线,也是目前主流的AI文生图产品之一,且9月份AI文生图中核心技术Stable Diffusion以开源底层代码的形式面向大众,促使市场相关应用程序大量开发涌现, 使AI文生图的艺术质量呈现出指数级的进化速度。 Midjourney稳住行业龙头地位。目前市场上主流的AI文生图工具分别有Midjourney V6、Adobe Firefly 3、Stable Diffusion 3、Dalle 3等。从数字生命卡兹克的数据 来看,分别从细节质量、审美及语义理解三个方面进行产品测评,Midjourney V6均 占据较为显著的优势,主要原因在于产品迭代速度快于同行,整体图像产出质量显著 提高,同时通过庞大的用户量及用户数据,使得Midjourney积累的数据集具有独家性, 并依托这些数据进行反复训练,来构建自我艺术风格,巩固自身竞争优势,稳住文生 图龙头地位。
AI文生图迈向多模态融合,逐渐成为大模型核心模态之一。从上述例子可以看出,AI 文生图技术已经展现出高度的图像生成质量、精确的细节控制和强大的语义理解能 力。自2023年起,它已经在摄影艺术、设计、二次元、CG艺术和影视制作等多个行业 得到广泛应用。AI文生图技术不仅限于单一的图像生成模型,而是开始向多模态融合方向发展,成为大型AI模型如GPT4-V和Dalle-3的核心组成部分。这些模型能够处理 包括文本、图像、音频和视频在内的多种数据类型,实现跨媒体的理解和生成。随着 技术的持续进步和应用场景的扩展,预计AI文生图技术将在未来获得更广泛的应用 和更深入的集成。
AI文生视频的本质是能够根据输入的文本描述自动生成相应的视频内容。这项技术 结合了自然语言处理(NLP)、计算机视觉、图像生成和动画技术等多个领域的研究成 果,通过训练大量文本和视频数据,依靠文本解析、图像生成、动态渲染等核心技术, 将文字转化为图像,并赋予这些图像动态效果,全自动化形成视频文件。文生视频技 术的应用可以大幅降低内容创作的门槛,使得短视频、影视镜头、广告等内容的制作 更加便捷。 新品推出受到市场关注,创新点赋能行业发展。目前市场上受到关注度较高的文生视 频产品分别是来自OpenAI的Sora、Pika1.0、近期快手推出的可灵、Luma AI推出的 Dream Machine以及刚刚Runway发布的GEN-3,从创新点来看,快手的可灵可为已生成 的视频(含文生视频及图生视频)提供便捷的一键续写和连续多次续写,将视频最长 可延伸至约3分钟,在确保新生成部分与原视频间的运动连贯性及物理合理性的同时, 还能巧妙融入大幅度的动作变化,提升视频的生动性;Luma AI的Dream Machine则是 支持物理模拟,生成具有真实物理特性的视频,如重力下落、碰撞和光影变化等,从 而确保视频在视觉和物理行为上都具有真实性和连贯性等等。新品的推出通常伴随 着领域技术的突破,从目前的文生视频能力来看,已经具备了一定的产业生产力,未 来将赋能影视产业链,为其降本增效提供助力。
AI音频生成行业,作为生成式AI的关键应用领域,正快速成为技术创新的领先领域。 该行业利用先进的人工智能技术和复杂算法来创造音频内容,包括语音合成、音乐制作和声音效果合成等。通过融合机器学习和深度学习算法,AI音频生成技术能够精确 地模仿人类的语音、音乐节奏和声音效果,生成自然且逼真的音频,广泛应用于娱乐、 广告、教育和新闻传播等多个领域。 产业链协同发展,中游AI音频算法和服务平台为核心。在AI音频生成行业的产业链 中,上游主要由AI技术和芯片提供商组成,他们负责AI技术的研究与开发以及芯片的 生产,为整个产业链提供必要的技术支持和硬件基础。中游则是AI音频生成行业的核 心,包括AI音频算法的开发、AI音频服务生成的平台以及AI音频处理软件,这些环节 对技术的要求极高,是推动行业发展的关键。下游则是具体的应用领域,涉及游戏、 教育、娱乐、广告等多个场景,以及智能客服、智能音箱、智能家居等产品,这些提 供商和服务商将AI音频技术应用于实际场景中,满足不同用户的需求。

语音合成占主导,音乐生成潜力大,语音识别应用成熟。AI音频生成技术根据不同的 应用场景主要分为三个类别:语音合成、音乐生成和语音识别。语音识别在早期的智 能音箱和语音助手等产品中已经得到了广泛的应用,市场较为成熟;语音合成则是基 于深度学习算法,能够精确地模拟人类的语音特征,包括音色、音调和语调,将文本 信息转化为口语化的语音输出,在朗读软件和语音导航等领域得到了广泛应用,并且 目前占据了整个AI音频市场的近70%份额;音乐生成是随着AI技术不断深入发展而兴 起的一个重要应用领域,它利用机器学习和深度学习算法来模拟人类的音乐创作过 程,具有在音乐创作、游戏音效制作和电影配乐等方面的巨大潜力。随着AI技术的不 断进步和创新,音乐生成领域的应用前景非常广阔,有望为音乐产业带来革命性的变 化。
Suno V3.5实现功能再突破,Google、ElevenLabs探索视频生音频技术。从具体的产 品来看,标杆性的音乐生成类音频AI是由Suno AI研发的Suno系列产品,于今年5月推 出了V3.5版本,维持了与Open AI合作,一次性完成歌词、演唱、编曲、配乐等全部 流程,领先于市面上单纯生成音乐的同类型产品,相较于V3版本,主要升级在最长片 段长度扩展至4分钟;最长2分钟的歌曲拓展;歌曲结构的显著改进。这些均表示AI音 频已升级至可以更轻松地制作出完整的歌曲,提供连贯且高质量的音乐输出,并使生 成的音乐更加流畅和自然,也使得音乐的情感表达更加丰富和细腻同时关注到 ElevenLabs及Google DeepMind均宣布了自动匹配画面AI生成音效产品,即无需人工 输入提示词也可以为视频配音,实现真正的AI音频及AI视频合作,后者Google的产品 也可以根据提示词控制输出所需的音频或避免出现不需要的声音,自由度更高。随着 相关产品功能的完善,这将带领文生视频迈入有声时代,实现行业再突破,双向促进 市场繁荣发展。