随着 ChatGPT 等大语言模型以及 Sora 等文本到视频生成大模型的涌现,人工 智能生成内容(AIGC)技术取得了显著进展。这一技术领域的突破性发展,引 领了应用层面的广泛变革。生成式 AI 在文本创作、图像处理及视频生成等视听 媒介中的应用日益兴起,正悄然重塑现代传播环境,成为推动传播生态深刻变化 的关键因素。 OpenAI 正式推出 Sora,开启 AI 文生视频新纪元。2024 年 2 月 15 日(美国当 地时间),全球人工智能模型的领先者 OpenAI 正式推出 Sora。这是一款能根据 文字指令即时生成短视频的模型,它的问世标志着 AI 在视频生成技术领域的巨 大飞跃,也开启了该领域的新纪元。 Sora 的亮点功能主要包括以下几个方面:1)文本到视频的转换:Sora 能够将 用户输入的文本描述迅速转化为高质量的动态视频内容。这一过程涉及复杂的图 像生成和视频编辑技术,但 Sora 能够在短时间内完成,从而极大地提高了视频 制作的效率。
2)多角色和复杂背景生成:用户可以通过文本指定场景中的元素, 如人物、物体和背景,Sora 将这些元素组合在一起,生成连贯且富有故事性的 视频内容。3) 物理模拟:在生成视频时,Sora 能够尝试模拟现实世界的物理 规则,从而为用户带来更加真实和引人入胜的视觉体验。例如,当食物被咬时, Sora 能够模拟出留下的痕迹;当柔软的物体被挤压时,它能够展现出形变的细 节。4) 视频编辑和扩展:Sora 不仅能够从头开始生成视频,还能够对现有视 频进行编辑和扩展。用户可以通过文本指令来填补缺失的帧或增加新的内容,从 而使视频内容更加完整和丰富。5)适应性强:Sora 能够处理不同持续时间、分辨率和宽高比的视频和图像,这种灵活性使得 Sora 能够在不同的应用场景中生 成适应性强的视频内容。
在 Sora 生成的 17 秒电影预告片《太空人的冒险故事》里,一位 30 岁的太空人、 太空舱、盐渍沙漠等场景,包括预告的整体视觉风格,并非源自实地拍摄,而是 完全由 AI 智能创造。这一技术超越了物理限制,如空间、时间及道具的局限。 文生视频 AI 不仅能够生成虚拟人物替代真人演员,还能重现已消失或尚未存在 的物品与场景,无论是让过往情景再现,还是预演未来景象,都成为可能。这一 进步极大地拓宽了影视内容创作的边界,赋予用户前所未有的创意空间与自由。
字节豆包发布 AI 视频模型实现多方面突破,多模态能力再升级。豆包发布全新 更新,视频模型实现不俗突破。9 月 24 日,2024 火山引擎 AI 创新巡展在深圳 举办,发布豆包大模型最新进展,全新发布豆包·视频生成模型、豆包·音乐模 型及豆包·同声传译模型,其中视频模型包括 PixelDance(图生视频)及 Seaweed (文生视频)模型,实现多方面能力突破:1)精准的语义理解及多动作多主体 交互,能遵从复杂 prompt,解锁时序性多拍动作指令与多个主体间的交互能力;2)强大动态与酷炫运镜,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语 言能力,灵活控制视角,带来真实世界的体验;3)一致性多镜头生成,10 秒讲 一个完整故事,成功攻克多镜头切换时一致性的技术挑战,在一个 prompt 内实 现多个镜头切换,同时保持主体、风格、氛围的一致性;4)高保真高美感,多 风格多比例。强大画面效果的背后,是字节在视频大模型技术研发的不断投入, 包括高效的 DiT 融合计算单元、全新设计的扩散模型训练方法、深度优化的 Transformer 结构。
海螺上线图生视频功能在海外迅速崛起,成为 AI 视频领域新宠儿。自今年 8 月 底 MiniMax 推出文生视频模型 abab-video-1 并应用于海螺 AI 后,这款视频生成 应用的搜索热度持续攀升。其画质方面最高支持 1280*720 的 25fps,“拥有电影 感镜头移动”,并且支持带文字元素,该视频生成模型应用于海螺 AI,目前视频 时长最高支持 6 秒,未来或支持 10 秒。MiniMax 还拥有 AI 伴侣产品星野(国内 版)/Talkie(海外版),为国内外 AI 伴侣领域头部产品。 情绪表现优秀,动作生成效果领先。根据新加坡电影导演 EHuanglu 使用海螺 AI 文生视频(T2V)生成的一位女性的面部特写视频来看,其表情从快乐到悲伤, 最后捂脸哭泣,情绪变化演绎非常生动,该视频已有近 30 万次观看。根据海外 YouTube 博主对海螺 AI、Runway、国内快手的可灵进行的比较,在生成运动方 面,海螺 AI 明显更加领先,尤其是人体动作的流畅性和逼真性,比 Runway、 Luma AI 等竞对都要好。此外,海螺 AI 生成的视频中所有的画面主体,几乎不 会发生剧烈形变或者崩坏,生成的颜色也更为艳丽,且文生视频的整体能力比可 灵更好。
相较于传统方式,AI 文生视频在影视制作的整个流程中展现出的优势具体而实 用。在素材准备阶段,文生视频 AI 技术通过深度学习算法,能够自动生成与剧 本或导演意图相契合的素材内容。此外,AI 还能根据需求智能推荐相关素材,为 创作者提供丰富的选择空间。同时,AI 平台还会紧跟网络热点,为创作者提供创 作灵感和参考,如某部热门电影中的经典场景或某个流行文化符号,都能被 AI 捕捉到并转化为可用的素材。进入素材处理与剪辑阶段,文生视频 AI 技术的灵 活性得到了充分展现。创作者可以自定义视频的纵横比、风格、滤镜以及镜头运 动轨迹等参数,轻松实现个性化创作。AI 平台已经集成了音频、文字编辑等功能, 创作者无需再切换多个工具,即可在一个平台上完成多模态内容的创作。例如, 度加剪辑平台,通过一站式聚合 AI 技术,如字幕生成、素材库管理、模板应用 等,可将原本需要数周时间的后期制作周期缩短至数天。
在素材整合与成片阶段,它能够生成高分辨率的视频,镜头语言专业且景别切换 自然流畅,运镜效果更是堪比专业摄影师的手笔。这种高质量的渲染效果不仅提 升了影视作品的视觉效果,还使得创作者无需具备专业的剪辑技能和硬件支持, 就能快速获得高质量的作品。在成片修改与优化环节,创作者无需进行繁琐的逐 帧修改,而是可以通过局部动画笔刷等工具,轻松实现对视频特定区域的修改。 这种修改不仅精准且高效,还能确保修改后的内容与原始视频完美融合。 文生视频 AI 技术在影视行业的应用不仅降低了制作门槛,还鼓励了更多创作者 参与影视创作事业中。通过提供丰富多样的素材、高效便捷的剪辑工具以及高质 量的渲染效果,AI 技术正在推动影视行业向更加智能化、高效化的方向发展。未 来,随着技术的不断进步和应用的深入拓展,文生视频 AI 技术有望在影视行业 发挥更加重要的作用。
文生视频 AI 技术的突破性应用满足了个性创作的多样化需求,催生出了一系列 全新的影视娱乐形式,为行业注入了新的活力与可能性,共同开创了一种人工智 能与人类智慧深度融合的现代视听内容创作模式。《千秋诗颂》作为 CCTV-1 与 人教社联合推出的创新之作,将小学语文课本中的经典诗词以动画故事的形式重 新演绎,不仅开创了中国文生视频 AI 系列动画片的先河,更以其独特的艺术风 格和深厚的文化底蕴,赢得了广泛好评。该项目巧妙地将 AI 技术与传统文化相 结合,通过高度还原具有国风韵味的人物、场景和道具,如《别董大》中精致细 腻的熏香炉、《过故人庄》中古朴典雅的七星盘茶具等,让观众在享受视觉盛宴 的同时,也能深刻感受到传统文化的魅力。
文生视频 AI 技术的运用,极大地丰富了个性创作的手段与途径。它不仅能够大 规模提取和整合实物数据,还能根据创作者的个性化需求,将传统文化的实物形 态转化为虚拟世界中的新形态,生成大量精确且富有创意的视觉内容。在《千秋 诗颂》的制作过程中,文生视频 AI 技术与人类智慧实现了深度融合。AI 技术负 责提供初步的视觉素材,如人物造型、场景布局等,而创作者则在此基础上进行 细部深描和个性化加工,如调整人物的神态、动作,优化场景的细节等。以《春 夜喜雨》中的杜甫形象为例,首先由人工智能采集扮演杜甫的演员的服饰及相貌 数据,并转化为动画形象;随后,后期制作团队进一步雕琢人物的面容、神态等 细节,使形象更加栩栩如生。
这种深度共创模式不仅充分发挥了人工智能在效率上的优势,能够快速生成汇聚 乃至超越人类经验的视听形态;同时也彰显了人类智慧的审美情趣和创意表达能 力。通过文生视频 AI 技术的运用,影视行业得以在保持高效生产的同时,不断 提升作品的艺术品质和文化内涵,为观众带来更多优质的视听体验。