ChatGPT 属于 AIGC 的范畴,代表了文本生成领域的最新进展。
GPT-4 则 增加了图到文的生成,具备了图片识别的能力。下一个 GPT 预计将支持更多模 态的 AIGC,即除文本生成之外,还可以生成图片、视频、音频等模态。与仅使 用语言或仅使用视觉相比,构建良好的多模态模型更是一项极具挑战性的任务。 但如同 Transformer 架构从语言走向视觉领域,下一个 GPT 或者 LLM 模型,必 将向文本、图片、音频、视频等跨领域多模态 AIGC 不断发展演进。
Google、Stability AI、OpenAI、百度、阿里等公司已经开始多模态内容生 成模型研发,并开源部分模型,比如图片生成的 Stable Diffusion[19]、音乐生成 的 MusicLM[20]、视频生成的 Dreamix[21]等。
在文本生成场景中,可以分为非交互式生成和交互式生成。非交互式文本生 成场景中,结构化写作其形式相对固定,生成难度较小,商业化应用较为广泛, 例如公司财报简讯、新闻简讯、专业文书等,而创作型写作开放性较大,在长文 本生成中难度较大,仍需技术进一步发展,相比于结构化的文本,创作型文本具 有更高的开放度与自由度,需要一定的创意与个性化[22],如营销文案、广告语、 客服话术等。交互式文本生成场景主要以聊天机器人为代表,在基于上下文中信 息进行文本交互,如客服问答、闲聊机器人、知识检索库等。
在图像生成场景中,模型结构不断进化提高了 AIGC 生产图像的多样性,但 要求较高的功能实现还有待于技术的进一步提升。“图像编辑”难度低于“图像 生成”与“2D-3D”转换,目前已存在多款产品支持“图像编辑”,而对于“图 像生成”任务,由于图片相较包含更多元素,其生成效果仍存在不稳定性,对于 要求较高的功能类图像生成仍需要技术上的提升[23]。
音频生成场景中,文本到语音任务已比较成熟,语音质量已达到自然的标准, 未来将朝更富情感、富韵律的语音合成以及小样本语音学习方向发展。但音乐生 成任务中仍需解决音乐数据难以标注的问题,数据标注的颗粒度大小影响音乐生 成任务的可控性。若可控性得以解决,则可指定风格、情绪等因素的音乐生成任 务有希望在影视、游戏等场景下得到大量应用[24]。
视频生成场景中,视频生成本质上与图片生成类似,通过对视频进行帧数级 别的切割,实现对每一帧的处理。视频生成过程包括三个阶段:数据的提取、训 练和转换,当前技术正在着重提升视频修改精准度和实时性两个维度。鉴于视频本身的文本、图像和音频的综合属性,视频生成也是跨模态生成领域的重要应用 场景。
跨模态生成场景中,现实世界的信息是文本、音频、视觉、传感器以及人类 各种触觉的综合体系,要更为精准地模拟现实世界,就需要将各种模态能力之间 打通,例如文字-图像、文字-视频等跨模态生成能力 大型预训练模型的发展使得 跨模态逐步成熟,“文本-图像”生成正在快速落地,“文字-视频”的实验效果 也已较为理想(视频时长、清晰程度、逻辑等还有较大提升空间)。