下一个GPT是什么？ - 问答集锦

最佳答案由匿名用户编辑于2023/04/06 08:59

ChatGPT 属于 AIGC 的范畴，代表了文本生成领域的最新进展。

GPT-4 则增加了图到文的生成，具备了图片识别的能力。下一个 GPT 预计将支持更多模态的 AIGC，即除文本生成之外，还可以生成图片、视频、音频等模态。与仅使用语言或仅使用视觉相比，构建良好的多模态模型更是一项极具挑战性的任务。但如同 Transformer 架构从语言走向视觉领域，下一个 GPT 或者 LLM 模型，必将向文本、图片、音频、视频等跨领域多模态 AIGC 不断发展演进。

Google、Stability AI、OpenAI、百度、阿里等公司已经开始多模态内容生成模型研发，并开源部分模型，比如图片生成的 Stable Diffusion[19]、音乐生成的 MusicLM[20]、视频生成的 Dreamix[21]等。

在文本生成场景中，可以分为非交互式生成和交互式生成。非交互式文本生成场景中，结构化写作其形式相对固定，生成难度较小，商业化应用较为广泛，例如公司财报简讯、新闻简讯、专业文书等，而创作型写作开放性较大，在长文本生成中难度较大，仍需技术进一步发展，相比于结构化的文本，创作型文本具有更高的开放度与自由度，需要一定的创意与个性化[22]，如营销文案、广告语、客服话术等。交互式文本生成场景主要以聊天机器人为代表，在基于上下文中信息进行文本交互，如客服问答、闲聊机器人、知识检索库等。

在图像生成场景中，模型结构不断进化提高了 AIGC 生产图像的多样性，但要求较高的功能实现还有待于技术的进一步提升。“图像编辑”难度低于“图像生成”与“2D-3D”转换，目前已存在多款产品支持“图像编辑”，而对于“图像生成”任务，由于图片相较包含更多元素，其生成效果仍存在不稳定性，对于要求较高的功能类图像生成仍需要技术上的提升[23]。

音频生成场景中，文本到语音任务已比较成熟，语音质量已达到自然的标准，未来将朝更富情感、富韵律的语音合成以及小样本语音学习方向发展。但音乐生成任务中仍需解决音乐数据难以标注的问题，数据标注的颗粒度大小影响音乐生成任务的可控性。若可控性得以解决，则可指定风格、情绪等因素的音乐生成任务有希望在影视、游戏等场景下得到大量应用[24]。

视频生成场景中，视频生成本质上与图片生成类似，通过对视频进行帧数级别的切割，实现对每一帧的处理。视频生成过程包括三个阶段：数据的提取、训练和转换，当前技术正在着重提升视频修改精准度和实时性两个维度。鉴于视频本身的文本、图像和音频的综合属性，视频生成也是跨模态生成领域的重要应用场景。

跨模态生成场景中，现实世界的信息是文本、音频、视觉、传感器以及人类各种触觉的综合体系，要更为精准地模拟现实世界，就需要将各种模态能力之间打通，例如文字-图像、文字-视频等跨模态生成能力大型预训练模型的发展使得跨模态逐步成熟，“文本-图像”生成正在快速落地，“文字-视频”的实验效果也已较为理想（视频时长、清晰程度、逻辑等还有较大提升空间）。

参考报告

AIGC（GPT~4）赋能通信行业应用白皮书.pdf
- 查看报告