GPT若干模型介绍

最佳答案 匿名用户编辑于2023/03/10 13:36

以下列举了 GPT 若干模型的信息。

1.GPT-1

GPT-1 在文章“Improving Language Understanding by Generative PreTraining”[1]中被提出。在 GPT 被提出之前,大多数深度学习方法都需要大 量人工标注的高质量数据,但是标注数据的代价是巨大的,这极大程度上限 制了模型在各项任务性能的上限。如何利用容易获取的大规模无标注数据来 为模型的训练提供指导成为 GPT-1 中需要解决的第一个问题。另外自然语 言处理领域中有许多任务依赖于自然语言在隐含空间中的表征,不同任务对 应的表征很可能是不同的,这使得根据一种任务数据学习到的模型很难泛化 到其他任务上。因此如何将从大规模无标注数据上学习到的表征应用到不同 的下游任务成为 GPT-1 需要解决的第二个问题。

GPT-1 的结构很简单,由 12 层 Transformer Block(自注意力模块和 前馈神经网络模块)叠加而成。针对第一个问题,GPT-1 中使用了自左到右 生成式的目标函数对模型进行预训练。这个目标函数可以简单理解为给定前 i − 1 个 token,对第 i 个 token 进行预测。基于这样的目标函数,GPT-1 就 可以利用无标注的自然语言数据进行训练,学习到更深层次的语法信息与语 义信息。

针对第二个问题,在完成了无监督的预训练之后,GPT-1 接着使用了有 标注的数据进行有监督的微调使得模型能够更好地适应下游任务。给定输入token 序列x1, x2, ..., xm 与标签 y 的数据集,对模型的参数进行再次训练调 整,用到的优化模型是在给定输入序列时预测的标签最接近真实值。

具体来说,GPT-1 在大规模无标注语料库上预训练之后,再利用有标 注数据在特定的目标任务上对模型参数进行微调,实现了将预训练中获得的 知识迁移到下游任务。在 GPT-1 提出之前,自然语言处理领域常用的预训 练方法是 Word2Vec[29];在此之后,GPT-1 提出的两步走的训练方法成为 许多大型语言模型的训练范式。从这个角度来看,GPT-1 和 Word2Vec 在 具体下游任务中发挥的作用是类似的,通过无监督的方法获取自然语言的隐 含表示,再将其迁移至其他目标任务。但是从更高的层面来看,GPT-1 与以 往的词向量表示方法是不同的,其数据量与数据规模的增大使得模型能够学 习到不同场景下的自然语言表示。

总体来说,GPT-1 的目标是学习到一个通用的自然语言表征,并在之后 通过简单调节适应很大范围上的任务。从现在的角度来看,GPT-1 成功背 后有两个原因:第一个是 2017 年 Transformer 的提出使得捕获自然语言中 长距离依赖关系成为可能;第二个是 GPT 模型在预训练过程中用到了更大 的数据量以及更多的模型参数,使得模型能够从大规模语料库中学习到以往 模型无法学习的知识。而任务微调在通用预训练和下游任务之间搭起了知识 桥梁,使得用一个模型解决多种问题成为一条可行之路。

2.GPT-2

与 GPT-1 中的通过预训练-微调范式来解决多个下游任务不同,GPT2 [3]更加侧重于 Zero-shot 设定下语言模型的能力。Zero-shot 是指模型在下 游任务中不进行任何训练或微调,即模型不再根据下游任务的数据进行参数 上的优化,而是根据给定的指令自行理解并完成任务。

简单来讲,GPT-2 并没有对 GPT-1 的模型架构进行创新,而是在 GPT1 的基础上引入任务相关信息作为输出预测的条件,将 GPT-1 中的条件概 率 p(output|input) 变为 p(output|input;task);并继续增大训练的数据规模 以及模型本身的参数量,最终在 Zero-shot 的设置下对多个任务都展示了巨 大的潜力。

虽然 GPT-2 并没有模型架构上的改变,但是其将任务作为输出预测的 条件引入模型从而在 Zero-shot 的设置下实现多个任务的想法一直延续至 今。这样的思想事实上是在传达只要模型足够大,学到的知识足够多,任何 有监督任务都可以通过无监督的方式来完成,即任何任务都可以视作生成任 务。

3.GPT-3

GPT-3[4]使用了与 GPT-2 相同的模型和架构。文中为了探索模型规模 对于性能的影响,一共训练了 8 个不同大小的模型,并将最大的具有 1750 亿参数的模型称为 GPT-3。表 2.1综合统计了 GPT-1、GPT-2 和 GPT-3 的 参数量,模型架构以及预训练的数据集,方便读者直观上理解 GPT 的迭代 趋势。

GPT-3 最显著的特点就是大。大体现在两方面,一方面是模型本身规 模大,参数量众多,具有 96 层 Transformer Decoder Layer,每一层有 96 个 128 维的注意力头,单词嵌入的维度也达到了 12,288;另一方面是训练 过程中使用到的数据集规模大,达到了 45TB。在这样的模型规模与数据量 的情况下,GPT-3 在多个任务上均展现出了非常优异的性能,延续 GPT-2 将无监督模型应用到有监督任务的思想,GPT-3 在 Few-shot,One-shot 和 Zero-shot 等设置下的任务表现都得到了显著的提升。

虽然 GPT-3 取得了令人惊喜的效果,但是也存在许多限制,例如天然 的从左到右生成式学习使得其理解能力有待提高;对于一些简单的数学题目 仍不能够很好完成,以及模型性能强大所带来的社会伦理问题等。同时由于 GPT 系列模型并没有对模型的架构进行改变,而是不断通过增大训练数据 量以及模型参数量来增强模型效果,训练代价巨大,这使得普通机构和个人 无法承担大型语言模型训练甚至推理的代价,极大提高了模型推广的门槛。