GPT若干模型介绍 - 问答集锦

最佳答案由匿名用户编辑于2023/03/10 13:36

以下列举了 GPT 若干模型的信息。

1.GPT-1

GPT-1 在文章“Improving Language Understanding by Generative PreTraining”[1]中被提出。在 GPT 被提出之前，大多数深度学习方法都需要大量人工标注的高质量数据，但是标注数据的代价是巨大的，这极大程度上限制了模型在各项任务性能的上限。如何利用容易获取的大规模无标注数据来为模型的训练提供指导成为 GPT-1 中需要解决的第一个问题。另外自然语言处理领域中有许多任务依赖于自然语言在隐含空间中的表征，不同任务对应的表征很可能是不同的，这使得根据一种任务数据学习到的模型很难泛化到其他任务上。因此如何将从大规模无标注数据上学习到的表征应用到不同的下游任务成为 GPT-1 需要解决的第二个问题。

GPT-1 的结构很简单，由 12 层 Transformer Block（自注意力模块和前馈神经网络模块）叠加而成。针对第一个问题，GPT-1 中使用了自左到右生成式的目标函数对模型进行预训练。这个目标函数可以简单理解为给定前 i − 1 个 token，对第 i 个 token 进行预测。基于这样的目标函数，GPT-1 就可以利用无标注的自然语言数据进行训练，学习到更深层次的语法信息与语义信息。

针对第二个问题，在完成了无监督的预训练之后，GPT-1 接着使用了有标注的数据进行有监督的微调使得模型能够更好地适应下游任务。给定输入token 序列x1, x2, ..., xm 与标签 y 的数据集，对模型的参数进行再次训练调整，用到的优化模型是在给定输入序列时预测的标签最接近真实值。

具体来说，GPT-1 在大规模无标注语料库上预训练之后，再利用有标注数据在特定的目标任务上对模型参数进行微调，实现了将预训练中获得的知识迁移到下游任务。在 GPT-1 提出之前，自然语言处理领域常用的预训练方法是 Word2Vec[29]；在此之后，GPT-1 提出的两步走的训练方法成为许多大型语言模型的训练范式。从这个角度来看，GPT-1 和 Word2Vec 在具体下游任务中发挥的作用是类似的，通过无监督的方法获取自然语言的隐含表示，再将其迁移至其他目标任务。但是从更高的层面来看，GPT-1 与以往的词向量表示方法是不同的，其数据量与数据规模的增大使得模型能够学习到不同场景下的自然语言表示。

总体来说，GPT-1 的目标是学习到一个通用的自然语言表征，并在之后通过简单调节适应很大范围上的任务。从现在的角度来看，GPT-1 成功背后有两个原因：第一个是 2017 年 Transformer 的提出使得捕获自然语言中长距离依赖关系成为可能；第二个是 GPT 模型在预训练过程中用到了更大的数据量以及更多的模型参数，使得模型能够从大规模语料库中学习到以往模型无法学习的知识。而任务微调在通用预训练和下游任务之间搭起了知识桥梁，使得用一个模型解决多种问题成为一条可行之路。

2.GPT-2

与 GPT-1 中的通过预训练-微调范式来解决多个下游任务不同，GPT2 [3]更加侧重于 Zero-shot 设定下语言模型的能力。Zero-shot 是指模型在下游任务中不进行任何训练或微调，即模型不再根据下游任务的数据进行参数上的优化，而是根据给定的指令自行理解并完成任务。

简单来讲，GPT-2 并没有对 GPT-1 的模型架构进行创新，而是在 GPT1 的基础上引入任务相关信息作为输出预测的条件，将 GPT-1 中的条件概率 p(output|input) 变为 p(output|input;task)；并继续增大训练的数据规模以及模型本身的参数量，最终在 Zero-shot 的设置下对多个任务都展示了巨大的潜力。

虽然 GPT-2 并没有模型架构上的改变，但是其将任务作为输出预测的条件引入模型从而在 Zero-shot 的设置下实现多个任务的想法一直延续至今。这样的思想事实上是在传达只要模型足够大，学到的知识足够多，任何有监督任务都可以通过无监督的方式来完成，即任何任务都可以视作生成任务。

3.GPT-3

GPT-3[4]使用了与 GPT-2 相同的模型和架构。文中为了探索模型规模对于性能的影响，一共训练了 8 个不同大小的模型，并将最大的具有 1750 亿参数的模型称为 GPT-3。表 2.1综合统计了 GPT-1、GPT-2 和 GPT-3 的参数量，模型架构以及预训练的数据集，方便读者直观上理解 GPT 的迭代趋势。

GPT-3 最显著的特点就是大。大体现在两方面，一方面是模型本身规模大，参数量众多，具有 96 层 Transformer Decoder Layer，每一层有 96 个 128 维的注意力头，单词嵌入的维度也达到了 12,288；另一方面是训练过程中使用到的数据集规模大，达到了 45TB。在这样的模型规模与数据量的情况下，GPT-3 在多个任务上均展现出了非常优异的性能，延续 GPT-2 将无监督模型应用到有监督任务的思想，GPT-3 在 Few-shot，One-shot 和 Zero-shot 等设置下的任务表现都得到了显著的提升。

虽然 GPT-3 取得了令人惊喜的效果，但是也存在许多限制，例如天然的从左到右生成式学习使得其理解能力有待提高；对于一些简单的数学题目仍不能够很好完成，以及模型性能强大所带来的社会伦理问题等。同时由于 GPT 系列模型并没有对模型的架构进行改变，而是不断通过增大训练数据量以及模型参数量来增强模型效果，训练代价巨大，这使得普通机构和个人无法承担大型语言模型训练甚至推理的代价，极大提高了模型推广的门槛。

参考报告

哈尔滨工业大学-ChatGPT调研报告.pdf
- 查看报告