ChatGPT通用性及背后原理分析 - 问答集锦

最佳答案由匿名用户编辑于2024/04/10 11:29

ChatGPT 在各场景通用化效果显著。

一、较传统 NLP 模型，ChatGPT 的通用性有较大提升

ChatGPT泛化能力较上一代产品有较大提升。2022年11月，OpenAI推出的ChatGPT 模型展现了强大的内容生成能力，与上一代AI大模型GPT-3相比，其不仅在人机对话的覆盖面、真实性和灵活度上有较大提升，还可对文案、邮件等常用的文字内容实时生成，应用前景广阔。ChatGPT性能的提升不仅源于其数据量上的增加，还在于其引入了新的训练方法，即基于人工反馈的强化学习机制（RLHF）。本篇报告就 ChatGPT性能提升效果、原理、应用场景以及未来商业化前景进行分析，并探讨国产“类ChatGPT”产品未来发展的前景和挑战。

与GPT-3相比，ChatGPT人机对话效果提升显著。ChatGPT具备较强的语义分析能力，可理解对话者的深层次需求，并有丰富的语料库，回答内容与正常人交流具有较高相似度。具体来说，在GPT-3的基础上，其新增了大量社交媒体、新闻文章等数据进行训练，导致ChatGPT回答内容包含更多细节描述信息；与之相比，而GPT-3 的回答提供的信息量较少。

ChatGPT连续对话效果提升显著，回答内容与用户需求契合度较高。ChatGPT具备较强的上下文关联理解能力，可准确记住多次问答的内容，结合语境及时调整答案，并给予一定的建议，对话连贯性表现较好，具有较强的语言丰富性。其次，ChatGPT 可辨别不同的任务类型，并根据要求组织回答，如创作类、阐述类、简单提问类等，不同任务的回答风格明显不同。

ChatGPT的内容生成能力具有广阔的应用前景。ChatGPT不仅可以和人实现连续、流畅的对话，还可实现包括邮件、视频脚本、文案、代码、论文等较长文字的生成，这大大拓展了该模型的应用边界。在办公场景中，我们可以预期固定模式的、流程化的文案工作的效率有望大大提升，员工可以将精力用于更具创造性、创新性的工作上。在软件开发过程中，ChatGPT不仅有望提升代码开发效率，还大大降低了基础类算法开发的门槛，有望使得软件开发工作更为普及。

相较于传统NLP模型，ChatGPT的应用场景更加广阔。传统NLP模型主要针对文本分类、情感倾向分析、评论观点提取等分析类功能进行开发，应用于新闻资讯分类、品牌营销搜索等有限度的场景中，存在功能单一、可拓展性不足等问题。而ChatGPT 在设计之初就是针对内容生成类应用进行开发，生成内容的信息量、逻辑组织结构、文本表达形式都已经满足一定比例场景中的用户需求，通用性得到了大大增强，可应用的场景有较大拓展。未来，我们看好ChatGPT在文案写作、邮件撰写、宣传广告生成、软件代码编写、不同语言代码的转译等场景的应用。

二、ChatGPT 实现较强通用性背后的原理

ChatGPT较强的通用性能力和模型、算力和数据三大基础要素有关。ChatGPT是在 GPT-3预训练模型的基础上，再新增输入了包含3千亿单词量在内总计570GB的数据后，对其参数进行了微调后，训练所得。这种训练方法一般称为迁移学习。由于所需训练的数据量较大，在这一过程中也离不开较大规模算力的支持。我们将从模型训练、算力支持和训练数据三方面详细分析ChatGPT实现较强通用性的原理。

1、AI预训练大模型是ChatGPT实现通用化的基础

ChatGPT采用“预训练+微调”的模型训练方式，研发效率较高。ChatGPT是在GPT-3 的基础上进行微调得到的。GPT-3在预先学习了各场景海量数据的基础上，其包含了具有通用共性特征的底层卷积层，这部分卷积层无需再进行训练，网络权重和阈值可以直接复用到新的任务中。在研发阶段，开发人员通过对GPT-3这一预训练大模型进行剪裁、域的自适应和新增部分类等微调，即可实现类似ChatGPT特定模型的量产，提升开发效率。我们认为，与从零开始训练AI模型相比，引入AI预训练大模型的训练方式具有以下优势：1.训练时间更短：预训练模型中的部分卷积层可以复用，无需重复训练；2.训练成本更低：训练所消耗的算力随着数据训练时长的减少而减少，在预训练模型的基础上微调的开发成本大大低于从零训练的成本。

预训练大模型GPT-3是ChatGPT实现通用性的基础，目前已开放API接口供调用。自2018年，OpenAI推出第一代GPT大模型开始，公司持续向内容生成类AI模型研发。 2020年5月，OpenAI发布了当时全球规模最大的预训练语言模型GPT-3，在许多自然语言处理任务上均表现了出色的能力，包括翻译、问答和文本填空任务等。GPT-3 作为OpenAI多年研发的成果，目前已开放API接口供开发者调用。自2020年6月， GPT-3开放API接口，至2021年3月，已有超过300个应用基于其进行开发。我们认为，OpenAI作为具有开放性质的研究机构，对其研究成果对公众开放有利于行业整体技术进步，但基于GPT-3开发出类似ChatGPT通用化效果的模型仍取决于算力的支持和训练数据的数量与质量。

2、超大规模智能算力是ChatGPT实现通用化的壁垒

包括ChatGPT在内的大模型在训练和推理阶段都需要大量算力的支持。在 Transformer模型推出后，自2018年开始，AI模型的参数近乎每年一个数量级的速度快速增长。模型的规模和训练、推理时所消耗的算力存在正相关关系。AI大模型对于AI算力的需求不仅存在于训练阶段，在各场景推理任务中也需要。大规模智能算力基础设施是各科技公司训练AI大模型的前提，正逐渐成为其在AI领域竞争的关键要素。我们认为，未来，随着AI大模型的开发和应用，其有望驱动AI芯片和AI服务器等硬件需求的增长，利好寒武纪和浪潮信息等国产AI硬件公司。

训练AI大模型所需的超大规模AI算力是主要壁垒。2020，OpenAI推出的GPT-3大模型拥有1750亿参数，使用了570 GB的数据进行训练，训练成本达到了1200万美元。 2021年，微软和英伟达使用了4480个GPU训练出的拥有5300亿参数的MT-NLG大模型，训练数据多达1.5TB，其训练成本更是高达8500万美元。科技公司开发AI大模型需要专有AI算力基础设施和足够资金的支持。我们认为，受限于资金和算力基础设施，中小规模的AI公司对AI大模型虽有强烈诉求但无力开发，未来或需要依靠公共部门或大型科技公司的算力和AI大模型。而商汤在战略上预计持续投入底层AI算力基础设施，建设AIDC，有望保持长期竞争力。

3、训练数据的数量和质量是ChatGPT实现通用化的关键

ChatGPT较强的通用化能力和其训练数据的数量、质量有关。一般而言，用于训练的数据量越大，模型的泛化能力越强。训练数据高达45TB的GPT-3，其在问题回答时的准确性和覆盖面远高于训练数据仅40GB的GPT-2。此外，训练数据所包含信息的丰富程度、真实性和及时性也对AI大模型生成的内容有较大影响。例如， InstructGPT模型训练数据集中96%以上是英文，其它20个语种例如中文，法语，西班牙语等加起来不到4%，这导致其对其它语种的内容生成的拟人化效果不如英文。 ChatGPT引入了人工反馈强化学习机制，有效提升模型拟人化效果。InstructGPT 和ChatGPT在拥有和GPT-3相同量级参数的情况下，其回答相同问题的效果要远优于后者。基于人工反馈的强化学习机制（RLHF）是InstructGPT和ChatGPT在生成内容流畅、真实和拟人化的关键。OpenAI在训练InstructGPT的过程中，采用了40 名人员的标注团队，对模型提出各种类型问题并且根据其回答给予人工反馈，这有效提升了模型输出结果与人类喜好的匹配度。我们认为，在数据标注过程中，对于模型生成内容的反馈是建立在对于各场景需求的理解上的。标注人员的价值观、知识面和专业能力都会对训练的AI大模型有一定影响。

在AI大模型对于训练数据的数据量、场景覆盖面以及标注的精细化程度等有较高要求的情况下，未来各家公司采集、获取数据的方式是关键。科大讯飞在语音文字类数据采集手段丰富，积累的数据量较大，在开发AI大模型方面或具有一定优势。此外，具有中立属性和开放风格的公司更容易与产业链上下游形成合作，通过构建开放的生态，拓宽数据获取的渠道，有望建立AI大模型开发上的相对优势。

总体而言，ChatGPT大模型的训练和应用对于AI领域的模型、算力和数据三大基础要素的生产组织方式已经有了较大改变，具体如下：（1） AI模型：“预训练+微调”的模型训练方式有望快速推广。开发者可通过对类似GPT-3的AI预训练模型进行剪裁、域的自适应和新增部分类等微调，即可实现特定模型的量产，提升开发效率。（2） AI算力：AI大模型在训练和推理两个任务中都需要大规模智能算力基础设施的支持。未来随着AI大模型的开发和应用，其有望驱动AI加速卡和AI服务器等硬件需求的增长。（3）训练数据：在AI大模型对于训练数据的数据量、场景覆盖面以及标注的精细化程度等有较高要求的情况下，未来各家公司采集、获取数据的方式是模型实现通用化的关键。

参考报告

ChatGPT专题分析：通用化效果突破、前景广阔，国内AI产业链追赶仍有较大挑战.pdf
- 查看报告