ChatGPT 在各场景通用化效果显著。
ChatGPT泛化能力较上一代产品有较大提升。2022年11月,OpenAI推出的ChatGPT 模型展现了强大的内容生成能力,与上一代AI大模型GPT-3相比,其不仅在人机对 话的覆盖面、真实性和灵活度上有较大提升,还可对文案、邮件等常用的文字内容 实时生成,应用前景广阔。ChatGPT性能的提升不仅源于其数据量上的增加,还在 于其引入了新的训练方法,即基于人工反馈的强化学习机制(RLHF)。本篇报告就 ChatGPT性能提升效果、原理、应用场景以及未来商业化前景进行分析,并探讨国 产“类ChatGPT”产品未来发展的前景和挑战。
与GPT-3相比,ChatGPT人机对话效果提升显著。ChatGPT具备较强的语义分析能 力,可理解对话者的深层次需求,并有丰富的语料库,回答内容与正常人交流具有 较高相似度。具体来说,在GPT-3的基础上,其新增了大量社交媒体、新闻文章等 数据进行训练,导致ChatGPT回答内容包含更多细节描述信息;与之相比,而GPT-3 的回答提供的信息量较少。

ChatGPT连续对话效果提升显著,回答内容与用户需求契合度较高。ChatGPT具备 较强的上下文关联理解能力,可准确记住多次问答的内容,结合语境及时调整答案, 并给予一定的建议,对话连贯性表现较好,具有较强的语言丰富性。其次,ChatGPT 可辨别不同的任务类型,并根据要求组织回答,如创作类、阐述类、简单提问类等, 不同任务的回答风格明显不同。
ChatGPT的内容生成能力具有广阔的应用前景。ChatGPT不仅可以和人实现连续、 流畅的对话,还可实现包括邮件、视频脚本、文案、代码、论文等较长文字的生成, 这大大拓展了该模型的应用边界。在办公场景中,我们可以预期固定模式的、流程 化的文案工作的效率有望大大提升,员工可以将精力用于更具创造性、创新性的工 作上。在软件开发过程中,ChatGPT不仅有望提升代码开发效率,还大大降低了基 础类算法开发的门槛,有望使得软件开发工作更为普及。
相较于传统NLP模型,ChatGPT的应用场景更加广阔。传统NLP模型主要针对文本 分类、情感倾向分析、评论观点提取等分析类功能进行开发,应用于新闻资讯分类、 品牌营销搜索等有限度的场景中,存在功能单一、可拓展性不足等问题。而ChatGPT 在设计之初就是针对内容生成类应用进行开发,生成内容的信息量、逻辑组织结构、 文本表达形式都已经满足一定比例场景中的用户需求,通用性得到了大大增强,可 应用的场景有较大拓展。未来,我们看好ChatGPT在文案写作、邮件撰写、宣传广 告生成、软件代码编写、不同语言代码的转译等场景的应用。
ChatGPT较强的通用性能力和模型、算力和数据三大基础要素有关。ChatGPT是在 GPT-3预训练模型的基础上,再新增输入了包含3千亿单词量在内总计570GB的数据 后,对其参数进行了微调后,训练所得。这种训练方法一般称为迁移学习。由于所需训练的数据量较大,在这一过程中也离不开较大规模算力的支持。我们将从模型 训练、算力支持和训练数据三方面详细分析ChatGPT实现较强通用性的原理。
1、AI预训练大模型是ChatGPT实现通用化的基础
ChatGPT采用“预训练+微调”的模型训练方式,研发效率较高。ChatGPT是在GPT-3 的基础上进行微调得到的。GPT-3在预先学习了各场景海量数据的基础上,其包含 了具有通用共性特征的底层卷积层,这部分卷积层无需再进行训练,网络权重和阈 值可以直接复用到新的任务中。在研发阶段,开发人员通过对GPT-3这一预训练大 模型进行剪裁、域的自适应和新增部分类等微调,即可实现类似ChatGPT特定模型 的量产,提升开发效率。我们认为,与从零开始训练AI模型相比,引入AI预训练大 模型的训练方式具有以下优势:1.训练时间更短:预训练模型中的部分卷积层可以 复用,无需重复训练;2.训练成本更低:训练所消耗的算力随着数据训练时长的减 少而减少,在预训练模型的基础上微调的开发成本大大低于从零训练的成本。

预训练大模型GPT-3是ChatGPT实现通用性的基础,目前已开放API接口供调用。 自2018年,OpenAI推出第一代GPT大模型开始,公司持续向内容生成类AI模型研发。 2020年5月,OpenAI发布了当时全球规模最大的预训练语言模型GPT-3,在许多自 然语言处理任务上均表现了出色的能力,包括翻译、问答和文本填空任务等。GPT-3 作为OpenAI多年研发的成果,目前已开放API接口供开发者调用。自2020年6月, GPT-3开放API接口,至2021年3月,已有超过300个应用基于其进行开发。我们认 为,OpenAI作为具有开放性质的研究机构,对其研究成果对公众开放有利于行业整 体技术进步,但基于GPT-3开发出类似ChatGPT通用化效果的模型仍取决于算力的 支持和训练数据的数量与质量。
2、超大规模智能算力是ChatGPT实现通用化的壁垒
包括ChatGPT在内的大模型在训练和推理阶段都需要大量算力的支持。在 Transformer模型推出后,自2018年开始,AI模型的参数近乎每年一个数量级的速度 快速增长。模型的规模和训练、推理时所消耗的算力存在正相关关系。AI大模型对 于AI算力的需求不仅存在于训练阶段,在各场景推理任务中也需要。大规模智能算 力基础设施是各科技公司训练AI大模型的前提,正逐渐成为其在AI领域竞争的关键 要素。我们认为,未来,随着AI大模型的开发和应用,其有望驱动AI芯片和AI服务 器等硬件需求的增长,利好寒武纪和浪潮信息等国产AI硬件公司。
训练AI大模型所需的超大规模AI算力是主要壁垒。2020,OpenAI推出的GPT-3大模 型拥有1750亿参数,使用了570 GB的数据进行训练,训练成本达到了1200万美元。 2021年,微软和英伟达使用了4480个GPU训练出的拥有5300亿参数的MT-NLG大模 型,训练数据多达1.5TB,其训练成本更是高达8500万美元。科技公司开发AI大模 型需要专有AI算力基础设施和足够资金的支持。我们认为,受限于资金和算力基础 设施,中小规模的AI公司对AI大模型虽有强烈诉求但无力开发,未来或需要依靠公共部门或大型科技公司的算力和AI大模型。而商汤在战略上预计持续投入底层AI算 力基础设施,建设AIDC,有望保持长期竞争力。
3、训练数据的数量和质量是ChatGPT实现通用化的关键
ChatGPT较强的通用化能力和其训练数据的数量、质量有关。一般而言,用于训练 的数据量越大,模型的泛化能力越强。训练数据高达45TB的GPT-3,其在问题回答 时的准确性和覆盖面远高于训练数据仅40GB的GPT-2。此外,训练数据所包含信息 的丰富程度、真实性和及时性也对AI大模型生成的内容有较大影响。例如, InstructGPT模型训练数据集中96%以上是英文,其它20个语种例如中文,法语,西 班牙语等加起来不到4%,这导致其对其它语种的内容生成的拟人化效果不如英文。 ChatGPT引入了人工反馈强化学习机制,有效提升模型拟人化效果。InstructGPT 和ChatGPT在拥有和GPT-3相同量级参数的情况下,其回答相同问题的效果要远优 于后者。基于人工反馈的强化学习机制(RLHF)是InstructGPT和ChatGPT在生成 内容流畅、真实和拟人化的关键。OpenAI在训练InstructGPT的过程中,采用了40 名人员的标注团队,对模型提出各种类型问题并且根据其回答给予人工反馈,这有 效提升了模型输出结果与人类喜好的匹配度。我们认为,在数据标注过程中,对于 模型生成内容的反馈是建立在对于各场景需求的理解上的。标注人员的价值观、知 识面和专业能力都会对训练的AI大模型有一定影响。
在AI大模型对于训练数据的数据量、场景覆盖面以及标注的精细化程度等有较高要 求的情况下,未来各家公司采集、获取数据的方式是关键。科大讯飞在语音文字类 数据采集手段丰富,积累的数据量较大,在开发AI大模型方面或具有一定优势。此 外,具有中立属性和开放风格的公司更容易与产业链上下游形成合作,通过构建开 放的生态,拓宽数据获取的渠道,有望建立AI大模型开发上的相对优势。

总体而言,ChatGPT大模型的训练和应用对于AI领域的模型、算力和数据三大基础 要素的生产组织方式已经有了较大改变,具体如下: (1) AI模型:“预训练+微调”的模型训练方式有望快速推广。开发者可通过对类 似GPT-3的AI预训练模型进行剪裁、域的自适应和新增部分类等微调,即可实现 特定模型的量产,提升开发效率。 (2) AI算力:AI大模型在训练和推理两个任务中都需要大规模智能算力基础设施的 支持。未来随着AI大模型的开发和应用,其有望驱动AI加速卡和AI服务器等硬件 需求的增长。 (3) 训练数据:在AI大模型对于训练数据的数据量、场景覆盖面以及标注的精细化 程度等有较高要求的情况下,未来各家公司采集、获取数据的方式是模型实现通 用化的关键。