ChatGPT算力成本包括哪些？ - 问答集锦

最佳答案由匿名用户编辑于2023/10/27 14:42

ChatGPT 算力成本包括训练、推理及数据标注。

1.训练：前期固定投入较大，莱特定律驱动下成本必然下行

假设所有厂商站在同一起跑线，我们将单次训练成本的测算思路总结为训练天数 x 云计算成本： 1）以达到模型预期效果所需消耗的训练 token 数量为基础，结合 GPU 在训练过程中的 token 吞吐能力，来计算在一定 GPU 数量下完成训练需要的天数。 2）根据 GPU 数量及计算出的的训练天数，假设云计算的市场价格能够代表训练过程中的硬件及能源成本（取 Azure 公开价格，但已经完成自有数据中心建设的厂商实际年化训练成本应当低于云计算市场价），从而计算出多次迭代训练的年化成本。

参考英伟达 Megatron-LM 团队在 2021 年发表的论文，完成一个 Epoch 的端到端训练时间= 。具体来看，关键名词可以理解为：1）Epoch：将所有训练样本训练一次的过程,当一个完整的数据集通过了神经网络一次并且返回了一次，这个过程称为一次 Epoch。2）T：到模型预期效果所需消耗的训练 token 数量。3）P：大模型的参数数量。4）N：完成一次训练所需的 GPU 数量。5）X：GPU 能够达到的有效吞吐量。根据这一计算方法，考虑到 GPT3.5 系在 GPT3 基础上微调而成，我们选取 1750 亿参数的 GPT-3 模型为样本进行测算，在包含 3000 亿 tokens 的数据集上，假设完成一组训练需要 1024 张英伟达 A100 芯片，且 GPU 在训练过程中能达到的有效计算吞吐为 140TFlops（每秒浮点运算次数），那么完成一次训练需要 34 天。

在此基础上，考虑到大模型的训练过程并不是一劳永逸的，我们假设完成实际训练至少需要两组芯片（2046 张）留出试错空间，为了充分进行模型训练需要不间断进行训练，训练过程中会产生 20%的试错成本，对厂商的年均实际训练成本做出调整，以 Azure ND A100 v4 series（8 张 A100 芯片）的服务器三年包年月租 1 万美元为基准，测算出采用云计算的前提下，大模型的年化训练成本为 2.29 亿元。但根据 OpenAI 数据，ChatGPT 离线训练成本仅为 1200 万美元，考虑到微软前期已经进行大量硬件投入，我们据此认为对于已完成自有数据中心建设的厂商，实际训练成本会更低。

2.推理：与用户数量成正比，成本优化路径明确

推理成本最直观实际的估算方法是参考市场上现有基础模型 API 的标价。 OpenAI 为 GPT3 及 ChatGPT 先后设置的 API 定价分别为 0.02 美元/1000tokens 及 0.002 美元/1000tokens，目前 ChatGPT 成本降低 90%的原因尚未披露。我们综合参考 SaaS 业务普遍毛利率情况、OneFlow测算及 Azure 云计算价格，判断对于国内厂商而言，选取 GPT3 的 API 价格（而不是 ChatGPT 的超低价）并对其进行成本溢价的调整更加合理，判断合理成本约千字 0.07 人民币元(中文预训练模型将中文拆成一个个的字做学习，每一个 token 对应一个汉字)。

我们参考 NewBing 数据，上线 ChatGPT 聊天机器人功能后用户数突破一亿，约 1/3 用户每日在搜索页面使用对话功能，我们判断单用户对话数约在 5 次，单次输出 token 约在 100 个。相比嵌入 AI 后用户增长 6 倍的 Bing，国内用户基数更大、AI 认知程度低，用户使用内嵌对话模型的比例极有可能低于 1/3，我们判断亿级日活应当是国产类 ChatGPT 应用更加合理的中期天花板，据此测算年度推理成本约在 13.62 亿元。

尽管国内厂商难以短期内实现与OpenAI同等的成本优化程度，推理成本的优化目前已经有明确的路径：1）压缩模型以减少总内存占用量：通过使用模型压缩技术，如权重共享、量化和剪枝，可以降低模型的内存占用量和计算复杂度，从而降低推理成本。2）协同推理：多个设备或服务器共享计算任务，通过去中心化分摊成本。3）计算卸载：部分计算任务从一个设备卸载到另一个设备，从而实现对计算资源的优化分配。例如，将部分计算任务从 CPU 卸载到 GPU，从而提高计算效率。4）知识蒸馏：通过让一个较小的模型（学生模型）学习一个较大的模型（教师模型）的知识，可以在保持较好性能的同时降低模型的复杂度和推理成本。

相对于独立的模型应用，搜索页面的对话模型输出效果有限，科技企业出于经济考虑对细分场景下使用的模型进行推理成本优化存在极大可能性，因此我们给出的推理成本预测仍有下调空间。

3.数据标注：取决于人力价格，成本量级较低

相比传统无监督学习的 GPT 模型，ChatGPT表现更好的原因之一是在无监督基础上提升了训练数据的质量，而实现这一点的经济成本并不高。OpenAI 借鉴了 Facebook 等社交媒体公司的做法，构建一个额外的 AI 检测器，向它提供带有暴力、仇恨言论等标签的示例，让它学会识别有害内容。该检测器被内置到 ChatGPT 中，以检测输出内容是否反映了其训练数据的问题，并在它到达用户之前将其过滤。

为了获得这些不良内容的标签，OpenAI 在 2021 年 11 月将标注工作交给肯尼亚外包公司 Sama，三份合同总价仅为20万美元。我们参考时代周刊调查数据，数据标注员团队为 30 人，每 9 小时轮班阅读和标记 150 至 250 段文字，每段 100 -1000 词不等，实得工资约为每小时 1.32 美元至 2 美元。我们据此认为，数据标注目前壁垒仍集中于技术领域，而从经济成本上看，尽管 ChatGPT 的数据标注工作并非完全由 Sama 完成（2022 年 2 月 Sama 与 OpenAI终止合作），我们判断其完整标注成本并不高，给出年化 500 万元的估算。

综合以上分析，我们粗略推测类 ChatGPT 应用正式运营后为公司带来的年化增量成本约为 16 亿元。但考虑到国产模型参数量及数据集 token 数量均是未知，且 Azure 云计算价格与实际成本存在偏差，此外实际落地后各项成本均存在优化可能、具体会计处理方式还存在探讨空间，我们判断 10-20 亿元为其增量成本的合理范围（暂不考虑人力支出及维护费用）。

参考报告

人工智能行业专题之分析：“文心一言”发布，国内厂商距离复现ChatGPT有多远？.pdf
- 查看报告