AI大模型训练与推理算力需求测算 - 问答集锦

最佳答案由匿名用户编辑于2025/11/17 15:08

近年来，全球范围内AI大模型的研发热度持续攀升，从早期的Transformer和BERT 模型到如今的GPT-4、Gemini、LLaMA等，各主流厂商在模型规模、训练数据体量与算力资源的投入上均呈现指数级增长。

以Open AI的GPT系列为例，GPT-3训练参数量达1750亿，使用约355个GPU-年，训练成本达1200万美元；GPT-4在硬件规模和训练时长上双双大幅跃升，动用约2.5万块A100 GPU训练近百天，整体投入超过1 亿美元。国内如百度、阿里、商汤等头部厂商亦加快布局，LLaMA-3.1、Deepseek-V3等模型虽参数量略小于GPT-4，但在算力利用效率及成本控制方面表现出更强的工程优化能力，如Deepseek-V3使用2048块H800 GPU训练56天，总成本控制在600万美元以内，为国内厂商在芯片受限背景下，实现AI加速卡高利用率、训练整体高性价比提供可能性。

AI大模型训练驱动算力需求增长，国外厂商定制AI芯片采购量占比高。英伟达 Hopper架构是2022年推出的最新一代高性能计算、深度学习和人工智能应用的计算架构。它继承了前代架构（Ampere）的优点，并在多个方面进行了优化，旨在提供更高的计算效率和灵活性。Hopper架构的显卡型号包括H100、H200、H800和H20，其中H800和H20是针对中国市场的定制版本。根据Omdia报告数据，2024年英伟达Hooper架构芯片出货客户中，微软以48.5万张的采购数位于首位，Meta、特斯拉、亚马逊和谷歌的采购量分别达到22.4万/20万 /19.6万/16.9万张；字节跳动和腾讯均达到约23万张，阿里巴巴和百度也分别达到5.8 万/2万张，包括训练卡和推理卡，数量上H20占多数。整体来看，Hopper架构芯片的出货量集中于头部企业，中美科技公司均将Hopper架构芯片作为生成式AI基础设施的关键算力支撑，但部分公司已通过自研芯片或AMD替代方案降低对单一架构的依赖。考虑单芯片算力差距等因素，国内外厂商AI训练的算力储备仍存在不小的差距。

敏感性分析：基于以下假设条件，我们通过改变参数量-数据量之比，对用于AI大模型训练需求的AI加速卡的数量做关于参数量和训练token数量的敏感性分析，得到的结果如表3所示。（1）参数量取200~1400B之间，每200B为一个间隔。（2）数据量取4000~24000B tokens之间，每4000B tokens为一个间隔。（3）AI加速卡使用Hopper架构下的H100芯片（FP16：1,979TFLOPS，50%），正常训练时单卡算力取1000TFLOPS。（4）训练周期为60天。

国内AI算力不足的情况下，国内大模型公司通过算法迭代、架构升级等方式降低训练成本。 Deepseek-V3的训练规模为参数量672B、训练数据14.8T tokens，其训练56天仅需 2,048张H800 GPU，预训练成本约557.6万美元。而根据前文的计算方法大约需要 1.25万张H100 GPU（H800与H100算力相当）。根据Deepseek-V3 Github官方主页，其高效性主要得益于多项技术创新。具体而言， Deepseek在预训练中设计并首次在超大规模模型上验证了FP8混合精度训练框架的可行性和有效性，突破了跨节点MoE训练的通信瓶颈，近乎实现计算-通信的完全重叠，显著提升了训练的效率及成本效益。参考Deepseek的模型训练属性，表明AI 大模型训练端成本依旧存在巨大的优化潜力，尤其在训练架构及算法层面上能够借鉴Deepseek的技术路径或持续创新。

用户与基于云端的AI大模型交互驱动AI推理侧算力的增长。为测算AI大模型访问量给厂商带来新增的算力需求，我们进行以下假设：（1）AI加速卡使用A100（FP16：312TFLOPS，50%）芯片来测算。（2）AI大模型的单日访问量为5亿至7亿人次之间。（3）每日每位访问AI大模型的用户的对话次数为10次：根据SimilarWeb的数据， 25年1月27日-2月2日，DeepSeek网页版访问的平均时长为5分钟。通过观察，在5 分钟内，用户平均对话问题在10个左右。（4）AI大模型每日正常使用时间为18小时：AI大模型的推理与用户与其对话的时间相关。正常情况下，用户在晚间睡眠时间（24:00-6:00）与AI大模型的互动较少。（5）单位AI加速卡每秒生成内容数量为1个：根据英伟达官网，A100针对于BERT类的AI大模型可实现每秒推理1757次。因此可假设单片A100用于AI大模型每秒生成 1757个单词，与单次客户需要生成的内容数量相当。由此测算出，在以上假设下，由于用户对话和访问AI大模型的推理量的增加，预计 AI加速卡需求在7.7万~10.8万张之间。

敏感性分析：以上测算中，单日对话次数和单日访问量对于算力需求的影响较大。为进一步细化算力需求的测算，我们预计AI大模型的单日访问量的范围在5亿人次到 9亿人次之间；用户与AI大模型单日的对话次数预计在7-13次之间，其余假设与上述测算相同，对用于AI大模型推理新增的AI加速卡的数量做关于单日对话次数和单日访问量的敏感性分析。

参考报告

云计算行业分析：从AI大模型及智驾算力需求测算，看小米算力需求.pdf
- 查看报告