AI大模型训练与推理算力需求测算

最佳答案 匿名用户编辑于2025/11/17 15:08

近年来,全球范围内AI大模型的研发热度持续攀升,从早期的Transformer和BERT 模型到如今的GPT-4、Gemini、LLaMA等,各主流厂商在模型规模、训练数据体量 与算力资源的投入上均呈现指数级增长。

以Open AI的GPT系列为例,GPT-3训练参 数量达1750亿,使用约355个GPU-年,训练成本达1200万美元;GPT-4在硬件规模 和训练时长上双双大幅跃升,动用约2.5万块A100 GPU训练近百天,整体投入超过1 亿美元。 国内如百度、阿里、商汤等头部厂商亦加快布局,LLaMA-3.1、Deepseek-V3等模 型虽参数量略小于GPT-4,但在算力利用效率及成本控制方面表现出更强的工程优 化能力,如Deepseek-V3使用2048块H800 GPU训练56天,总成本控制在600万美 元以内,为国内厂商在芯片受限背景下,实现AI加速卡高利用率、训练整体高性价 比提供可能性。

AI大模型训练驱动算力需求增长,国外厂商定制AI芯片采购量占比高。英伟达 Hopper架构是2022年推出的最新一代高性能计算、深度学习和人工智能应用的计算 架构。它继承了前代架构(Ampere)的优点,并在多个方面进行了优化,旨在提供 更高的计算效率和灵活性。Hopper架构的显卡型号包括H100、H200、H800和H20, 其中H800和H20是针对中国市场的定制版本。 根据Omdia报告数据,2024年英伟达Hooper架构芯片出货客户中,微软以48.5万张 的采购数位于首位,Meta、特斯拉、亚马逊和谷歌的采购量分别达到22.4万/20万 /19.6万/16.9万张;字节跳动和腾讯均达到约23万张,阿里巴巴和百度也分别达到5.8 万/2万张,包括训练卡和推理卡,数量上H20占多数。整体来看,Hopper架构芯片 的出货量集中于头部企业,中美科技公司均将Hopper架构芯片作为生成式AI基础设 施的关键算力支撑,但部分公司已通过自研芯片或AMD替代方案降低对单一架构的 依赖。考虑单芯片算力差距等因素,国内外厂商AI训练的算力储备仍存在不小的差距。

敏感性分析:基于以下假设条件,我们通过改变参数量-数据量之比,对用于AI大模 型训练需求的AI加速卡的数量做关于参数量和训练token数量的敏感性分析,得到的 结果如表3所示。 (1)参数量取200~1400B之间,每200B为一个间隔。 (2)数据量取4000~24000B tokens之间,每4000B tokens为一个间隔。 (3)AI加速卡使用Hopper架构下的H100芯片(FP16:1,979TFLOPS,50%), 正常训练时单卡算力取1000TFLOPS。 (4)训练周期为60天。

国内AI算力不足的情况下,国内大模型公司通过算法迭代、架构升级等方式降低训 练成本。 Deepseek-V3的训练规模为参数量672B、训练数据14.8T tokens,其训练56天仅需 2,048张H800 GPU,预训练成本约557.6万美元。而根据前文的计算方法大约需要 1.25万张H100 GPU(H800与H100算力相当)。 根据Deepseek-V3 Github官方主页,其高效性主要得益于多项技术创新。具体而言, Deepseek在预训练中设计并首次在超大规模模型上验证了FP8混合精度训练框架 的可行性和有效性,突破了跨节点MoE训练的通信瓶颈,近乎实现计算-通信的完全 重叠,显著提升了训练的效率及成本效益。参考Deepseek的模型训练属性,表明AI 大模型训练端成本依旧存在巨大的优化潜力,尤其在训练架构及算法层面上能够借 鉴Deepseek的技术路径或持续创新。

用户与基于云端的AI大模型交互驱动AI推理侧算力的增长。为测算AI大模型访问量 给厂商带来新增的算力需求,我们进行以下假设: (1)AI加速卡使用A100(FP16:312TFLOPS,50%)芯片来测算。 (2)AI大模型的单日访问量为5亿至7亿人次之间。 (3)每日每位访问AI大模型的用户的对话次数为10次:根据SimilarWeb的数据, 25年1月27日-2月2日,DeepSeek网页版访问的平均时长为5分钟。通过观察,在5 分钟内,用户平均对话问题在10个左右。 (4)AI大模型每日正常使用时间为18小时:AI大模型的推理与用户与其对话的时间 相关。正常情况下,用户在晚间睡眠时间(24:00-6:00)与AI大模型的互动较少。 (5)单位AI加速卡每秒生成内容数量为1个:根据英伟达官网,A100针对于BERT类的AI大模型可实现每秒推理1757次。因此可假设单片A100用于AI大模型每秒生成 1757个单词,与单次客户需要生成的内容数量相当。 由此测算出,在以上假设下,由于用户对话和访问AI大模型的推理量的增加,预计 AI加速卡需求在7.7万~10.8万张之间。

敏感性分析:以上测算中,单日对话次数和单日访问量对于算力需求的影响较大。 为进一步细化算力需求的测算,我们预计AI大模型的单日访问量的范围在5亿人次到 9亿人次之间;用户与AI大模型单日的对话次数预计在7-13次之间,其余假设与上述 测算相同,对用于AI大模型推理新增的AI加速卡的数量做关于单日对话次数和单日 访问量的敏感性分析。