AI大模型在训练端和推理端都将产生巨量的算力需求。
2010 年以前(前深度学习时代):2010 年以前,AI模型训练所需 FLOPs(Floating Point Operations Per Second,衡量计算性能的指标,特别是在深度学习和神经网 络领域中,用来描述硬件设备在单位时间内能够完成的浮点运算次数。是评估深度 学习模型的计算复杂度和硬件性能的重要指标)始终保持稳定(指数级)线性增长。 这一阶段 AI 模型训练所需 FLOPs 增长与摩尔定律保持一致,大约每 20 个月翻一 倍,算力需求从 3×104 FLOPs 增长到 2×1014 FLOPs。
2010~2015 年(深度学习时代):2010 年起,AI 深度学习模型训练所需 FLOPs 相 对前深度学习时代出现斜率突变。自从深度学习在 2010 年代初兴起以来,训练计 算的规模加速增长,大约每 6 个月翻倍,远超摩尔定律每 20 个月翻一倍的算力供 给。到 2015 年底,随着大型机器学习模型的开发,训练计算的需求增长了 10 到 100 倍,算力需求总规模达到 4×1021 FLOPs。
2016 年至今(大模型时代):2016 年起,AI 大模型训练所需 FLOPs 出现断点跳跃。 2017 年,《Attention Is All You Need》发表,Transformer 模型问世。Transformer 架构的出现使得模型能够处理更长的序列和更复杂的任务(2017 年之后陆续诞生众 多千亿参数模型),但同时也需要更多的计算资源,算法上的创新推动了对更高计算 能力的需求。同时,尽管存在如分布式训练和混合精度训练等提高训练效率的技术, 但这些技术的应用往往需要更多的硬件资源。为了实现大规模并行处理,需要大量 的 GPU 或 TPU 资源,这进一步加剧了对算力的非线性需求,2022 年训练大模型 的算力需求达到了 8×1023 FLOPs。
训练算力:指在训练机器学习模型时所需的计算资源。训练过程涉及将模型与训练数据 进行多次迭代,调整模型参数以最小化损失函数(损失函数是衡量模型预测值与实际值 之间差异的函数,反映模型性能)。所需训练算力的大小与模型复杂度、数据集大小和迭 代次数有关。 越复杂的模型通常需要越多的训练算力,因为它们有更多的参数需要进行调整; 使用更大型数据集进行训练通常需要更多计算资源,因为需要处理更多的数据量; 较大的模型或更复杂的任务可能需要更多的迭代次数才能达到收敛,这会增加训练 时间和计算资源的需求。

推理算力:指执行已经训练好的模型进行预测或推理时所需的计算资源。在推理阶段, 模型不再更新参数,而是用来对新数据进行预测。这时,算力的需求与模型大小、批处 理大小(Batch Size,是指在深度学习中每次输入的数据集大小)、硬件配置有密切联系。 越大的模型通常需要越多的推理算力来执行预测,因为它们具有更多的参数需要进 行计算; 推理时的批处理大小也会影响算力需求,较大的批处理大小可能需要更多的内存和 计算资源来处理; GPU、TPU 等硬件的类型和数量会影响推理的速度和效率,更强大的硬件通常可以 更快地执行推理任务。
训练芯片:用于构建神经网络模型,需要高算力和一定的通用性。 推理芯片:利用神经网络模型进行推理预测,注重综合指标,单位能耗算力、时延、 成本等。
据 IDC,2023 上半年国内训练工作负载的服务器占比达到 49.4%,预计全年的占比将达 到 58.7%。随着训练模型的完善与成熟,模型和应用产品逐步进入投产模式,处理推理 工作负载的人工智能服务器占比将随之攀升,到 2027 年,国内用于推理的工作负载预 计将达到 72.6%。
AI大模型在训练端和推理端都将产生巨量的算力需求:训练端算力需求的测算:从模型的参数规模入手,根据训练大模型所需的 Token 数 量和每 Token 训练成本与模型参数量的关系分别估算总算力需求,再考虑单张 GPU 算力和 GPU 集群的算力利用率推导得出 GPU 总需求。其中,参考 OpenAI 发布的论文《Scaling Laws for Neural Language Models》中的分析,每个 Token 的训练成本通常约为 6N,其中 N 是 LLM 的参数数量。以 GPT-3 为例,根据 《Training Compute-Optimal Language Models》,GPT3 的参数量为 1,750 亿,训 练 Tokens 为 3,000 亿,该模型训练算力总需求为 6×1,750 亿×3,000 亿=3.15×1023 FLOPs,对应图表 10 公式(1)。假如目前要同时 3 个 GPT-3 大模型,且需要在一 周以内训练完成,则训练端峰值算力需求为 3.15×1023 FLOPs×2/(7×24×3600) =1.04×1018,对应图表 10 公式(2)。
推理端算力需求的测算:根据大模型日活用户人数、每人平均查询 Token 数量、每 Token 推理成本与模型参数量的关系估算推理端总算力需求,同时考虑最大并发峰 值的算力乘数为高并发提供冗余。其中,参考 OpenAI 发布的论文《Scaling Laws for Neural Language Models》中的分析,每个 Token 的推理成本通常约为 2N,其 中 N 是 LLM 的参数数量。