算力需求、分类及规模情况如何？ - 问答集锦

最佳答案由匿名用户编辑于2024/05/07 15:21

AI大模型在训练端和推理端都将产生巨量的算力需求。

1.算力需求跃迁：AI 模型训练所需 FLOPs 增速超过摩尔定律，引发算力需求高增

2010 年以前（前深度学习时代）：2010 年以前，AI模型训练所需 FLOPs（Floating Point Operations Per Second，衡量计算性能的指标，特别是在深度学习和神经网络领域中，用来描述硬件设备在单位时间内能够完成的浮点运算次数。是评估深度学习模型的计算复杂度和硬件性能的重要指标）始终保持稳定（指数级）线性增长。这一阶段 AI 模型训练所需 FLOPs 增长与摩尔定律保持一致，大约每 20 个月翻一倍，算力需求从 3×104 FLOPs 增长到 2×1014 FLOPs。

2010~2015 年（深度学习时代）：2010 年起，AI 深度学习模型训练所需 FLOPs 相对前深度学习时代出现斜率突变。自从深度学习在 2010 年代初兴起以来，训练计算的规模加速增长，大约每 6 个月翻倍，远超摩尔定律每 20 个月翻一倍的算力供给。到 2015 年底，随着大型机器学习模型的开发，训练计算的需求增长了 10 到 100 倍，算力需求总规模达到 4×1021 FLOPs。

2016 年至今（大模型时代）：2016 年起，AI 大模型训练所需 FLOPs 出现断点跳跃。 2017 年，《Attention Is All You Need》发表，Transformer 模型问世。Transformer 架构的出现使得模型能够处理更长的序列和更复杂的任务（2017 年之后陆续诞生众多千亿参数模型），但同时也需要更多的计算资源，算法上的创新推动了对更高计算能力的需求。同时，尽管存在如分布式训练和混合精度训练等提高训练效率的技术，但这些技术的应用往往需要更多的硬件资源。为了实现大规模并行处理，需要大量的 GPU 或 TPU 资源，这进一步加剧了对算力的非线性需求，2022 年训练大模型的算力需求达到了 8×1023 FLOPs。

2. 算力分类：训练算力+推理算力，算力体系逐步完善

训练算力：指在训练机器学习模型时所需的计算资源。训练过程涉及将模型与训练数据进行多次迭代，调整模型参数以最小化损失函数（损失函数是衡量模型预测值与实际值之间差异的函数，反映模型性能）。所需训练算力的大小与模型复杂度、数据集大小和迭代次数有关。越复杂的模型通常需要越多的训练算力，因为它们有更多的参数需要进行调整；使用更大型数据集进行训练通常需要更多计算资源，因为需要处理更多的数据量；较大的模型或更复杂的任务可能需要更多的迭代次数才能达到收敛，这会增加训练时间和计算资源的需求。

推理算力：指执行已经训练好的模型进行预测或推理时所需的计算资源。在推理阶段，模型不再更新参数，而是用来对新数据进行预测。这时，算力的需求与模型大小、批处理大小（Batch Size，是指在深度学习中每次输入的数据集大小）、硬件配置有密切联系。越大的模型通常需要越多的推理算力来执行预测，因为它们具有更多的参数需要进行计算；推理时的批处理大小也会影响算力需求，较大的批处理大小可能需要更多的内存和计算资源来处理； GPU、TPU 等硬件的类型和数量会影响推理的速度和效率，更强大的硬件通常可以更快地执行推理任务。

训练芯片：用于构建神经网络模型，需要高算力和一定的通用性。推理芯片：利用神经网络模型进行推理预测，注重综合指标，单位能耗算力、时延、成本等。

3. 算力规模：训练/推理对 AI 芯片提出不同要求，推理端算力需求有望远超训练端

据 IDC，2023 上半年国内训练工作负载的服务器占比达到 49.4%，预计全年的占比将达到 58.7%。随着训练模型的完善与成熟，模型和应用产品逐步进入投产模式，处理推理工作负载的人工智能服务器占比将随之攀升，到 2027 年，国内用于推理的工作负载预计将达到 72.6%。

AI大模型在训练端和推理端都将产生巨量的算力需求：训练端算力需求的测算：从模型的参数规模入手，根据训练大模型所需的 Token 数量和每 Token 训练成本与模型参数量的关系分别估算总算力需求，再考虑单张 GPU 算力和 GPU 集群的算力利用率推导得出 GPU 总需求。其中，参考 OpenAI 发布的论文《Scaling Laws for Neural Language Models》中的分析，每个 Token 的训练成本通常约为 6N，其中 N 是 LLM 的参数数量。以 GPT-3 为例，根据《Training Compute-Optimal Language Models》，GPT3 的参数量为 1,750 亿，训练 Tokens 为 3,000 亿，该模型训练算力总需求为 6×1,750 亿×3,000 亿=3.15×1023 FLOPs，对应图表 10 公式（1）。假如目前要同时 3 个 GPT-3 大模型，且需要在一周以内训练完成，则训练端峰值算力需求为 3.15×1023 FLOPs×2/（7×24×3600） =1.04×1018，对应图表 10 公式（2）。

推理端算力需求的测算：根据大模型日活用户人数、每人平均查询 Token 数量、每 Token 推理成本与模型参数量的关系估算推理端总算力需求，同时考虑最大并发峰值的算力乘数为高并发提供冗余。其中，参考 OpenAI 发布的论文《Scaling Laws for Neural Language Models》中的分析，每个 Token 的推理成本通常约为 2N，其中 N 是 LLM 的参数数量。

参考报告

计算机行业算力深度报告：产业链全梳理.pdf
- 查看报告