AI 大格局,科技浪潮奇点时刻。
2023年3月中旬,随着OPEN AI发布GPT4.0,微软把GPT4.0应用于office办公 系列,科技巨头引领大模型技术迭代和应用超预期。全球大模型和AIGC产业链公司 争先恐后加入AI浪潮,迎来奇点时刻。
AIGC产业链大致可以分为三层,应用层、模型层和基础设施层。其中应用层为 训练好的模型应用于网络平台/数据中心或边缘端,即为模型的推理过程;模型层为 开源预训练模型的训练过程或非开源预训练模型的API调用,即模型的训练过程;基 础设施层则分为两部分,一部分是是开放式云平台,另一部分则是用于LLM训练与 部署的计算、存储、连接芯片等硬件。
大模型的训练和推理对算力需求庞大。(1)训练是指生成一个大模型的过程; (2)推理是指将搭建好的模型于实际应用中使用。由于训练和推理过程其特点有所 不同,在此我们分别对AI大模型在训练阶段和推理阶段的算力需求进行测算:
(1)AI大模型在训练阶段算力需求测算
我 们 以 参考NVIDIA 发表 的 文 章《 Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM》中对不同参数GPT模型算力需求的 计算方法及NVIDIA A100在模型训练过程的参数,对以GPT-3.5 175B为代表的大模 型的训练算力需求进行测算,测算主要基于以下关键假设:①考虑到大模型训练的 时间要求,假设模型单次训练时间为30天,即每年可进行约12次训练;②训练阶段 每个A100吞吐效率为48%。此外,我们假设每台AI服务器均配有8张A100。 由此测算,单个GPT-3.5 175B参数量AI大模型训练而新增的NVIDIA A100需求 空间为1080个,新增的AI服务器需求为135台。

考虑到各大互联网巨头正在/计划训练的模型参数量仍在持续增加;同时越来越 多的互联网公司加入大模型训练的阵营;我们基于以下关键假设,对用于大模型训 练的NVIDIA A100、AI服务器的需求做关于模型参数、模型训练个数的敏感型分析。 ①假设模型单次训练时间为30天;②假设训练阶段每个A100吞吐效率为48~52%。
(2)AI大模型在推理阶段算力需求测算。
目前,以GPT为代表的大语言AI模型在文字推理/生成领域的应用加速落地;此 外,基于GPT的midjourney展现出较强的图片创作能力,Adobe也发布了可生成图片、 视频、声音等内容的模型Firefly,AI模型在多媒体领域的推理/生成应用也在快速发 展。考虑到AI模型在文字生成领域应用落地进展较快,我们对这一部分推理算力需 求进行测算,基于以下关键假设:①参考谷歌月均搜索次数,假设一个谷歌级应用 每日的搜索次数为30亿次;并假设30亿次问答在每日24小时中均匀分布;②假设单 次问答总字数为1850字。 由此测算,单个应用GPT-3.5 175B模型的谷歌级文字推理应用新增的NVIDIA A100需求空间为72万个,新增的AI服务器需求为9万台。
AIGC大幅提升HPC算力需求,推动AI服务器增长。AIGC大模型的训练和推理 需要大量的高性能计算(HPC)算力支持,对AI服务器需求提升。据Trendforce数据, 预估2022年搭载GPGPU的AI服务器年出货量占整体服务器比重近1%,即约14万台。 预计2023年出货量年成长可达8%,2022~2026年CAGR达10.8%。 根据上文对训练&推理算力需求测算,并以Trend Force数据预估2022年搭载 GPGPU的AI服务器出货量14万台为基数,测算训练侧与推理侧AI服务器需求对服 务器出货量的拉动。100个175B训练模型对AI服务器出货量的拉动为9.6%,10个使 用GPT-3.5 175B模型的谷歌级推理应用对全球AI服务器出货量的拉动为643%。

AI服务器单价是普通服务器的10倍以上,算、连、存增量显著。AI服务器内部 除了2颗CPU外,一般还要配备4/8颗GPGPU以及一系列的相关配套芯片,AI训练服 务器因为其对算力需求更高,单机价格较普通服务器将有较大的提升,通用服务器 价格一般为几千美金/台,而主流AI服务器价格多在10-15万美金/台。 以英伟达DGX H100为例,其内部包含了8颗H100 GPU、2个64核AMD Rome CPU、2TB RAM、30 TB Gen4 NVME SSD、4个NVIDIA NVSwitch以及8个NVIDIA Connext-7 400Gb/s网卡。除ODM厂商受益于服务器AI升级,成长空间广阔外,AI服 务器内部的算力芯片(GPU等)、连接产品(光模块、PCIe Retimer、PCB等)、 存储芯片(DRAM、NAND、HBM等)市场规模都有望迎来显著提升。