算力行业供需格局如何？ - 问答集锦

最佳答案由匿名用户编辑于2023/09/21 16:17

算力竞赛加码，格局尚难稳定。

1. 需求端：AI 拉动成长，算力需求空间广阔

2022 到 2023，全球 AI 布局加速，大量人工智能模型涌现。2022 年 11 月，OpenAI 发布聊天机器人 ChatGPT，将生成式 AI 的燎原战火带入公众视野。2023 年 2 月，Meta AI 在其官网公开发布了 LLaMA 大型语言模型。2023 年 5 月，Google 发布新一代大语言模型 PaLM 2。与此同时，中国科技企业也按下了 AI 领域的快进键。百度于 2023 年 3 月发布文心大模型。此后，商汤、阿里云、科大讯飞、华为等陆续发布各自的大模型。

大量人工智能模型的推出和迭代大幅带动了上游的算力需求。一方面，全球人工智能模型数量的增长对上游算力需求的拉动十分显著。另一方面，单个模型的持续迭代过程中，其算力需求较以往亦有大幅增长。

以 GPT 系列预训练过程为例，历代 GPT 参数量呈现指数级增长，未来其算力需求有望大幅增长。训练一次 1750 亿参数的 GPT-3 模型需要的算力约为 3640 PFlop/s-day（即假如每秒计算一千万亿次，需要计算 3640 天），约合 3.14E23 FLOPs。但这算力消耗速度很快被新一代模型刷新。GPT-4 不仅支持文本输入，还支持图像输入，文字输入限制提升至 2.5 万单词，所需计算规模大幅提升。

算力需求提升，意味着芯片、服务器、云厂商和运营商等各个环节的需求增长。根据中国信通院《中国算力发展指数白皮书》测算，2021 年全球计算设备算力规模超过 615EFLOPS（1 个 EFLOPS 代表 10^18FLOPS），同比增速高达 44%左右，而后续几年则将迎来算力引爆时代。信通院报告预测，2030 年，全球算力规模有望达 56ZFLOPS，2022- 2030 年复合增长率达 65%。这对于 AI 芯片需求的拉动将会非常显著：一方面，从服务器总量上来看，算力需求增长将带动 GPU 服务器出货量增速高升，从而带动训练芯片的需求；另一方面，从服务器结构上来看，相比较普通 GPU 服务器（一般配备单卡或双卡）， AI 服务器平均每单位出货所需的 GPU 数量至少翻倍（一般配置 4 块以上 GPU 卡）。因此，我们认为 AI 芯片环节面临巨大的增长机会，因此我们将重点以 AI 芯片为例分析算力板块的机会。

2. 供给端：算力竞赛激烈角逐

从 AI 芯片的市场格局看： GPU 核心供应商包括了 NVIDIA、AMD 等，NVIDIA 目前占据大部分市场。 FPGA 供应商主要包括 Intel、赛灵思（AMD）等，其中赛灵思于 2022 年被 AMD 收购。 ASIC 市场较为分散，比较知名的供应商例如设计生产 TPU 的谷歌。随着 AI 技术的迭代、算力需求的增长，各家芯片企业亦展开了百舸争流的竞争态势。

（1）英伟达：率先卡位，软硬结合构筑护城河

在 GPU 市场，英伟达凭借以 H100 为首的高性能 GPU，率先卡位。TrendForce 指出，目前 AI 服务器市场上，英伟达的 GPU 作为主流芯片，市场份额约占 60-70%，预计今年搭载英伟达 A100 和 H100 的 AI 服务器的出货量年增长率将超过 50%。我们认为，英伟达的龙头优势来自其 1）硬件性能、2）软件生态、3）投资及合作版图。

1）当前英伟达的 H100 和 A100 等产品在性能表现上全球领先。根据 6 月 27 日 MLCommons 公布的最新的 MLPerf 测试结果，由 3584 个 H100 GPU 组成的集群在基于 GPT-3 的大规模训练基准测试中，不到 11 分钟即可完成训练。

2）硬件性能之外，CUDA 软件生态为英伟达搭起护城河。英伟达的核心优势并不仅仅在于 GPU 性能，更重要的是与 GPU 相辅相成的 CUDA 生态。CUDA 生态使得开发者可以使用 C、C++、Fortran、OpenCL、DirectCompute 和其他语言编写的程序在 NVIDIA GPU 进行并行计算，并且仅适用于英伟达的硬件产品，实现软硬件的绑定。这种软硬件的绑定，提高了客户切换软硬件的门槛，从而形成极强的客户粘性。目前主流的深度学习框架基本都使用 CUDA，为英伟达建立了非常强的竞争优势。

3）英伟达正通过快速投资 AI 模型企业，进一步扩张 AI 版图、绑定下游潜在需求。 2023 年 6 月 9 日，主要做类 ChatGPT 聊天机器人的加拿大 AI 企业 Cohere 宣布完成 2.7 亿美元 C 轮融资，估值约 22 亿美元，英伟达、甲骨文、Salesforce 等均参与了该轮融资。 6 月 29 日，美国 AI 聊天机器人创业企业 Inflection AI、AI 文生视频创业企业 Runway 宣布完成新融资，英伟达亦在这两笔融资的投资方之列。

（2）AMD：GPU 加速追赶英伟达，并快速布局 FPGA

作为第二大 GPU 厂商，AMD 亦加速提升 GPU 产品性能，缩小与龙头之间的差距。6 月 13 日，AMD 对标英伟达的 H100，推出专门面向生成式 AI 的 MI300X。AMD 表示，MI300X 的高带宽内存（HBM）密度，最高可达英伟达 H100 的 2.4 倍，高带宽内存带宽最高可达英伟达 H100 的 1.6 倍。相较其他竞品，MI300X 在运行包括 GPT-3、PaLM2 等大模型时，所需要的 GPU 数量更少。总体从硬件来看，AMD 推出的 MI300X 产品在某些性能指标上已经可以和英伟达的产品相媲美。但软件方面，AMD 与英伟达仍存在一定差距。为了兼容英伟达的 CUDA 生态，AMD 推出了 ROCm 生态圈，并实现通过 HIP 去兼容 CUDA，这在一定程度上缓解了 AMD 在 GPU 运算环境上落后于 NVIDIA 的局面。但目前，ROCm 无法真正替代 CUDA 产生软件生态上的壁垒。其软件生态的构建、完善及推广应用，仍然需要一定的时间。

此外，FPGA 产品方面，AMD 收购赛灵思后，继续锤炼产品。AMD 在 2020 年开始准备布局 FPGA，在 2022 年以 500 亿美元的价格收购了全球最大的 FPGA 厂商赛灵思，跃升为 FPGA 龙头。2023 年 6 月 27 日，AMD 宣布推出 AMD Versal Premium VP1902 自适应 SoC，容量和连接性大幅提升。

（3）谷歌：TPU 不断迭代，TPU v4 性能优秀

TPU 持续迭代，性能大幅提升。谷歌自 2015 年发布 TPU v1 以来，不断迭代升级，在 TPU v2 时已经可以支持训练。其在 2021 年 Q2 发布的 TPU v4 通过光互连实现可重配置和高可拓展性，采用 7nm 工艺，峰值算力达 275TFLOPS，性能大幅提升。根据谷歌发布的论文《TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings》，使用 TPU v4 芯片进行嵌入训练时，相比于使用 TPU v3 芯片，可以获得 2.7 倍的性能提升。

TPU v4 性能不逊于英伟达 A100。与英伟达的 A100 相比，TPUv4 和英伟达 A100 的 MLPerf 结果都可扩展到 4000 多片芯片的规模，TPUv4 与 A100 相比亦具有一定的性能优势： MLPerf 基准测试性能：芯片数量规模相似的情况下，对于自然语言处理 BERT 模型， TPUv4 的速度是 A100 的 1.15 倍；对于图像分类模型 ResNet，TPUv4 的速度为 A100的 1.67 倍。功耗方面，TPU v4 运行的功率更低。从 MLPerf 基准测试时测量的功率来看，A100 平均功率是 TPU v4 的 1.3–1.9 倍。

（4）英特尔：提升 FPGA 推新频率，Gaudi2 性能强

英特尔今年预计提升 FPGA 推新频率。英特尔早在 2015 年就 167 亿美元的价格收购了当时全球第二 FPGA 厂商的 Altera，并将其并入可编程解决方案事业部。由于今年以来，下游需求旺盛，英特尔加快了产品推新速度，2023 年计划推出 15 款新 FPGA。我们预计，未来 AMD 和英特尔在 FPGA 领域的军备竞赛将再次升级。 ASIC 方面，Gaudi2 性能在某些方面亦超越了英伟达的 A100。英特尔 2022 年发布 AI ASIC 芯片 Gaudi 2，性能表现出色。根据 2023 年 6 月 27 日 MLCommons 公布的最新 MLPerf 测试结果，英特尔的 Gaudi2（ASIC）在 Bert x8、Bert x64、ResNet x8、Unet x8 等 4 个模型训练中的性能表现超过了英伟达的 A100（GPU）。7 月 12 日，浪潮信息联合英特尔发布了新一代 AI 服务器，其支持 8 颗 OAM 高速互联的 Gaudi2 加速器。

综上我们可以看到，AI 芯片的比赛已经按下“加速键”，所有玩家正跑步争夺市场地位。从赛道角度，算力需求增长不仅有利于上游的芯片，也同样会带动中游的服务器、下游的云计算厂商及运营商等。

参考报告

人工智能行业海外市场2023年中期策略：颠覆之间，AI时代的4个猜想.pdf
- 查看报告