算力行业供需格局如何?

最佳答案 匿名用户编辑于2023/09/21 16:17

算力竞赛加码,格局尚难稳定。

1. 需求端:AI 拉动成长,算力需求空间广阔

2022 到 2023,全球 AI 布局加速,大量人工智能模型涌现。2022 年 11 月,OpenAI 发 布聊天机器人 ChatGPT,将生成式 AI 的燎原战火带入公众视野。2023 年 2 月,Meta AI 在其官网公开发布了 LLaMA 大型语言模型。2023 年 5 月,Google 发布新一代大语言模 型 PaLM 2。与此同时,中国科技企业也按下了 AI 领域的快进键。百度于 2023 年 3 月 发布文心大模型。此后,商汤、阿里云、科大讯飞、华为等陆续发布各自的大模型。

大量人工智能模型的推出和迭代大幅带动了上游的算力需求。一方面,全球人工智能模 型数量的增长对上游算力需求的拉动十分显著。另一方面,单个模型的持续迭代过程中, 其算力需求较以往亦有大幅增长。

以 GPT 系列预训练过程为例,历代 GPT 参数量呈现指数级增长,未来其算力需求有望 大幅增长。训练一次 1750 亿参数的 GPT-3 模型需要的算力约为 3640 PFlop/s-day(即 假如每秒计算一千万亿次,需要计算 3640 天),约合 3.14E23 FLOPs。但这算力消耗速 度很快被新一代模型刷新。GPT-4 不仅支持文本输入,还支持图像输入,文字输入限制 提升至 2.5 万单词,所需计算规模大幅提升。

算力需求提升,意味着芯片、服务器、云厂商和运营商等各个环节的需求增长。根据中 国信通院《中国算力发展指数白皮书》测算,2021 年全球计算设备算力规模超过 615EFLOPS(1 个 EFLOPS 代表 10^18FLOPS),同比增速高达 44%左右,而后续几年则 将迎来算力引爆时代。信通院报告预测,2030 年,全球算力规模有望达 56ZFLOPS,2022- 2030 年复合增长率达 65%。这对于 AI 芯片需求的拉动将会非常显著: 一方面,从服务器总量上来看,算力需求增长将带动 GPU 服务器出货量增速高升, 从而带动训练芯片的需求; 另一方面,从服务器结构上来看,相比较普通 GPU 服务器(一般配备单卡或双卡), AI 服务器平均每单位出货所需的 GPU 数量至少翻倍(一般配置 4 块以上 GPU 卡)。 因此,我们认为 AI 芯片环节面临巨大的增长机会,因此我们将重点以 AI 芯片为例分析 算力板块的机会。

2. 供给端:算力竞赛激烈角逐

从 AI 芯片的市场格局看: GPU 核心供应商包括了 NVIDIA、AMD 等,NVIDIA 目前占据大部分市场。 FPGA 供应商主要包括 Intel、赛灵思(AMD)等,其中赛灵思于 2022 年被 AMD 收 购。 ASIC 市场较为分散,比较知名的供应商例如设计生产 TPU 的谷歌。 随着 AI 技术的迭代、算力需求的增长,各家芯片企业亦展开了百舸争流的竞争态势。

(1)英伟达:率先卡位,软硬结合构筑护城河

在 GPU 市场,英伟达凭借以 H100 为首的高性能 GPU,率先卡位。TrendForce 指出,目 前 AI 服务器市场上,英伟达的 GPU 作为主流芯片,市场份额约占 60-70%,预计今年搭 载英伟达 A100 和 H100 的 AI 服务器的出货量年增长率将超过 50%。 我们认为,英伟达的龙头优势来自其 1)硬件性能、2)软件生态、3)投资及合作版图。

1) 当前英伟达的 H100 和 A100 等产品在性能表现上全球领先。 根据 6 月 27 日 MLCommons 公布的最新的 MLPerf 测试结果,由 3584 个 H100 GPU 组 成的集群在基于 GPT-3 的大规模训练基准测试中,不到 11 分钟即可完成训练。

2) 硬件性能之外,CUDA 软件生态为英伟达搭起护城河。 英伟达的核心优势并不仅仅在于 GPU 性能,更重要的是与 GPU 相辅相成的 CUDA 生态。CUDA 生态使得开发者可以使用 C、C++、Fortran、OpenCL、DirectCompute 和其他语 言编写的程序在 NVIDIA GPU 进行并行计算,并且仅适用于英伟达的硬件产品,实现软 硬件的绑定。这种软硬件的绑定,提高了客户切换软硬件的门槛,从而形成极强的客户 粘性。目前主流的深度学习框架基本都使用 CUDA,为英伟达建立了非常强的竞争优势。

3) 英伟达正通过快速投资 AI 模型企业,进一步扩张 AI 版图、绑定下游潜在需求。 2023 年 6 月 9 日,主要做类 ChatGPT 聊天机器人的加拿大 AI 企业 Cohere 宣布完成 2.7 亿美元 C 轮融资,估值约 22 亿美元,英伟达、甲骨文、Salesforce 等均参与了该轮融资。 6 月 29 日,美国 AI 聊天机器人创业企业 Inflection AI、AI 文生视频创业企业 Runway 宣布完成新融资,英伟达亦在这两笔融资的投资方之列。

(2)AMD:GPU 加速追赶英伟达,并快速布局 FPGA

作为第二大 GPU 厂商,AMD 亦加速提升 GPU 产品性能,缩小与龙头之间的差距。6 月 13 日,AMD 对标英伟达的 H100,推出专门面向生成式 AI 的 MI300X。AMD 表示,MI300X 的高带宽内存(HBM)密度,最高可达英伟达 H100 的 2.4 倍,高带宽内存带宽最高可 达英伟达 H100 的 1.6 倍。相较其他竞品,MI300X 在运行包括 GPT-3、PaLM2 等大模型 时,所需要的 GPU 数量更少。总体从硬件来看,AMD 推出的 MI300X 产品在某些性能指 标上已经可以和英伟达的产品相媲美。 但软件方面,AMD 与英伟达仍存在一定差距。为了兼容英伟达的 CUDA 生态,AMD 推出 了 ROCm 生态圈,并实现通过 HIP 去兼容 CUDA,这在一定程度上缓解了 AMD 在 GPU 运算环境上落后于 NVIDIA 的局面。但目前,ROCm 无法真正替代 CUDA 产生软件生态 上的壁垒。其软件生态的构建、完善及推广应用,仍然需要一定的时间。

此外,FPGA 产品方面,AMD 收购赛灵思后,继续锤炼产品。AMD 在 2020 年开始准备 布局 FPGA,在 2022 年以 500 亿美元的价格收购了全球最大的 FPGA 厂商赛灵思,跃升 为 FPGA 龙头。2023 年 6 月 27 日,AMD 宣布推出 AMD Versal Premium VP1902 自适 应 SoC,容量和连接性大幅提升。

(3)谷歌:TPU 不断迭代,TPU v4 性能优秀

TPU 持续迭代,性能大幅提升。谷歌自 2015 年发布 TPU v1 以来,不断迭代升级,在 TPU v2 时已经可以支持训练。其在 2021 年 Q2 发布的 TPU v4 通过光互连实现可重配 置和高可拓展性,采用 7nm 工艺,峰值算力达 275TFLOPS,性能大幅提升。根据谷歌 发布的论文《TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings》,使用 TPU v4 芯片进行嵌入训练时,相比于使 用 TPU v3 芯片,可以获得 2.7 倍的性能提升。

TPU v4 性能不逊于英伟达 A100。与英伟达的 A100 相比,TPUv4 和英伟达 A100 的 MLPerf 结果都可扩展到 4000 多片芯片的规模,TPUv4 与 A100 相比亦具有一定的性能 优势: MLPerf 基准测试性能:芯片数量规模相似的情况下,对于自然语言处理 BERT 模型, TPUv4 的速度是 A100 的 1.15 倍;对于图像分类模型 ResNet,TPUv4 的速度为 A100的 1.67 倍。 功耗方面,TPU v4 运行的功率更低。从 MLPerf 基准测试时测量的功率来看,A100 平均功率是 TPU v4 的 1.3–1.9 倍。

(4)英特尔:提升 FPGA 推新频率,Gaudi2 性能强

英特尔今年预计提升 FPGA 推新频率。英特尔早在 2015 年就 167 亿美元的价格收购了 当时全球第二 FPGA 厂商的 Altera,并将其并入可编程解决方案事业部。由于今年以来, 下游需求旺盛,英特尔加快了产品推新速度,2023 年计划推出 15 款新 FPGA。我们预 计,未来 AMD 和英特尔在 FPGA 领域的军备竞赛将再次升级。 ASIC 方面,Gaudi2 性能在某些方面亦超越了英伟达的 A100。英特尔 2022 年发布 AI ASIC 芯片 Gaudi 2,性能表现出色。根据 2023 年 6 月 27 日 MLCommons 公布的最新 MLPerf 测试结果,英特尔的 Gaudi2(ASIC)在 Bert x8、Bert x64、ResNet x8、Unet x8 等 4 个模型训练中的性能表现超过了英伟达的 A100(GPU)。7 月 12 日,浪潮信息联合 英特尔发布了新一代 AI 服务器,其支持 8 颗 OAM 高速互联的 Gaudi2 加速器。

综上我们可以看到,AI 芯片的比赛已经按下“加速键”,所有玩家正跑步争夺市场地位。 从赛道角度,算力需求增长不仅有利于上游的芯片,也同样会带动中游的服务器、下游 的云计算厂商及运营商等。