AI算力产业链及供需情况如何?

最佳答案 匿名用户编辑于2025/02/20 14:33

AI算力需求持续高景气,单卡到组网集群各产业链环节均受益。

1.产业链梳理:AI算力需求持续高景气,算力硬件产业链受益

生成式AI浪潮推动AI大模型 研发和相关应用开发需求, 算力硬件公司作为“卖铲人” 持续受益。 芯片侧,GPU 直接受益,英 伟达Blackwell需求强劲、供 不应求。ASIC定制化积极配 合云厂商等大客户。芯片制 造和CoWoS封装产业链因旺 盛需求积极扩产。 服务器侧,AI芯片积极出货进 而带动服务器订单高增,同 英伟达密切合作的公司受益 程度更高。AI服务器同时带动 HBM和SSD等存储需求。 数据中心侧,算力集群化趋 势带动网络互联需求,利好 光模块、交换机、连接器等。 数据中心的电力需求激增, 推高清洁能源需求。

2.需求:AI大模型积极迭代,Scaling Law构建算力增长底层逻辑

生成式AI竞赛中,各公司加快训练大模型,模型发布时间缩短,带动所需算力增长。单以OpenAI为例,2024年已推出文生 视频大模型Sora、多模态大模型GPT-4o和擅长解决数学、代码等复杂推理问题的o1。AI大模型仍在积极迭代、向更强性能 和更多功能冲刺。

Scaling Law:OpenAI于2020年的一篇论文提出,大模型最终性能主要与计算量、模型参数量和训练数据量三者的大小相 关,而与模型具体结构(层数/深度/宽度)基本无关;而且AI大模型规模(参数量和数据集)扩大,除了提升原有性能表现 外,还会“涌现”原来不具有的能力。Scaling Law奠定了客户提升大模型性能必须购买堆叠AI算力的底层逻辑。

计算量的增长驱动AI大模型开发厂商构建更大的AI芯片算力集群。OpenAI训练GPT-4时,在大约2.5万个A100 上训练了90到100天;而OpenAI训练GPT-3时,在大约1万个V100上训练了15天。68倍计算量增长驱动 OpenAI采用性能增强的AI芯片、更多芯片数量的算力集群、增长训练时间。

各大模型厂商纷纷囤积AI芯片用于模型训练。Meta CEO扎克伯格表示2024年底Meta将拥有35万块H100,拥 有近60万个GPU等效算力;根据The information预测,截至2024Q1,OpenAI用于模型训练的服务器集群约 包括12万个英伟达A100,而2024年全年的训练成本(包括支付数据的费用)可能由原先最早计划的8亿美元 增至30亿美元。

需求:英伟达未到“思科时刻”,跟踪客户订单和资本开支计划

AI算力产业链相较互联网时期的“思科泡沫” ,存在客户积极研发投入、行业竞争壁垒高等优势。1)AI算力客户群体(云 厂商、AI初创公司)投入大量资本开支用于AI基础设施建设,思科对应的互联网公司资金除产品技术投入外更多投入广告宣 传;2)AI芯片技术和资金壁垒高,思科的路由器、网络技术壁垒低,后期市场竞争激烈。

“思科泡沫”警醒应紧密跟踪AI算力需求和订单变化,当前英伟达Blackwell芯片订单可见度高。互联网泡沫破灭时,思科 存在22亿美元过剩库存,因此应短期监控客户订单、中长期跟踪下游客户需求和资本开支计划。

3.供给:AI芯片加速迭代,算力成本下降助推应用推理侧发展

AI芯片厂商产品迭代加速,英伟达性能优势明显。自2023年以来,英伟达、AMD和博通等AI芯片厂商均积极进行产品迭代。

性能提升帮助算力成本下降,降低AI应用推理运行门槛,帮助硬件和应用形成正向循环。单芯片性能提升、算力集群整体运 行效率增强均帮助单位算力成本下降,有望促进AI应用和产品研发和使用,丰富的AI应用则将为AI算力带来持续需求。

CoWoS:AI芯片扩产瓶颈之一是CoWoS先进封装中的硅中介层(interposer)产能。1)台积电克服土地和厂房等扩产限制, 2025年底CoWoS月产能预计由2024年底4万片翻倍扩至8万片;2)英伟达积极扩展非台积电的CoWoS供应链,吸纳联华电 子和三星电子实现对台积电的产能补充。

HBM:根据TrendForce,英伟达和AMD的AI芯片积极提升搭载HBM规格,由HBM3向HBM3E更迭,由8层堆叠向12层堆叠 更迭,并不断提升HBM容量和内存带宽。