新一轮 AI 驱动变革,四大技术趋势看浪潮优势。
服务器集群规模代表计算能力,Scaling Law 下决定模型性能。AI 服务器集群是为了 解决大模型训练过程中单卡算力、内存不足的问题。集群性能直接决定前两个因素,代表 计算能力,为 AI 发展的基石。 集群组网普遍采用胖树架构,通信效率决定集群性能。集群普遍采用胖树组网:底层 为 AI 服务器,服务器内一般搭载 8 个 GPU,通过 PCIe 或 NVLink 片间互联;上层为交换网络,通过以太网或 Infiniband 实现服务器间互联。两层互联间通信带宽差距较大,且在 网络交换中需要经过交换机等设备,时延提升,通信效率下降。
片间互联:NVLink 由英伟达独家掌握,其它厂商片间互联均基于传统的 PCIe 设计。 从互联拓扑看,NVLink 核心优势来自通过 NVSwitch 构建的全互联,与 PCIe 的网状拓扑 相比,NVLink 使 GPU 一对一、一对多互联带宽均达到 900GB/s。在对外总带宽接近的情 况下(900GB/s≈128GB/s*7),NVLink 4.0 一对一带宽为 PCIe 5.0 的 7 倍,带宽弹性极 大,应对通信峰值的能力提升,集群效果显著提升。
NVLink 产品集成度高,服务器设计空间缩小。产品形态上,英伟达以模组形式向服 务器厂商提供 NVLink 产品,以 HGX 模组为例,NVLink 和 NVSwitch 集成于一块基板, 基板上提供 8 个 SXM 插槽用于安装 GPU。与使用 PCIe 片间互联的服务器相比,服务器厂 商设计与采购的空间缩小。 我们认为,AI 服务器设计制造的核心在于 GPU 片间互联的实现,浪潮积累深厚。
深度参与英伟达 AI 服务器研发,NVLink 产品设计能力领先。2017 年,公司携手英 伟达推出 AGX-2,为国内最早参与 NVLink 服务器设计的厂商,伴随 NVLink 及 HGX、 DGX 等 NVLink 产品的不断迭代,积累了大量设计经验。 公司 PCIe 设计能力加速国产 GPU 到 AI 服务器产品的落地。PCIe 为 x86 体系中重要 连接技术,在通用服务器中广泛应用,公司具备成熟的设计能力。除英伟达外,其它厂商 片间互联均基于 PCIe,公司能够赋能国产 GPU 的服务器产品落地和互联性能的优化。
服务器互联:以太网与 Infiniband 的区别来自网络传输模型中的数据链路层。 领先规模为万卡集群,以太网性价比不输 Infiniband。当前,海外厂商集群规模达到 万卡级别。根据 META,其打造了两个 2.4 万张 H100 组成的 AI 集群,分别使用了以太网 与 Infiniband 网络,接入带宽均为 400Gbps。通过软硬件调试,两个集群都能够进行 Llama3 大模型的训练,没有遇到网络瓶颈。考虑到以太网具有性价比,预计未来在 AI 集 群网络中以太网与 Infiniband 二元共存的局面将继续保持。
浪潮 AI 以太网交换机打开增量空间。2024 年,浪潮发布面向 AI 的超级以太网交换机 X400,为国内首款基于英伟达 Spectrum-X 平台打造的以太网交换机。X400 除了与高性 能通信库 NCCL 无缝衔接外,软件层面 AutoECN、RTT-CC、自适应路由等优化进一步提 升性能,较国内主流基于博通 Tomahawk5 的交换机在 AI 场景具有优势。交换机与 AI 服 务器下游场景高度绑定,公司渠道成熟,未来交换机产品将打开公司利润增量空间。
大模型训推的芯片瓶颈不同。算力芯片的核心指标包括算力和内存,算力决定计算时 长,内存决定能够容纳的模型参数量。大模型训练时,训练时长为主要瓶颈,因此需要构 建大型集群加快训练速度,相对于算力,内存不构成限制;而推理的主要瓶颈为内存,在 内存要求满足的情况下,算力不构成限制。 英伟达主动删减 NVLink,训推分化提升性价比。英伟达 Ada Lovelace 架构代表产品 为 RTX4090,因单价较低、具有 RT 核心提升图像性能,被大量应用于生成式模型的推理。 2023 年,英伟达推出 Ada Lovelace 架构的下一代产品 L40S,与 H100 相比,L40S 取消 NVLink 并降低芯片数值,但 RT 核心具有更好的光线追踪性能和 DLSS 画质提升技术,使 L40S 推理性价比和图形/视频类性能有所提升。
国产 GPU 从推理起步,训推同步发展。国产 GPU 起步较晚, 初期 GPU 互联技术相 对欠缺使得国产 GPU 无法集群使用,在训练环节渗透率低;而在算力、内存等单卡性能上 具有可用性,因此国产卡更多应用于推理端。随着互联技术提升,国产厂商推出适用于规 模化集群的国产 GPU,形成训练与推理两条产品线同步发展。
推理需求格局相对分散,改善浪潮客户结构。产品形态上,训推分离不会改变现有八 卡服务器形态,芯片价格下降+互联、网络相关硬件有所删减,服务器单价下降;客户结构 上,训推分离带来更多中小 B 端客户和算力租赁客户,相对大模型训练厂商更加分散,服 务器厂商议价权提升。浪潮在产业链上游优势明显,在推理市场获客上具有优势,未来推 理市场分化成熟将带来毛利率改善。
液冷将成为下一代 AI 服务器标配。当前,服务器机架一般搭载两台 AI 服务器,共 16 张 GPU,风冷尚能满足制冷需求。根据超微电脑,英伟达新推出的 B 系列产品中 GB200 NVL72 服务器功率将达到 100-120kW,液冷成为必选项。我们预计,随着片间互联技术 的发展,服务器内搭载的 GPU 数量增加,功率密度提升使液冷服务器将成为中期趋势。 国内液冷服务器格局集中,互联网仍为最大下游。根据 IDC,2023 年国内液冷服务器 市场 CR3 分别为浪潮、超聚变和宁畅,占比超过 70%。从下游客户看,液冷最大需求来自 互联网。

我们预计,芯片数量上升、机架功率密度提升带动液冷渗透率提升将成为 AI 服务器中 期发展的大趋势,浪潮保持一贯的先发姿态,提前完成布局。 浪潮提前布局液冷,建立亚洲最大产能。2022 年,公司发布“All in 液冷”战略,建 立亚洲最大的液冷产能天池基地,液冷服务器产能 10 万台/年。液冷服务器比同类风冷服 务器价值量预计有所提升,通过规模效应和自研设计,对毛利率具有拉动作用。液冷将提 升公司产品布局的深度,保持公司在 AI 服务器领域的先发优势。
端侧 AI 服务器需求主要来自 B 端 AI 私有云部署。当前 AI 服务主要通过公有云进行输 出,需要将数据联网传输,存在外泄风险,安全性和稳定性不足。未来 AI 应用深入 B 端生 产管理流程,需要触达核心数据和生产管理,通过企业私有知识库对 AI 进行定向训练,保 证 AI 能力,私有云部署将成为解决方案。 端侧训练主要针对模型微调,弱化互联需求。训推一体机上实施的训练主要指模型微 调,制约因素仍为 GPU 内存,消耗最大的全参数微调 1B 参数约占用 20GB 内存,70B 的 Llama3 需要约 18 张 A100。实际应用中,全参数微调一般在出厂前定制完成,后续采用 的 PEFT 高效微调内存需求降低,弱化 GPU 互联需求。
浪潮已发布边缘大模型一体机,复用边缘 CPU 服务器能力。硬件端,公司 AI 服务器、 CPU 边缘计算产品的能力能够复用,公司开发的 AIStation 管理平台提供算力资源和 AI 开发的基础软件平台。大模型端,公司已发布千亿参数“源 2.0”开源大模型,同时大模型 厂商本身就是公司 AI 服务器客户,已具备合作关系,打通新业务模式难度较低。远期看, 端侧 AI 服务器将成为公司新增长点。