如何看待浪潮信息的竞争优势？ - 问答集锦

最佳答案由匿名用户编辑于2024/11/06 10:34

新一轮 AI 驱动变革，四大技术趋势看浪潮优势。

1.趋势一：互联规模扩大，技术壁垒提升

服务器集群规模代表计算能力，Scaling Law 下决定模型性能。AI 服务器集群是为了解决大模型训练过程中单卡算力、内存不足的问题。集群性能直接决定前两个因素，代表计算能力，为 AI 发展的基石。集群组网普遍采用胖树架构，通信效率决定集群性能。集群普遍采用胖树组网：底层为 AI 服务器，服务器内一般搭载 8 个 GPU，通过 PCIe 或 NVLink 片间互联；上层为交换网络，通过以太网或 Infiniband 实现服务器间互联。两层互联间通信带宽差距较大，且在网络交换中需要经过交换机等设备，时延提升，通信效率下降。

片间互联：NVLink 由英伟达独家掌握，其它厂商片间互联均基于传统的 PCIe 设计。从互联拓扑看，NVLink 核心优势来自通过 NVSwitch 构建的全互联，与 PCIe 的网状拓扑相比，NVLink 使 GPU 一对一、一对多互联带宽均达到 900GB/s。在对外总带宽接近的情况下（900GB/s≈128GB/s*7），NVLink 4.0 一对一带宽为 PCIe 5.0 的 7 倍，带宽弹性极大，应对通信峰值的能力提升，集群效果显著提升。

NVLink 产品集成度高，服务器设计空间缩小。产品形态上，英伟达以模组形式向服务器厂商提供 NVLink 产品，以 HGX 模组为例，NVLink 和 NVSwitch 集成于一块基板，基板上提供 8 个 SXM 插槽用于安装 GPU。与使用 PCIe 片间互联的服务器相比，服务器厂商设计与采购的空间缩小。我们认为，AI 服务器设计制造的核心在于 GPU 片间互联的实现，浪潮积累深厚。

深度参与英伟达 AI 服务器研发，NVLink 产品设计能力领先。2017 年，公司携手英伟达推出 AGX-2，为国内最早参与 NVLink 服务器设计的厂商，伴随 NVLink 及 HGX、 DGX 等 NVLink 产品的不断迭代，积累了大量设计经验。公司 PCIe 设计能力加速国产 GPU 到 AI 服务器产品的落地。PCIe 为 x86 体系中重要连接技术，在通用服务器中广泛应用，公司具备成熟的设计能力。除英伟达外，其它厂商片间互联均基于 PCIe，公司能够赋能国产 GPU 的服务器产品落地和互联性能的优化。

服务器互联：以太网与 Infiniband 的区别来自网络传输模型中的数据链路层。领先规模为万卡集群，以太网性价比不输 Infiniband。当前，海外厂商集群规模达到万卡级别。根据 META，其打造了两个 2.4 万张 H100 组成的 AI 集群，分别使用了以太网与 Infiniband 网络，接入带宽均为 400Gbps。通过软硬件调试，两个集群都能够进行 Llama3 大模型的训练，没有遇到网络瓶颈。考虑到以太网具有性价比，预计未来在 AI 集群网络中以太网与 Infiniband 二元共存的局面将继续保持。

浪潮 AI 以太网交换机打开增量空间。2024 年，浪潮发布面向 AI 的超级以太网交换机 X400，为国内首款基于英伟达 Spectrum-X 平台打造的以太网交换机。X400 除了与高性能通信库 NCCL 无缝衔接外，软件层面 AutoECN、RTT-CC、自适应路由等优化进一步提升性能，较国内主流基于博通 Tomahawk5 的交换机在 AI 场景具有优势。交换机与 AI 服务器下游场景高度绑定，公司渠道成熟，未来交换机产品将打开公司利润增量空间。

2. 趋势二：训推芯片分离，改善下游结构

大模型训推的芯片瓶颈不同。算力芯片的核心指标包括算力和内存，算力决定计算时长，内存决定能够容纳的模型参数量。大模型训练时，训练时长为主要瓶颈，因此需要构建大型集群加快训练速度，相对于算力，内存不构成限制；而推理的主要瓶颈为内存，在内存要求满足的情况下，算力不构成限制。英伟达主动删减 NVLink，训推分化提升性价比。英伟达 Ada Lovelace 架构代表产品为 RTX4090，因单价较低、具有 RT 核心提升图像性能，被大量应用于生成式模型的推理。 2023 年，英伟达推出 Ada Lovelace 架构的下一代产品 L40S，与 H100 相比，L40S 取消 NVLink 并降低芯片数值，但 RT 核心具有更好的光线追踪性能和 DLSS 画质提升技术，使 L40S 推理性价比和图形/视频类性能有所提升。

国产 GPU 从推理起步，训推同步发展。国产 GPU 起步较晚，初期 GPU 互联技术相对欠缺使得国产 GPU 无法集群使用，在训练环节渗透率低；而在算力、内存等单卡性能上具有可用性，因此国产卡更多应用于推理端。随着互联技术提升，国产厂商推出适用于规模化集群的国产 GPU，形成训练与推理两条产品线同步发展。

推理需求格局相对分散，改善浪潮客户结构。产品形态上，训推分离不会改变现有八卡服务器形态，芯片价格下降+互联、网络相关硬件有所删减，服务器单价下降；客户结构上，训推分离带来更多中小 B 端客户和算力租赁客户，相对大模型训练厂商更加分散，服务器厂商议价权提升。浪潮在产业链上游优势明显，在推理市场获客上具有优势，未来推理市场分化成熟将带来毛利率改善。

3. 趋势三：功率密度提升，液冷加速渗透

液冷将成为下一代 AI 服务器标配。当前，服务器机架一般搭载两台 AI 服务器，共 16 张 GPU，风冷尚能满足制冷需求。根据超微电脑，英伟达新推出的 B 系列产品中 GB200 NVL72 服务器功率将达到 100-120kW，液冷成为必选项。我们预计，随着片间互联技术的发展，服务器内搭载的 GPU 数量增加，功率密度提升使液冷服务器将成为中期趋势。国内液冷服务器格局集中，互联网仍为最大下游。根据 IDC，2023 年国内液冷服务器市场 CR3 分别为浪潮、超聚变和宁畅，占比超过 70%。从下游客户看，液冷最大需求来自互联网。

我们预计，芯片数量上升、机架功率密度提升带动液冷渗透率提升将成为 AI 服务器中期发展的大趋势，浪潮保持一贯的先发姿态，提前完成布局。浪潮提前布局液冷，建立亚洲最大产能。2022 年，公司发布“All in 液冷”战略，建立亚洲最大的液冷产能天池基地，液冷服务器产能 10 万台/年。液冷服务器比同类风冷服务器价值量预计有所提升，通过规模效应和自研设计，对毛利率具有拉动作用。液冷将提升公司产品布局的深度，保持公司在 AI 服务器领域的先发优势。

4.趋势四：AI 应用落地，端侧需求增加

端侧 AI 服务器需求主要来自 B 端 AI 私有云部署。当前 AI 服务主要通过公有云进行输出，需要将数据联网传输，存在外泄风险，安全性和稳定性不足。未来 AI 应用深入 B 端生产管理流程，需要触达核心数据和生产管理，通过企业私有知识库对 AI 进行定向训练，保证 AI 能力，私有云部署将成为解决方案。端侧训练主要针对模型微调，弱化互联需求。训推一体机上实施的训练主要指模型微调，制约因素仍为 GPU 内存，消耗最大的全参数微调 1B 参数约占用 20GB 内存，70B 的 Llama3 需要约 18 张 A100。实际应用中，全参数微调一般在出厂前定制完成，后续采用的 PEFT 高效微调内存需求降低，弱化 GPU 互联需求。

浪潮已发布边缘大模型一体机，复用边缘 CPU 服务器能力。硬件端，公司 AI 服务器、 CPU 边缘计算产品的能力能够复用，公司开发的 AIStation 管理平台提供算力资源和 AI 开发的基础软件平台。大模型端，公司已发布千亿参数“源 2.0”开源大模型，同时大模型厂商本身就是公司 AI 服务器客户，已具备合作关系，打通新业务模式难度较低。远期看，端侧 AI 服务器将成为公司新增长点。