2025年计算机行业分析：国产算力迎来GB200时刻，AI交换网络是核心增量

浙商证券2025/08/21
举报

超节点：Scale Up网络最优解

AI网络集群扩展：Scale Out和Scale Up

十万卡、百万卡集群成为行业发展必然趋势。大模型呈现出超百万亿参数、长序列、多模态、推理/测试时计算（test-time scaling）以及物理AI几大明显的发展趋势，可以预见的是，AI对集群算力的需求仍将保持高速增长的态势，智算集群发展到十万卡甚至百万卡规模已成为行业发展的必然需求。而智算网络集群的扩展可以分为Scale Out和Scale Up两种模式。在超十万卡规模的智算集群中，由Scale-up网络构成的高带宽域（即超节点域）将扮演着重要的角色。 Scale out（横向扩展，向外扩展）：由多个节点组成系统，这种系统的扩展主要以增加节点数量的方式进行，代表的网络协议主要有IB和以太网。 Scale Up（纵向扩展，向上扩展）：通过在单一节点内增加CPU、GPU、内存的方式进行扩展，最具代表性的网络协议是NVLink、PCIE。过去两年，市场关注的重心主要在Scale Out网络（光模块、IB/以太网交换机作为核心网络器件），随着2024年GB200 NVL72机柜的发布，我们认为未来三年Scale Up网络的投资机会值得重点关注。

Scale Up网络的核心诉求：高带宽、低延时、大规模

Scale Up网络的核心诉求：高带宽、低延时、大规模。高带宽：Scale Up网络的带宽需求大约是Scale Out网络的9倍。NVLink最初是为了解决PCIe带宽不足问题而设计的。当GPU之间的通信带宽需求达到 300GB/s，为了实现8卡之间的高速全互联，出现了第一代NVSwitch芯片。从带宽规模来看，Scale Up使用的NVLink 5.0的带宽在1.8TB/s，同时Scale Out 使用的CX8网卡和1.6T光模块带宽在1.6Tb/s，两者相差9倍。低延时：通常要求Scale-up网络时延控制在1us以下。Scale-up网络的设计目标是实现细粒度的计算-通信融合，需要低时延的核心原因在于其底层硬件架构和协议设计直接支持内存级操作与计算任务的无缝协同。大规模：互联规模从8卡到72卡，后续到576卡，乃至千卡规模。从NVIDIA官方透露的未来3年芯片规划来看，Scale-up网络呈现出如下发展趋势：NVLink 接口带宽逐代稳步提升（NVLink5的1.8TB/s到NVlink 6的3.6TB/s），Scale-up互联规模渐进式提升（NVL576到NVL 1k）。

超节点方案是Scale Up网络的升级方向

超节点是Scale Up网络的升级方案，通过高速互联技术整合多块算力芯片形成的规模化计算单元，核心目的是解决AI大模型中的算力协同和效率问题。目前最为熟知的超节点，就是英伟达的Blackwell NVL72和华为昇腾的384节点。英伟达GB200 NVL72：首个超节点方案。2024年GTC大会，英伟达首次发布GB200 NVL72方案。公司介绍，GB200 NVL72是一款专门面向万亿参数大模型训练、推理的产品，例如，在训练MoE（专家混合模型）时，需要多个子模型之间分配计算负载，并在数千个GPU上进行训练。华为昇腾384超节点：国内超节点方案领先者。2025年4月，华为首次发布昇腾384方案，7月超节点首次在WAIC上展出。通过总线技术实现 384 个 NPU 之间的大带宽低时延互联，解决集群内计算、存储等各资源之间的通信瓶颈。通过系统工程的优化，实现资源的高效调度，让超节点像一台计算机一样工作。

超节点方案核心优势：训练周期更短、推理性价比更高

超节点：Scale Up的当前最优解。通过内部高速总线互连，能够有效支撑并行计算任务，加速GPU之间的参数交换和数据同步，缩短大模型的训练周期。从AI模型训练的角度，超节点降低训练周期，容纳更大的参数模型。降低训练周期：超节点方案Scale Up网络规模更大，有效转移Scale Out网络的通信负载，由于Scale Up网络的通信时间远低于Scale Out网络，模型训练时间显著降低。容纳更大的模型参数：由于单节点内容纳卡的数量更多，单一MoE模型能容纳的参数规模提升，从而提升模型整体的训练效果。英伟达GB200 NVL72的单卡算力是H100的2.5倍，训练效率是H100的4倍。从AI模型推理的角度，超节点是AI大模型推理最经济的选择。AI推理重视每秒Tokens输出量，而Tokens输出量取决于GPU的算力大小和GPU的算力利用率。超节点方案能更大限度提升GPU算力利用率，从而提升Tokens输出效率。以英伟达GB200 NVL72为例，GB200单卡的算力规模为H100的2.5倍，而每秒 Tokens输出量为H100的30倍。

超节点：NVLink全球领跑，国内厂商快速跟上

超节点方案：NV、HW开发私有协议，CSP引导开放标准

超节点方案可以分为私有协议方案和开放组织方案两类。而在国内市场，单卡算力瓶颈下，超节点寻求突围。私有协议方案：NVLink（英伟达）、UBLink（华为）。私有协议方案需求更强的网络自研能力，英伟达/麦洛斯和华为都是全球范围内通信网络技术领先者。开放组织方案：UA Link（以AMD和英特尔为代表）、SUE（博通）、ETH-X（腾讯主导）。开放组织方案，CSP客户为主要领导者，联合开发、共同使用。

英伟达（NVLink）：5代方案，已实现1800GB/s全互联

NVLink有效提升GPU互联带宽。GPU显存的速度快但容量小，CPU内存的速度慢但容量大。因为内存系统的差异，加速的计算应用一般先把数据从网络或磁盘移至CPU内存，然后再复制到GPU显存，数据才可以被GPU处理。在NVLink技术出现之前，GPU需要通过PCIe接口连接至CPU，但PCIe接口太落后，限制了GPU存取CPU系统内存的能力，对比CPU内存系统要慢4-5倍。有了NVLink之后，NVLink接口可以和一般CPU内存系统的带宽相匹配，让GPU以全带宽的速度存取CPU内存，解决了CPU和GPU之间的互联带宽问题，从而大幅提升系统性能。

为实现GPU之间的ALL-to-ALL互联，引入NV Switch。NVSwitch是用于Scale-Up的交换芯片，自2018年的V系列引入，至今已经有4代产品。2022年，英伟达将原本位于计算节点内部的NVSwitch独立出来，形成NVLink交换机。2024年，英伟达的Blackwell系列推出NVL72机型，内含18个Compute Tray（72 个GPU）和9个Switch Tray（18个NVSwitch芯片）。

UALink（AMD）：打破NVLink的垄断地位

UALink的成立是为了打破英伟达NVLink在Scale-Up网络的垄断地位。2024年5月，谷歌、META、微软、AMD、英特尔、博通、思科、惠普八家科技巨头宣布，成立Ultra Accelerator Link“超级加速链路”联盟（UALink）。该联盟旨在制定人工智能数据中心加速器间互联的开放行业标准，通过纵向扩展互连（Scale Up）技术实现对1024个加速器的超大规模集群支持，直接对标英伟达NVLink技术体系。2025年3月，联盟成员已扩展至80余家，涵盖云服务商、芯片制造商及系统集成商，并在25年4月发布第一版行业标准。

联盟聚焦三大任务：制定支持多厂商加速器互联的标准协议，UALink 1.0版本将实现单通道200Gbps传输速率及1024个加速器互连能力；UALink 规范可在单个 AI 计算 Pod中的最多1024 个加速器间实现每通道 200Gbps的纵向扩展连接，同时具有以太网的原始速度和 PCIe 交换的延迟。

华为（UB）：美国制裁下的独立自研之路

2019年华为进入实体清单，无法参与PCIe协议更新，走向自研之路。2019 年，华为被美国加入实体清单，JEDEC、SDA、PCI-SIG等国际网络协议组织，撤销了华为的会员资格。因此，华为无法继续参与PCIe协议的更新和使用，于是自研开发了“统一总线”Unified Bus（UB），用于替代以太网、PCIe协议。 2021年，APNet 2021大会谭焜博士公开展示了UB网络架构。

与NVLink不同，UB架构同时适用于Scale-Up和Scale-Out。2025年3月，华为团队发布论文《UB-Mesh：一种层次化局部化的全连接数据中心网络架构》，核心问题就是解答如何利用UB网络多快好省地搭出支持万卡甚至十万卡AI芯片。与英伟达的多样化互联技术（Scale Up使用NVlink，Scale Out使用IB网络）不同，UB采用统一总线技术实现所有组件的互联。多样化互联技术，需要在不同协议之间来回切换，而UB很好的解决了这一点，统一标准下通信效率提升。

ETH-X（腾讯）：基于以太网升级，已出原型机

信通院&腾讯牵头设计，首台原型机于25年4月点亮。在ODCC（开放数据中心委员会）网络工作组的指导下，牵头设计符合ETH-X超节点架构的整机柜服务器，成功打造了一款集高密度、绿色、智能于一体的三总线架构液冷整机柜系统，并在2024年9月正式发布《ETH-X 超节点 AI 整机柜设计规范》。2025 年4月，ETH-X超节点首台原型机正式点亮。

基于以太网RoCE升级。ODCC（开放数据中心委员会）基于以太网RoCE技术提出了ETH-X方案。ETH-X方案实现多GPU通信互联，实测跨卡数据访问时延降低12.7倍，可适用于8~512卡超节点。从机柜架构来看，整个系统有16个Compute Tray和8个Switch Tray。系统内通过 51.2Tbps交换芯片 (英伟达 NVSwitch容量的 1.78倍)实现业界最高密度6144根Cable tray互联及最大307.2Tbps多柜并联带宽。

Scale Up Switch是超节点核心增量

Scale Up交换机/交换芯片用量显著提升

交换机/交换芯片从Scale Out场景走向Scale Up场景，开放标准有望实现突围。交换机/交换芯片的使用场景主要集中在Scale Out层面。在Scale Out网络上，以太网方案份额逐步提升，而偏向专用的IB网络规模下降。在Scale Up网络上，基于以太网方案的Scale Up开放路线，有望实现对于NVlink网络的突围。

Scale Up交换机/交换芯片对带宽、时延要求更高。以GB200 NVL72机柜为例，在Scale Out网络上采用1.6Tb/s的光模块，因此GPU之间的互联带宽为 1.6Tb/s；而在Scale Up网络上，NVLink5.0速率达到1800GB/s，是Scale Out网络的9倍。同时，Scale Up的时延要求在1us以内。

Scale Up交换机/交换芯片用量显著提升。以H100标准的两层网络架构来看，127张H100 GPU需求32台Leaf交换机和16台Spine交换机，GPU：交换芯片配比为2.67：1。而进入超节点时代，以GB200 NVL72网络架构来看，72张B200 GPU新增18张NVSwitch需求，GPU：交换芯片配比为4：1，整体配比增长至6.67：1。随着ASIC机柜方案的渗透率提升，AI网络市场对于交换机/交换芯片的需求呈现爆发性增长。

ALAB：25年底推出基于PCIe技术的Scale Up交换芯片

Astera Labs提供PCIe、CXL、以太网的switch芯片。公司核心产品之一是数据中心连接半导体，可释放云和AI基础设施的潜力，其智能连接平台集成 PCIe、CXL 和基于以太网半导体的解决方案。Astera Labs的客户包括行业巨头如亚马逊和微软。

2025Q2公司业绩高增，交换芯片表现亮眼。25Q2公司实现收入1.919亿美元，同比增长近150%，主要受益于信号收发器和Scorpio P交换芯片的亮眼表现。 Scorpio P系列支持PCIe 6.0 Scale Out扩展。

25年底将推出面向Scale Up的交换芯片，并于2026年投入生产。公司支持多种互连协议，包括用于纵向扩展的 UALink 和 PCIe、用于横向扩展的以太网和用于内存的 CXL。公司看好对 UALink 纵向扩展连接标准发展，通过结合 PCIe 的低延迟和以太网的快速数据速率来提供一流的端到端延迟和带宽。

公司认为到 2030 年，仅机架级 AI 基础设施的纵向扩展连接就将为ALAB增加近 50 亿美元的市场机会。

国内：Scale Up有望再造1个交换网络市场

海外超节点渗透率快速攀升

我们预计，25-27年海外超节点渗透率为19%、45%、72%，长期稳定在75%左右。英伟达：我们预测25-27年机柜出货量分别为2.8、7、10万柜（按照等效72卡机柜），渗透率分别为37%、71%、85% 。ASIC：我们预测25-27年机柜出货量分别为0、1.4、6.8万柜（按照等效72卡机柜），渗透率分别为0%、20%、60%。

国内超节点渗透率或将加速追赶

英伟达于2024年推出GB200 NVL72机柜，华为于2025年推出384超节点。因此我们假设国内超节点渗透率进展落后海外市场一年。我们预计，2025-2028年国内超节点渗透率分别为5%、19%、45%、72%。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）