AI网络集群扩展:Scale Out和Scale Up
十万卡、百万卡集群成为行业发展必然趋势。大模型呈现出超百万亿参数、长序列、多模态、推理/测试时计算(test-time scaling)以及物理AI几大明显的 发展趋势,可以预见的是,AI对集群算力的需求仍将保持高速增长的态势,智算集群发展到十万卡甚至百万卡规模已成为行业发展的必然需求。而智算网络 集群的扩展可以分为Scale Out和Scale Up两种模式。在超十万卡规模的智算集群中,由Scale-up网络构成的高带宽域(即超节点域)将扮演着重要的角色。 Scale out(横向扩展,向外扩展):由多个节点组成系统,这种系统的扩展主要以增加节点数量的方式进行,代表的网络协议主要有IB和以太网。 Scale Up(纵向扩展,向上扩展):通过在单一节点内增加CPU、GPU、内存的方式进行扩展,最具代表性的网络协议是NVLink、PCIE。 过去两年,市场关注的重心主要在Scale Out网络(光模块、IB/以太网交换机作为核心网络器件),随着2024年GB200 NVL72机柜的发布,我们认为未来 三年Scale Up网络的投资机会值得重点关注。
Scale Up网络的核心诉求:高带宽、低延时、大规模
Scale Up网络的核心诉求:高带宽、低延时、大规模。高带宽:Scale Up网络的带宽需求大约是Scale Out网络的9倍。NVLink最初是为了解决PCIe带宽不足问题而设计的。当GPU之间的通信带宽需求达到 300GB/s,为了实现8卡之间的高速全互联,出现了第一代NVSwitch芯片。从带宽规模来看,Scale Up使用的NVLink 5.0的带宽在1.8TB/s,同时Scale Out 使用的CX8网卡和1.6T光模块带宽在1.6Tb/s,两者相差9倍。 低延时:通常要求Scale-up网络时延控制在1us以下。Scale-up网络的设计目标是实现细粒度的计算-通信融合,需要低时延的核心原因在于其底层硬件架 构和协议设计直接支持内存级操作与计算任务的无缝协同。大规模:互联规模从8卡到72卡,后续到576卡,乃至千卡规模。从NVIDIA官方透露的未来3年芯片规划来看,Scale-up网络呈现出如下发展趋势:NVLink 接口带宽逐代稳步提升(NVLink5的1.8TB/s到NVlink 6的3.6TB/s),Scale-up互联规模渐进式提升(NVL576到NVL 1k)。
超节点方案是Scale Up网络的升级方向
超节点是Scale Up网络的升级方案,通过高速互联技术整合多块算力芯片形成的规模化计算单元,核心目的是解决AI大模型中的算力协同和效率问题。目 前最为熟知的超节点,就是英伟达的Blackwell NVL72和华为昇腾的384节点。 英伟达GB200 NVL72:首个超节点方案。2024年GTC大会,英伟达首次发布GB200 NVL72方案。公司介绍,GB200 NVL72是一款专门面向万亿参数大模 型训练、推理的产品,例如,在训练MoE(专家混合模型)时,需要多个子模型之间分配计算负载,并在数千个GPU上进行训练。 华为昇腾384超节点:国内超节点方案领先者。2025年4月,华为首次发布昇腾384方案,7月超节点首次在WAIC上展出。通过总线技术实现 384 个 NPU 之间的大带宽低时延互联,解决集群内计算、存储等各资源之间的通信瓶颈。通过系统工程的优化,实现资源的高效调度,让超节点像一台计算机一样工作。
超节点方案核心优势:训练周期更短、推理性价比更高
超节点:Scale Up的当前最优解。通过内部高速总线互连,能够有效支撑并行计算任务,加速GPU之间的参数交换和数据同步,缩短大模型的训练周期。 从AI模型训练的角度,超节点降低训练周期,容纳更大的参数模型。降低训练周期:超节点方案Scale Up网络规模更大,有效转移Scale Out网络的通信负 载,由于Scale Up网络的通信时间远低于Scale Out网络,模型训练时间显著降低。容纳更大的模型参数:由于单节点内容纳卡的数量更多,单一MoE模型 能容纳的参数规模提升,从而提升模型整体的训练效果。英伟达GB200 NVL72的单卡算力是H100的2.5倍,训练效率是H100的4倍。 从AI模型推理的角度,超节点是AI大模型推理最经济的选择。AI推理重视每秒Tokens输出量,而Tokens输出量取决于GPU的算力大小和GPU的算力利用率。 超节点方案能更大限度提升GPU算力利用率,从而提升Tokens输出效率。以英伟达GB200 NVL72为例,GB200单卡的算力规模为H100的2.5倍,而每秒 Tokens输出量为H100的30倍。
超节点方案:NV、HW开发私有协议,CSP引导开放标准
超节点方案可以分为私有协议方案和开放组织方案两类。而在国内市场,单卡算力瓶颈下,超节点寻求突围。私有协议方案:NVLink(英伟达)、UBLink(华为)。私有协议方案需求更强的网络自研能力,英伟达/麦洛斯和华为都是全球范围内通信网络技术领先者。开放组织方案:UA Link(以AMD和英特尔为代表)、SUE(博通)、ETH-X(腾讯主导)。开放组织方案,CSP客户为主要领导者,联合开发、共同使用。
英伟达(NVLink):5代方案,已实现1800GB/s全互联
NVLink有效提升GPU互联带宽。GPU显存的速度快但容量小,CPU内存的速度慢但容量大。因为内存系统的差异,加速的计算应用一般先把数据从网络或 磁盘移至CPU内存,然后再复制到GPU显存,数据才可以被GPU处理。在NVLink技术出现之前,GPU需要通过PCIe接口连接至CPU,但PCIe接口太落后, 限制了GPU存取CPU系统内存的能力,对比CPU内存系统要慢4-5倍。有了NVLink之后,NVLink接口可以和一般CPU内存系统的带宽相匹配,让GPU以全 带宽的速度存取CPU内存,解决了CPU和GPU之间的互联带宽问题,从而大幅提升系统性能。
为实现GPU之间的ALL-to-ALL互联,引入NV Switch。NVSwitch是用于Scale-Up的交换芯片,自2018年的V系列引入,至今已经有4代产品。2022年,英 伟达将原本位于计算节点内部的NVSwitch独立出来,形成NVLink交换机。2024年,英伟达的Blackwell系列推出NVL72机型,内含18个Compute Tray(72 个GPU)和9个Switch Tray(18个NVSwitch芯片)。
UALink(AMD):打破NVLink的垄断地位
UALink的成立是为了打破英伟达NVLink在Scale-Up网络的垄断地位。2024年5月,谷歌、META、微软、AMD、英特尔、博通、思科、惠普八家科技巨头 宣布,成立Ultra Accelerator Link“超级加速链路”联盟(UALink)。该联盟旨在制定人工智能数据中心加速器间互联的开放行业标准,通过纵向扩展互连 (Scale Up)技术实现对1024个加速器的超大规模集群支持,直接对标英伟达NVLink技术体系。2025年3月,联盟成员已扩展至80余家,涵盖云服务商、 芯片制造商及系统集成商,并在25年4月发布第一版行业标准。
联盟聚焦三大任务:制定支持多厂商加速器互联的标准协议,UALink 1.0版本将实现单通道200Gbps传输速率及1024个加速器互连能力;UALink 规范可在 单个 AI 计算 Pod中的最多1024 个加速器间实现每通道 200Gbps的纵向扩展连接,同时具有以太网的原始速度和 PCIe 交换的延迟。
华为(UB):美国制裁下的独立自研之路
2019年华为进入实体清单,无法参与PCIe协议更新,走向自研之路。2019 年,华为被美国加入实体清单,JEDEC、SDA、PCI-SIG等国际网络协议组织, 撤销了华为的会员资格。因此,华为无法继续参与PCIe协议的更新和使用,于是自研开发了“统一总线”Unified Bus(UB),用于替代以太网、PCIe协议。 2021年,APNet 2021大会谭焜博士公开展示了UB网络架构。
与NVLink不同,UB架构同时适用于Scale-Up和Scale-Out。2025年3月,华为团队发布论文《UB-Mesh:一种层次化局部化的全连接数据中心网络架构》, 核心问题就是解答如何利用UB网络多快好省地搭出支持万卡甚至十万卡AI芯片。与英伟达的多样化互联技术(Scale Up使用NVlink,Scale Out使用IB网络) 不同,UB采用统一总线技术实现所有组件的互联。多样化互联技术,需要在不同协议之间来回切换,而UB很好的解决了这一点,统一标准下通信效率提升。
ETH-X(腾讯):基于以太网升级,已出原型机
信通院&腾讯牵头设计,首台原型机于25年4月点亮。在ODCC(开放数据中心委员会)网络工作组的指导下,牵头设计符合ETH-X超节点架构的整机柜服 务器,成功打造了一款集高密度、绿色、智能于一体的三总线架构液冷整机柜系统,并在2024年9月正式发布《ETH-X 超节点 AI 整机柜设计规范》。2025 年4月,ETH-X超节点首台原型机正式点亮。
基于以太网RoCE升级。ODCC(开放数据中心委员会)基于以太网RoCE技术提出了ETH-X方案。ETH-X方案实现多GPU通信互联,实测跨卡数据访问时 延降低12.7倍 ,可适用于8~512卡超节点。从机柜架构来看,整个系统有16个Compute Tray和8个Switch Tray。系统内通过 51.2Tbps交换芯片 (英伟达 NVSwitch容量的 1.78倍)实现业界最高密度6144根Cable tray互联及最大307.2Tbps多柜并联带宽。
Scale Up交换机/交换芯片用量显著提升
交换机/交换芯片从Scale Out场景走向Scale Up场景,开放标准有望实现突围。交换机/交换芯片的使用场景主要集中在Scale Out层面。在Scale Out网络 上,以太网方案份额逐步提升,而偏向专用的IB网络规模下降。在Scale Up网络上,基于以太网方案的Scale Up开放路线,有望实现对于NVlink网络的突围。
Scale Up交换机/交换芯片对带宽、时延要求更高。以GB200 NVL72机柜为例,在Scale Out网络上采用1.6Tb/s的光模块,因此GPU之间的互联带宽为 1.6Tb/s;而在Scale Up网络上,NVLink5.0速率达到1800GB/s,是Scale Out网络的9倍。同时,Scale Up的时延要求在1us以内。
Scale Up交换机/交换芯片用量显著提升。以H100标准的两层网络架构来看,127张H100 GPU需求32台Leaf交换机和16台Spine交换机,GPU:交换芯片 配比为2.67:1。而进入超节点时代,以GB200 NVL72网络架构来看,72张B200 GPU新增18张NVSwitch需求,GPU:交换芯片配比为4:1,整体配比增 长至6.67:1。随着ASIC机柜方案的渗透率提升,AI网络市场对于交换机/交换芯片的需求呈现爆发性增长。
ALAB:25年底推出基于PCIe技术的Scale Up交换芯片
Astera Labs提供PCIe、CXL、以太网的switch芯片。公司核心产品之一是数据中心连接半导体,可释放云和AI基础设施的潜力,其智能连接平台集成 PCIe、CXL 和基于以太网半导体的解决方案。Astera Labs的客户包括行业巨头如亚马逊和微软。
2025Q2公司业绩高增,交换芯片表现亮眼。25Q2公司实现收入1.919亿美元,同比增长近150%,主要受益于信号收发器和Scorpio P交换芯片的亮眼表现。 Scorpio P系列支持PCIe 6.0 Scale Out扩展。
25年底将推出面向Scale Up的交换芯片,并于2026年投入生产。公司支持多种互连协议,包括用于纵向扩展的 UALink 和 PCIe、用于横向扩展的以太网和 用于内存的 CXL。公司看好对 UALink 纵向扩展连接标准发展,通过结合 PCIe 的低延迟和以太网的快速数据速率来提供一流的端到端延迟和带宽。
公司认为到 2030 年,仅机架级 AI 基础设施的纵向扩展连接就将为ALAB增加近 50 亿美元的市场机会。
海外超节点渗透率快速攀升
我们预计,25-27年海外超节点渗透率为19%、45%、72%,长期稳定在75%左右。 英伟达:我们预测25-27年机柜出货量分别为2.8、7、10万柜(按照等效72卡机柜),渗透率分别为37%、71%、85% 。ASIC:我们预测25-27年机柜出货量分别为0、1.4、6.8万柜(按照等效72卡机柜),渗透率分别为0%、20%、60%。
国内超节点渗透率或将加速追赶
英伟达于2024年推出GB200 NVL72机柜,华为于2025年推出384超节点。因此我们假设国内超节点渗透率进展落后海外市场一年。我们预计,2025-2028年国内超节点渗透率分别为5%、19%、45%、72%。



(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)