大语言模型(LLM)参数规模从千亿级向万亿级乃至十万亿级演进,跨服务器张量并行(TP)成为必然选择; 此外混合专家(MoE)模型在 Transformer 架构 LLM 中的规模化应用,更使跨服务器专家并行(EP)成为 分布式训练和推理的关键技术需求。为应对 TP 和 EP 对网络带宽与延迟的极为严苛的要求,构建超高带宽、 超低延迟的 Scale up 网络(纵向扩张网络)成为业界主流技术路径。

根据阿里云给出的定义为:Scale up 是在一定范围内,于成本和互联技术约束下实现的超高带宽互联。其 范围固定且带宽是 Scale out 的数倍以上,可在协议层面优化以支持内存语义。我们对 Scale up 网络与 Scale out 网络特点对比如下: Scale up(左)vs Scale out(右)。 算力规模:数十卡至千卡级 vs 万卡至十万卡级; 资源利用率:80%以上 vs 30%-50%; 通信延迟:百纳秒级 vs 微秒级; 内存访问:统一内存或全局地址空间 vs 独立内存空间; 标准化:定制化程度高 vs 基于开放网络标准,相对统一。
超节点主要由计算节点、交换节点和 Scale-up 网络互联构成。通过 Scale up 网络,可将几十、上百甚至上 千张 XPU 高速互联构建为超节点(SuperPoD),像一台超级 XPU 服务器一样实现高效的计算和通信协同 能力。 其中 Scale up 网络互联是超节点的核心要素。Scale up 网络互联方案直接影响超节点系统的功耗、散热、 成本、规模、可靠性和可维护性等关键指标。目前主流的互联方案有铜缆互联和光纤互联两大类:
铜缆互联方案(如英伟达的 NVL72 超节点及 NVSwitch Scale-Up 网络采用的 DAC 即无源铜缆技术) 具有功耗低、成本低、可靠性高的明显优势。不过,受限于铜缆的信号传输距离,单个超节点的规模较 小,目前商用的英伟达 NVL72 超节点最大支持 72 张 XPU 卡。
光纤互联方案(如华为的 CloudMatrix384 超节点及 Unified Bus (UB)Scale-Up 网络采用的 AOC 技术) 则突破铜缆距离限制,超节点规模可以做的更大,目前商用的华为 CloudMatrix384 超节点可支持多达 384 张 XPU 卡,但这种互联技术方案也存在明显短板,如光模块功耗大,成本高,故障率高。
目前英伟达、谷歌、AMD 以及华为四家头部 AI 算力芯片厂商均推出各自的 Scale up 协议。英伟达在 AI 数 据中心的 Scale up 网络中采用自研的 NVLink 高速互连技术;AMD 与 AWS、思科、谷歌等公司组成超以太 网联盟(UALink);Google 采用私有 ICI 协议,机柜之间运用 OCS 光交换技术;华为推出自研的灵衢协议 技术(UB)。
Scale up 网络主要有两个技术方向。一是封闭的私有技术方向,以英伟达、Google 为典型代表,二者均采 用专有协议:NVLink 仅向第三方半开放 CPU/Chiplet 接入权限;Google ICI Link 则服务于自研 TPU 集群; 二是基于 Ethernet 的开放技术方向,以各大互联网和云计算公司以及一些 GPU 芯片公司为代表。开放标准 以 UALink 和华为灵衢为代表,UALink 基于标准以太网组件打造开放互联协议,华为灵衢协议从 2.0 版本起 转向开放标准。目前两者均处于生态建设初期。

2.1 Scale up 网络核心技术:NVLink 与 NVLink 交换机
NVLink 与 NVLink 交换机是英伟达构建单机柜 Scale up 网络的核心技术组合。二者协同演进,从早期点对 点互联发展到如今全互联通信,并支持多代 GPU 架构算力芯片。2026 年 1 月,英伟达发布第六代 NVLink 以及 NVLink 交换机,两者支持最新的 Rubin 架构。从性能指标看,第六代 NVLink 交换机支持的 GPU-to-GPU 通信带宽为 3.6TB/s;在 VR NVL72 系统中提供 260TB/s 聚合带宽。其中每 GPU 的 NVLink 带宽保持不变, 与 NVLink5.0 一致,仍为 100GB/s。
NVLink 重新设计通信架构,推出网状拓扑理念。为实现 AI 训练集群高带宽与低延迟数据传输,NVLink 允 许 GPU 之间形成多对多的直接通信网络,每个 GPU 都可以同时与多个其他 GPU 建立高速通信链路。NVLink 协议创新如下: 在物理层面,NVLink 采用差分信号传输技术,具有高带宽和高抗干扰性能。每个链路由多对差分信号线组成, 每对信号线负责传输一个方向的数据。SerDes 模块是 NVLink 物理层的核心组件,负责将并行数据转换为高 速串行流,并在接收端进行反向转换。NVLink 的 SerDes 设计采用时钟数据恢复技术,以及集成复杂的自适 应均衡电路。 在链路层,NVLink 定义多种类型的符号,包括数据符号、控制符号和填充符号,实现复杂的通信协议功能; 设计精细的信用机制,实现不同优先级的流量调度。 除此之外,NVLink 其他创新之处包括多 Lane 绑定技术、统一内存空间等。
NVSwitch 是实现 Scale up 网络复杂交换的关键设备。 早期的 NVLink 实现主要采用点对点连接模式,GPU 之间通过直接的串行链路进行通信。当系统包含多个 GPU 时,点对点模式的连接复杂度呈平方级增长。 作为专门的交换芯片,NVSwitch 可以提供多端口的高速交换能力。NVLink 的交换网络采用多阶 Clos 网络 架构,Clos 网络通过多级交换结构实现输入端口到输出端口的任意连接。

2.2 GB200 NVL72 超节点:铜缆互联,总交换容量 129.6TB/s
目前英伟达超节点已经推出成熟方案,在行业中处于领先地位。2024-2026 年,英伟达陆续推出 GH200 NVL72、GB200/ GB300 NVL72、VR200 NVL72 三代超节点。
Hopper 架构开启超节点 Scale up 初步探索。GH200 通过 NVLink 和 NVLink-C2C(Chip-to-Chip)技 术,使得每个 GPU 可以访问其他所有 CPU 和 GPU 芯片的内存,实现 GPU 与 CPU 内存统一编址。
Blackwell 架构推动 Scale up 标准化。GB200 NVL72 将 Scale-up 规模稳定在 72 个 GPU/机柜,形成 可复制标准化方案。NVL72 由 18 个 Compute Tray(计算托架)和 9 个 Switch Tray(网络交换托架) 构成。其中,Compute Tray 是计算核心单元,负责提供强大的计算能力;Switch Tray 是高速通信枢纽, 用于实现 GPU 之间的高速数据交换。NVL72 背板通过“NVLink5 私有协议 + 铜线缆”将 18 个 Compute Tray 中的 72 颗 B200 GPU 和 9 个 Switch Tray 中的 18 颗 NVSwitch 芯片进行满带宽全连接。
Rubin架构推动Scale up方案带宽倍增。2026年1月CES展会,英伟达发布Rubin架构VR200 NVL72。 其中 NVLink 6 Switch 实现单 GPU 的互连带宽提升至 3.6 TB/s,上代为 1.8TB/s。Scale out 方面, Spectrum-6 交换机支持 CPO(共封装光学)技术,将 32 个 1.6Tb/s 硅光光学引擎与交换芯片直接封装 集成。
目前全球算力芯片公司进入芯片性能与超节点性能并行竞争的新阶段。GB200 NVL72 作为全球超节点发展 的标杆产品,我们将从多个维度拆解其硬件构成以及重点性能指标。 从算力和通信性能看:GB200 NVL72 提供 180 PFLOP 的 TF32 Tensor Core 算力,总内存容量 13.8TB,内 存带宽 576TB/s;Scale up 单向带宽 64800 GB/s。
除了算力与通信性能,尺寸、重量、功耗均是超节点 TCO(总体拥有成本)的关键影响因素。GB200 NVL72 机柜尺寸为长 1068 毫米、宽 600 毫米、高 2495 毫米;重约 1.36 吨;功耗 145KW。
单台 GB 200 NVL72 机柜有 18 个计算节点。GB200 NVL72 超节点主要由 18 个 Compute Tray(计算托盘) 和 9 个 Switch Tray(网络交换托盘)构成。每个计算托盘容纳 4 颗 B200 GPU 和 2 颗 Grace CPU,构成两 个 GB200 超级芯片。
GB 200 NVL72 机柜有 9 个网络交换托盘。每个网络交换托盘中包含两颗 NVLINK Switch5 芯片,合计 18 颗 NVSwitch5 芯片。单颗 NVSwitch5 芯片交换容量为 7.2TB/s,总交换容量 129.6TB/s。网络交换托架中金 色电缆用于 NVLink 连接,与电缆盒相连,机箱前面的蓝色电缆用于 OSFP 接口,实现不同版本的扩展。
电缆盒负责垂直方向信号重组。电缆盒有 8 个底部连接器和 10 个顶部连接器,每个连接器可处理一个 GPU 的全部带宽。
GB200 NVL72 实现 72 颗 B200 完全互联,总交换带宽 129.6TB/s。 计算节点访存带宽为 7.2TB/s:B200 设置 18 个端口(Port)。每个端口采用 224G Serdes,由四对差分线 构成。每个端口的传输速率为 200Gbps * 4(4 对差分线)/8 =100GB/s(双向)。每个计算托盘容纳 4 颗 B200 GPU,则每个计算节点 72 个 NVLink5 Port,总访存带宽为 7.2TB/s。 交换节点访存带宽为 14.4TB/s:NVSwitch5 芯片由 72 个 NVLINK Port(上下各 36 个 Port)。同样,每个 Port 采用双路 200Gbps 速率的 SerDes 高速串行接口,则每个 Port 带宽为 100GB/s。每个交换托盘两颗 NVLINK Switch5 芯片。每个交换节点 144 个 NVLINK Port,总访存带宽为 14.4TB/s。

GB200 NVL 72 Scale up 方案中以铜缆互联为主。GB200 NVL72 在互联方案中主要采用直连铜缆(DAC), 在某些特殊场景(如跨托盘连接或需要稍长传输距离的场景)中,会采用 ACC 铜缆。ACC(主动铜缆,在 DAC 基础上增加有源信号处理芯片)的信号增强能力可以弥补 DAC 在较长距离传输时的信号衰减问题,确 保数据传输的稳定性和可靠性。 在 GB200 NVL 72 中所需铜缆数量:18(托盘数量)×4(GPU 数量)×4(GPU 到 NVSwtich 单端口铜缆 数量)×18(NVSwtich 数量)=5184 根。(100GB/s 单端口由 4 根 DAC 铜缆组成)
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)