AI 模型加速迭代,从预训练转为多方面 Scaling,对 AI infra 要求持续提升。当 前 AI 模型持续迭代,GPT-5、Gemini 3 pro、Deepseek V3.2 等大模型呈现出长序列 输入输出、多模态输入/输出、长思维等特点,模型参数持续突破(从千亿级陆续走 向万亿级),训练数据量持续扩张(单模型训练数据达 EB 级)。 从大语言到多模态,模型参数量提升至万亿级。随着基础大模型参数量从千亿 迈向万亿,大模型预训练过程对底层智能算力的诉求进一步升级。头部基础大模型 的训练算力需求已达到十万亿兆量级,且仍以每年 4.1 倍的速度快速增长,例如 Qwen3-Max 模型总参数超过 1T,预训练使用 36T tokens;文心 5.0 原生全模态大模 型参数量达 2.4T。模型预训练对千卡、万卡算力集群需求愈加迫切。 Scaling Law 泛化至全流程。Scaling Law 从预训练扩展到后训练和逻辑推理全流 程,模型不光随着参数量提升而提高性能,还能基于强化学习、思维链等算法创新 在后训练和推理阶段更多的算力投入,可以进一步大幅提升大模型的深度思考能力。 据 OpenAI 介绍,在开发 OpenAI o3 时在训练计算和推理时间方面都增加了一个数量 级,发现了明显的性能提升,验证了模型的性能会随着思考的次数的增长而不断提 高,并首次将图片整合到思维链中,算力需求持续提升。

什么是超节点?超节点集群(SuperPod),最早由英伟达提出,随着 AI 模型迭 代对算力需求不断增长,集群从千卡扩散至万卡、百万卡等,而扩张方式主要为 Scale Up(纵向扩展)和 Scale Out(横向扩展)两个维度。我们认为,集群的最小单元则 是算力芯片处于同一个 HBD(High Bandwidth Domain,高带宽域)的超节点计算柜 Rack,其中 ICT 设备包括 Computer tray(计算节点)、Switch tray(交换节点)、TOR 交换机等,同时需搭配供电、制冷设备等其他设备以确保超节点机柜的运行。
过去算力集群扩张主要采用 Scale-Out 架构,通过以太网连接大量 AI 服务器, 以构建千卡、万卡集群,然而随着以 Deepseek 为代表的 MOE 架构,成为可扩展模 型的核心架构方向,而大模型分布式训练,使得跨服务器的带宽与时延成为根本瓶 颈,制约整体训练效率。而 Scale Up 域互联则是协同多个 GPU、CPU 的算力以及域 内互联的内存池,使集群形成逻辑上的“一个超级 GPU”工作,解决“通信墙”问 题。
基础设施逐步走向超节点时代: 1、训练侧:随着模型参数规模持续增长,对基础设施集群能力要求日益严苛, 单卡 GPU 远不足以承载模型,高带宽域+大内存需求逐步提升,AI 基础设施单卡逐 步迈入超节点时代:
(1)单卡阶段(CV 模型主导):在计算机视觉模型为主的时期,模型可以完全 放入单个加速卡中进行训练。此时的并行策略主要是数据并行,单卡的计算能力是 主要瓶颈。 (2)八卡模组阶段(小参数 NLP 模型主导):随着 NLP 模型的出现,单卡显存 不足以容纳整个模型,训练扩展到单机八卡。此时,数据并行和模型并行结合使用, 节点内部的通信带宽成为瓶颈。 (3)超节点服务器集群阶段(大模型主导):当模型参数达到千亿乃至万亿级 别,单机已无法满足需求,必须使用大规模服务器集群进行训练,以 GPT4 1.8T 为 例,模型部署需要超 10TB 显存占用,远超 GPU 单卡甚至单服务器容量上限。由此 业界通过引入序列并行、专家并行等更复杂的并行策略,进行分布式训练,训练集 群的总规模(卡数)是数据并行(DP)、张量并行(TP)、流水并行(PP)和序列并 行(CP)等多种并行维度的乘积。

2、推理侧:随着模型向稀疏化架构演进,总参数量与专家数量不断增长,推理 模式也从单卡单机走向多机大专家并行,随着用户数量持续增长,需同时兼顾多并 发需求。语言模型走向多模态/多任务理解和生成,对算力及访存需求变大,此外, 模型输入序列长度不断增长,对 KV Cache 缓存提出新挑战。
早期的 scale up 主要是从单卡扩张为 8 卡 GPU 模组,再以 8 卡为一个单元对外 扩展,搭配 8 卡 GPU 服务器模组的 AI 服务器,多采用 full mesh 直连拓扑,GPU 之 间通过 PCIe 等互联协议直连或通过引入交换芯片方式提高 GPU 点对点的连接带宽。
进入超节点机柜服务器时代,我们认为构造超节点的核心在于更大的节点内互 联,硬件与软件协议需互相适配整合,使得数个分离的算力芯片通过网络互联整合 成逻辑上的一台“大型 GPU/ASIC”,突破单一 8 卡服务器在效率、可靠性上的瓶颈。 超节点 Rack 网络互联重点在于 Scale up 互联协议以及拓扑结构。
2.1、 Scale up 组网架构包括:Fat-tree 胖树拓扑、Mesh 类拓扑、Torus 拓扑等
(1)胖树架构超节点:以一层胖树架构的 scale up 网络的 GB200 NVL72 为例, 机柜主要含 18 个 Computer tray,通过 9 个 NVlink Switch tray 将其中的 36 个 Grace CPU和72个 Blackwell GPU整合在一起,形成一个高带宽、低延迟的统一计算单元。 B200 与 NVswitch 的拓扑为 1 层胖树架构,每颗 B200 GPU 支持 18 条 NVLink 5 链路,每条链路双向带宽 100 GB/s,单颗总带宽达到 1800GB/s,72 颗 GPU 形成总 带宽为 130TB/s 的全 mesh 网络,所有 GPU 之间实现了点对点的全互联,可以任意 访问其他 GPU 的内存空间。通过 NVLink 组成全互联无阻塞架构,减轻因通信延迟 导致的计算单元空转造成的算力浪费。通过引入 scale up 交换机可使 GPU 的互联带 宽具有带宽池化能力,任意流量模式都可以高效使用 GPU 互联带宽。

若需要进一步扩张超节点 scale up 规模,可采用两层 Clos 拓扑实现更多算力卡 互联。以 2 层 Clos 拓扑的 GB200 NVL576 为例,整个网络分为框与系统两个层级, 单个框包含 36 个 B200 和 L1 层的 NVSwitch,整个组网包含 16 个框,框间互联由 L2 层 NVSwitch 负责。
此外,由 ODCC 牵头,联合中国信通院、腾讯等发起的国产超节点 ETH-X 项目, 采用 RoCE 方案,整机柜 GPU 互联带宽为 204.8Tbps。8 个 Switch Tray 支持 409.6Tbps 的带宽,一半用于超节点柜内连接 GPU,另一半的带宽用于背靠背连接 旁边机柜的超节点或者通过 L2 层 HB Switch 做更大的 HBD 域 Scale Up 扩展,该 架构适配于物理承重与供电能力受限的机房环境。
(2)Mesh 类架构超节点:Fullmesh 组网下,节点需求随组网规模的增长而增 长,为缓解规模扩展的问题,可采用提升拓扑维度 nD-Fullmesh 的方式,优先考虑短 程直接互连路径。1D-FullMesh 为最简单的 FullMesh 类拓扑,其组网形态为全互联 结构,即任意两个节点都有一条边互联。以 AMD MI350 scale up 网络为例,采用 Infinity Fabric 互联,实现 8 个节点的 MI350 的 Fullmesh 互联;华为通过灵衢协议 UB-Mesh,柜内 64 个 NPU 采用 2Dfullmesh 互联,柜外可采用 3D、4DFullmesh 等更 高维度拓扑实现机房级、楼层级、数据中心级互联。
(3)Torus 拓扑超节点:谷歌自研 TPU 芯片采用 2D/3DTorus 架构组网,立方 体(Cube)内的 TPU 处理器通过铜互连(铜 ICI)连接,而不同立方体之间则通过 光互连实现拼接。以 TPU v4 为例,其超级集群由 64 个 4×4×4 立方体构建块(对 应 64 个机架)组成,可组合出最大 8×16×16(2048 颗芯片)的切片;TPU v5p 的 最大切片尺寸扩展至 16×16×24(6144 颗芯片);TPU v7 则进一步支持 9216 颗芯 片集群,该架构将故障域缩小至单个立方体,提升系统可靠性。

2.2、 Scale up 协议:从大厂私有逐步走向开源开放
传统 PCIe 互联带宽有限、演进缓慢,难以满足超节点中数据在 HBM 与 HBM、 HBM 与寄存器、寄存器与寄存器之间的高频率传输需求,需要通过其他总线协议实 现 XPU 间大带宽、低延时的内存语义通信,支持共享内存模型和统一地址空间。 (1)NVLink:NVLink 最初于 2016 年与英伟达 P100 GPU 一同发布,采用多 条高速差分信号通道组成链路的方式进行点对点通信,允许同时进行多个数据传输 会话,支持 GPU 之间直接进行内存访问,有效提高了数据传输效率,降低通信延迟, 每个 NVLink 链路都提供双向数据传输能力,带宽远高于 PCIe,从 P100 的 160GB/s 迭代至 B200 的 1.8TB/s,单卡带宽年复合增长率超 60%。 NVlink 早期相对封闭,厂商难以创新,于 2025 年 5 月,英伟达推出了 NVLink Fusion 开放互连技术方案,允许第三方厂商(例如高通、富士通等)的定制 CPU 或 AI 加速器通过 NVLink 协议与英伟达 GPU/CPU(如 Grace、Blackwell 系列)实现 高速互联,通过开放生态策略支持异构计算(如 ASIC 与 GPU 协同)。
(2)UAlink:UAlink 联盟最初成立于 2024 年 5 月,由 AMD、AWS、谷歌、 英特尔、博通、Meta、微软等公司共同发起的一项开放式互连标准,后续阿里、苹 果等厂商相继加入,成员均可参与开发和采用,从而促进生态系统的创新和丰富。 UAlink 在物理层和链路层同样复用以太网技术,UALink 1.0 支持每通道最高 200 GT/s 的数据传输速率,信令速率高达 212.5GT/s,可配置为单通道(x1)、双通道(x2) 或四通道(x4)链路,通过 UALink 交换机(ULS)可连接最多 1024 个加速器或端 点组成的整个 POD 上进行 Load / Store 操作。
(3)SUE:博通在 2025 年 4 月正式发布 SUE(Scale Up Ethernet)框架,旨在 将以太网的优势引入 AI 系统内部 Scale Up 领域,以太网为基础构建传输层和数据 链路层,直接在 XPU 间高效搬运内存事务。在部署模型上,SUE 支持单跳交换拓扑 或直接互联的 Mesh 拓扑。每个 SUE 实例可灵活配置端口数(1/2/4 个),例如 800G 实例可拆分为 1×800G、2×400G 或 4×200G 端口,以适应交换机端口密度和冗 余需求。单个 XPU 可集成多个 SUE 实例(如 8 或 16 个),通过多实例叠加实现超 高带宽(如 64 个 XPU 各配 12 个 800G SUE 时,任意 XPU 对间带宽达 9.6Tbps), 以支持大规模数据集处理、深度神经网络训练及并行任务执行。 博通于 2025 年 7 月正式发布 Tomahawk Ultra,将传统以太网的报文从 46 字节 精简到 10 字节,降低了控制开销,在 51.2 Tbps 全吞吐量下实现 250ns 低交换延迟, XPU 与 XPU 之间(含交换机传输时间)通信延时低于 400ns。SUE 要求端到端往返 延迟(RTT)低于 2 微秒,单跳网络最多支持 1024 个 XPU。
(4)UB:华为于 2019 年开始研究灵衢(UnifiedBus),随后发布灵衢 1.0 商用 验证,于 2025 年 9 月发布并开放灵衢 2.0 技术规范。UB 协议栈由物理层、数据链 路层、网络层、传输层、事务层、功能层以及 UMMU、UBFM(UB Fabric Manager) 组成,对于内存交互,UB 支持 UBPU 中的计算单元直接发起同步和异步访存指令, 减少控制命令交互,实现百 ns~us 级低时延;对于集群大规模组网,UB 除了支持采 用多级 UB Switch 扩展组网之外,还支持通过 UBoE 与以太 Switch 对接,实现融合 组网,以及通过 OCS 组网,实现可变拓扑,助力集群规模扩张。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)