市场对于通信网络在 AI 训练中的重要程度认识不足。AI 行情以来,市场更加从产业链 逻辑关注网络产业链的研究,主要研究方向集中在每一代网络架构需要的光模块数量, 并以此为基础进行产业链各个环节的产量与业绩测算,但市场对于 AI 与通信的底层关系 的研究较少。本文从模型,多卡同步,训练性价比等三大方面,对 AI 时代通信网络的核 心地位进行更深入的讨论。 概括来看,通信在 AI 时代站上 C 位主要有三大原因。第一,日益庞大的模型体积下, 显卡的数量和连接后的运算效率直接决定了训练所需的时间,而时间,恰恰是日益激烈 的巨头 AI 竞赛中最为宝贵的资源。第二,从训练的原理出发,在主流的并行模式由模型 并行转向数据并行后,每一层运算后,都需要集群内的不同 NPU 之间对齐已有参数,数 以千计的芯片时间的对齐过程,要保证低延迟与准确,对网络的要求极高。第三,网络 故障的成本极高,当下模型训练时间往往持续数月,一旦故障或中断较多,即使是回档 至几小时前的存档点,对于整体训练效率和成本也会产生极大的损耗,对于分秒必争的 巨头 AI 产品迭代来说,更为致命。同时,当下集群规模已然行至万卡,而其中的连接部 件可能数以十万计,如何保证这些部件的整体稳定和良品率,已经变成了一项极其深奥 的系统工程。
市场对通信网络未来迭代方向认识不足。市场对于通信网络的迭代更多的认识停留在跟 随显卡换代的研究层面。我们认为,硬件迭代带来的更新的周期和方向相对固定,而其 余方向的迭代和产业链创新程度与日俱增。同时,当前海外巨头的 AI 资本投入战争已经 达到数百亿美元级别,而模型参数的扩张,巨头的惨烈厮杀依然激烈。现如今,“降本”、 “开放”和算力规模之间的平衡将是网络创新的主要议题。 总体来看,产业链对于前沿的探索主要集中于三个方向。第一,通信介质迭代,这里面 既包括光、铜、硅三种基材的共同进步,也包括各种介质内的技术创新,如 LPO、LRO、 硅光、chiplet、Wafer-scaling 等。第二,通信协议的创新,这同样包含两个方面,第一, 节点内部通信,如 NVLINK 和 Infinity Fabric,该领域壁垒和创新难度极高,属于巨头战 场,第二,节点间通信,产业界则主要聚焦于 IB 与以太网两大协议的竞争。第三,网络 架构的更新,叶脊架构是否能够适应超多节点数量,OCS 助力下,Drangonfly 能否成为 下一代网络架构主流,同时 Rail-only+软件优化能够成熟,都是产业的新看点。
上一轮通信的辉煌,可以追溯到互联网时代,爆发式的网络流量传输需求,让人类第一 次搭建起了以海量服务器,存储和交换机共同构成的交换体系。在这一轮建设中,思科 一枝独秀,成为了人类科技进步的领头羊。但随着互联网浪潮趋于平和,光模块与交换 机更多的随着宏观经济,云开支,和产品更新而波动,更加偏向于宏观经济品种,而速 率,技术的更迭也较为按部就班,进入了周期波动向上稳态发展期。 小模型时代,业界更加专注于算法创新,往往整个模型体积可以由单卡、单台服务器或 者较为简单的小集群来承担,因此来自 AI 侧的网络连接需求并不突出。但大模型的出现 改变了一切,OpenAI 证明了在当下,用较为简单的 Transformer 算法,通过堆砌参数的 形式,可以较好地提高模型性能,因此,整个产业界进入了模型体积加速膨胀的快速发 展期。 我们先来看两个决定模型计算速度的基本公式,从而可以更好的理解为什么大模型时代, 算力规模或者说算力硬件产业链会率先受益。
(1) 训练耗时=训练数据规模 x 模型参数量/计算速率
(2) 计算速率=单设备计算速率 x 设备数 x 多设备并行效率
在当下的大模型时代,我们可以看到,在训练耗时的分子端的两项因子,正在同时扩大, 在算力恒定的情况下,训练耗时将会被指数级延长,而在愈发激烈的巨头模型战场,时 间是最宝贵的资源。因此,竞争之路非常明确,唯有加速堆叠算力。 在第二个公式中我们可以看到,在算力日益膨胀的今天,单卡算力由于模型体积,芯片 更新的上限,在算力构成的占比中已经从全部退化成了其中一环,显卡数量,以及多设 备并行效率也成为两个同样重要的一环,这也是英伟达前瞻性收购 Mellanox 的原因,是 希望在计算速率的每一个决定因子中,都能取得领先。 我们在前期报告《AI 算力的 ASIC 之路-从以太坊矿机说起》中详细阐述了单卡算力的多 种路线,本文中不在赘述,而我们看到的后两项,设备数与多设备并行效率,并不是简 单的通过堆叠显卡数量就可以简单实现。越多的设备数,对于网络结构的可靠程度,并 行计算的优化程度要求呈现指数级增加,这也是为何网络成为 AI 重要瓶颈之一的终极原 因。我们在本节中会从训练原理出发,阐述为何设备的堆叠和并行销量的提升,是人类 历史上最复杂的系统工程。
2.1 大模型时代的多卡合作原理,模型并行与数据并行
在模型训练中,将模型拆分至多卡的过程并非传统流水线或简单分割那样简单,而是采 用更为复杂的方式来分配显卡之间的任务。总体来看,任务分配方式大体可以分为两种, 模型并行与数据并行。 最早在模型体积较小但数据量上升时,业界普遍采用数据并行的方式。在数据并行式的 运算中,每张 GPU 上都保留有完整的模型副本,而训练用的数据被分割后进入不同显卡 并进行训练,在反向传播后,每张卡上的模型副本梯度将被同步减少。但随着模型参数 膨胀下,单块显卡愈发难以容纳完整模型,因此,在头部大模型训练中,数据并行作为 单一并行的分配方式正在逐渐减少。

模型并行则是当下在大模型时代逐渐兴起的一种分配方式。由于模型体积过于庞大,因 此将模型的不同部分装载进入显卡内,并给显卡灌入相同的数据流,对每一部分的参数 进行训练。 模型并行有两种主流模式,分别为张量并行与流水线并行。在一个模型训练运算的底层 运算矩阵乘法中(C=AxB),张量并行指的先将 B 矩阵拆分成多个向量,每个设备持有 一个向量,然后将 A 矩阵分别与每一个向量相乘,然后将得出进行汇总,即可总结出 C 举证。 而流水线并行则是将模型按层进行分割,将模型按层分割成若干块,每一块都交给一个 设备进行,同时在前向传播过程中,每个设备将中间的激活传递给下一个阶段,在随后 的向后传播过程中,每个设备将输入张量的梯度回传给前一个流水线阶段。
在当下的大模型训练中,没有任何一种数据并行能够单独存在,在头部大模型训练中, 往往需要将上述的多种技术混合,实现多维混合并行。在实际连接时,会将这个 AI 集群 划分为若干 Stage,每个 Stage 对应一个逻辑上的 Batch,每个 Stage 由若干台 GPU 节 点组成。这样在架构上满足多维混合并行的需求。
无论是何种并行方式,都需要在每一轮计算后,都需要通过反向广播的形式来同步每一 张 GPU 内的参数,不同的并行的方式,对应不同的广播延迟,也需要依靠不同的网络 协议或者通信介质来,由此我们可以看出,当下的网络集群构建,正在逐步从“传输” 进化成一个真正意义上的“系统工程”。
2.2 大模型时代的多卡互联核心:同步的准确率
AI 网络集群承担的一项重要功能,便是将不同显卡分工训练完成的结果,在计算单元之 间进行对齐,从而使得显卡能够进行下一步的工作,这项工作也被称为反向广播,由于 广播过程中往往对结果采用 Reduce,Gather 等算法进行处理,那么全局的广播则被称 为 All to All,我们在 AI 集群性能指标中常见的 All-to-All 延迟,指的就是做一次全局反向 广播需要的时间。 从原理上来看,做一次反向广播同步数据似乎较为容易,只需要每张显卡互发数据即可, 但在真正的网络集群构建中,却会遇到许多问题,这也让缩短这一时延,成为了各种网 络方案追求的一个重点方向。 第一个问题在于,每一张显卡完成当前计算所需要的时间长短是不一致的,如果统一等 待同一组内的最后一个显卡完成任务后再进行反向广播,那会导致先一步完成任务的显 卡有大量的时间处于空置状态,从而降低整个计算集群的性能。而同样,如果采用过于 激进的同步方法,则有可能导致同步期间出现错误,从而导致训练中断。因此,稳定高 效的同步方法,一直是业界追寻的方向。 从当下来看,主要的同步方法可以分为同步并行,异步并行,All-Reduce 等等。
我们先来看同步并行,同步并行的思路我们在前文中已有提及,即在当前单元内,所有 计算单元完成计算后,统一进行一次通讯,其优点是稳定与简单,但是会造成大量的计 算单元空置。
异步并行则是面对如兴趣推广等非生成式大模型时候的选择,当一个设备完成一轮正向 与反向计算后,不需要等待另一台设备完成循环,直接进行数据同步,这种传输模式下, 网络模型训练不收敛,不适用于大模型训练,但对于如搜索模型,推荐模型等较为适用。

第三类,也是目前大家使用的最多的一类,All-Reduce 或者也可以称为 All-to-All-Reduce, 即将所有设备(All)上的信息归纳(Reduce)到所有设备(All)上。显然,直接的 All-Reduce 将带来极大的通信资源浪费,因为同一份数据可能会被冗余传输多次。因此,许多优化 版 All-Reduce 算法被提出,如环状 All-Reduce、基于二叉树的 All-Reduce 等,这些算法 均能极大降低 All-Reduce 的带宽和延迟。 我们以中国 AI 龙头百度发明的 Ring All-Reduce 为例,来说明分布式计算工程师们,是 如何通过不断迭代,来缩短同步时间的。 在 Ring All-Reduce(环同步)中,每台设备仅需与另外两台设备通信,分为 Scatter-Reduce 与 All-Gather 两个步骤。首先对相邻设备完成多次 Scatter-Reduce 操作,在每台设备分 别得到聚合后的完整数据的一部分。随后,每台设备再对齐相邻设备完成多次 All-Gather操作,在每台设备中补全完整数据。环状 All-Reduce 不仅能降低带宽和延迟,还可以简 化网络的拓扑结构,降低网络的搭建成本。
但无论是何种算法,都依赖于网络通信硬件的支持,无论是从芯片原生和协议层面支持 更大的带宽,还是从纯铜线连接转为通过 NVLink,亦或是 IB 协议的引入,RDMA 需求 的爆发,均是为了满足愈发复杂的沟通与同步需求,这些内容我们会在后文中陆续展开。 至此,我们对于为何 AI 需要高密度通信的原理层逻辑已经有了初步认知,首先从小模 型时代到大模型时代的迅速切换,使得多节点集群与分布式训练成为刚需,而将模型分 拆至不同算力节点运算时,如何分拆,如何保证同步则是更加繁复的系统工程,而通信 则是这一切软件原理实现的基础,高质量、高通量、高稳定性的通信元器件与通信网络。
2.3 大模型时代的系统工程:监测-总结-创新,迭代永远在路上
上文中,我们阐述了训练原理决定了大模型对于通信体系的依赖程度。无数不同的,复 杂的并行与同步需求一起,组成了 AI 集群中的数据流动,虽然通信网络在此类需求的带 动下,速率和产品迭代不断加速,连接方式创新不断,但时至今日,仍然没有一个完美 的集群能够一劳永逸地解决所有问题,同时集群的稳定性虽然不断优化,但由上百万个 精密器件组成的系统,断点与中断问题仍然时有发生。 因此,大模型通信体系的进化方向可以大体分为三个,一个是对大模型系统的监测能力, 能够实时感知大模型数据流动,运行态势,从而能够及时发现故障,在这一过程中,以 网络可视化为基础的软硬件抓包成为了主流手段,通过 FPGA 芯片和专用软件,监控集 群中的数据流动,从而为感知提供基础工具, 以软件实现的数据抓包最常用,国内外知名产品有 Wireshark(处理 TCP/UDP)、Fiddler (处理 HTTP/HTTPS)、tcpdump&windump、solarwinds、nast、Kismet 等。以 Wireshark 为例,其基本工作原理是:程序将网卡的工作模式设置为“混杂模式”(普通模式下,网 卡只处理属于自己的 MAC 地址的数据包,混杂模式下,网卡会处理所有流经的数据包), 同时由 Wireshark 进行数据包的截获、重发、编辑和转存。
软件抓包会占用部分系统性能。首先,混杂模式下网卡处于“广播模式”,会处理网络下 层收发的所有数据包,本身就会消耗网卡一部分性能;其次,软件抓包不是在链路层串 行或并行抓取,而是将数据包进行复制和存储,占用了一部分 CPU 和存储的资源。同时, 类似 Wireshark 这种软件大多只能做到对系统里的单一网络节点进行流量监控,难以覆 盖到全局网络,适合被动的故障排除作业,不适用于主动风险监测。 为了不影响系统整体性能,并行或串行接入的软硬件结合工具应运而生,常用的工具有 DPI 和 DFI。DPI(Deep Packet Inspection,深度报文检测)是一种基于报文的应用层 信息对流量进行检测和控制的功能。DPI 着重对应用层的分析,能够识别各种应用及其 内容。当 IP 数据包、TCP 或 UDP 数据流通过支持 DPI 技术的硬件设备时,设备会通过 深入读取报文载荷来进行重组和分析,从而识别整个应用程序的内容,然后按照设备定义的管理策略对流量进行后续处理。DFI(Deep/Dynamic Flow Inspection,深度/动态 流检测)采用的是一种基于流量行为的应用识别技术,即不同的应用类型体现在会话连 接或数据流上的状态各有不同。DPI 技术适用于需要精细和准确识别、精细管理的环境; 而 DFI 技术适用于需要高效识别、粗放管理的环境。

DPI/DFI 由独立硬件串/并接在物理层,不会影响物理层的性能表现。以浩瀚深度的 DPI 软硬件产品为例,其可以部署在电信网络的各层级网络节点,同时通过 SaaS/PaaS 完成对各层级监测节点数据收集、分析和呈现。DPI 硬件串接或并接在通信物理层,通 过镜像数据包实现近乎无损的网络监测。DPI 软件嵌入在 DPI 硬件、独立服务器或交换 机/路由器中,实现网络监测。
解决了监测问题之后,大模型系统工程的迭代之路便有了基础,前文提到,在实操中, 更加需要注重的便是系统运行效率和稳定性间的平衡,一方面,我们通过 Reduce 方法 的优化,并行方法的创新等等,创造出新的训练方法和理论,分布式训练的底层创新, 然而底层创新始终需要相关硬件的支持,更大通量的交换机,更加契合的交换协议,更 稳定,更便宜的通信器件将是大模型系统升级中永远不可或缺的一环。
上一章节中,我们系统阐述了 AI 集群中的通信主要起到哪些作用,本节中,我们将系统 性地介绍构成整个通信体系的最基础部分-通信协议。 从直觉上来看,通信系统主要由交换机、光模块、线缆、网卡等等实物硬件组成,但其 实真正决定了一个通信系统的建立,运行和性能特点的,却是流转在实物硬件内部的通 信协议。通信协议是在计算机网络中,为了保证数据顺利、准确地传送,通信双方必须 遵守的一系列约定。这些约定包括数据的格式、编码规则、传输速率、传输步骤等。 在 AI 时代,通信协议的分类主要分为两大类,第一,用于算力节点内部的算力卡之间通 信的高速协议,这一类协议具有速度快,封闭性强、可扩展性弱等特点,往往是各家显 卡厂商的核心能力壁垒之一,其速率,接口等等需要芯片层面的支持。第二类协议则是 用于连接算力节点之间的协议,这类协议具有速度慢,可扩展性强等特点,第二类协议 目前主要有两大主流,InfiniBand 协议以及以太网下的 RoCE 协议族,这类协议保证了数 据的跨节点传输能力,也是构建超大集群的基础,同时也为智算单元接入数据中心提供 了解决方案。
3.1 节点内通信—大厂核心壁垒,算力“摩尔定律”的希望
节点内通信,即单台服务器内部的显卡通信协议,负责同一服务器内部的显卡之间的高 速互联,发展至今,这一协议主要包括了 PCIe、NVLink、Infinty Fabric 三种协议 我们先来看历史最为悠久的 PCIe 协议,PCIe 协议是一种公开的通用协议,传统服务器 个人电脑中的不同硬件都通过 PCIe 协议来进行连接,在当第三方组装的算力服务器中, 显卡之间任然像传统服务器一样,通过 PCIe 插槽和主板上的 PCIe 线路进行互联。 PCIe 是最广泛使用的总线协议。总线是服务器主板上不同硬件互相进行数据通信的管 道,对数据传输速度起到决定性作用,目前最普及的总线协议为英特尔 2001 年提出的 PCIe(PCI-Express)协议,PCIe 主要用于连接 CPU 与其他高速设备如 GPU、SSD、网 卡、显卡等,2003 年 PCIe 1.0 版本发布,后续大致每过三年会更新一代,目前已经更 新到 6.0 版本,传输速率高达 64GT/s,16 通道的带宽达到 256 GB/s,性能和可扩展性 不断提高。
PCIe 总线树形拓扑和端到端传输方式限制了连接数量和速度,PCIe Switch 诞生。PCIe 采用端对端数据传输链路,PCIe 链路的两端只能各接入一个设备,设备识别数量有限, 无法满足有大量设备连接或需要高速数据传输的场景,因此 PCIe Switch 诞生。PCIe Switch 具备连接和交换双重功能,可以让一个 PCIe 端口识别和连接更多设备,解决通 道数量不够的问题,并可以将多条 PCIe 总线连接在一起,从而形成一个高速网络,实现 多设备通信,简言之 PCIe Switch 相当于 PCIe 的拓展器。
但正如上文中所说,随着模型规模逐步扩大,同时 NPU 之间同步循环愈发复杂,速率较 低并未对模型运行模式进行专门优化的的 PCIE 已经不能满足大模型时代的需求,因此, 各大显卡厂商专有的协议在大模型时代快速兴起。 我们认为,当先业界关注度最高,进化速度最快的协议便是 NV-Link 协议,英伟达提出 的高速GPU互联协议,对比传统PCIe总线协议,NVLINK主要在三个方面做出较大改变: 1)支持网状拓扑目,解决通道有限问题;2)统一内存,允许 GPU 共享公共内存池,减 少 GPU 之间复制数据的需要,从而提高效率;3)直接内存访问,不需要 CPU 参与,GPU 可直接读取彼此的内存,从而降低网络延迟。此外,为解决 GPU 之间通讯不均衡问题, 英伟达还引入 NVSwitch,一种类似交换机 ASIC 的物理芯片,通过 NVLink 接口将多个 GPU 高速互联,创建高带宽多节点 GPU 集群。
我们通过回顾 NV-link 的发展史,可以发现,节点间的 NV-Link 互联正是随着显卡间同步 需求的变化而逐步迭代。
但随着单个显卡性能的扩张,吞吐量的提升,以及显卡之间同步方式的愈发复杂,单纯 纯线缆连接以及固定的线路已经无法满足显卡间的沟通需求。因此在 Ampere 架构中, 也就是对应的第三代 NVLINK,英伟达引入了第一代专用的 NV-Link Switch 芯片,从而 进一步加大 NV-Link 速率,灵活性。
但从 Pascal 架构到 Ampere 架构的更新中,由于当时的客户需求仍然集中于小模型,大 规模的计算集群并未出现,因此 NV-LINK 保持着常规更新的节奏,主要通过芯片内部通 道迭代,NV-Link Switch 芯片迭代来实现速率的更新,期间英伟达还为游戏显卡推出了 NV-Link 桥接器,来满足部分高端 C 端用户的需求。
从 A100 到 H100 的更新中,英伟达迈出了 NV-Link 进化的第一步,当大模型的需求开始 涌现,超大的数据规模、模型体积使得过去以 8 张显卡为上限的 NV-Link 互联难以应付, 使用者们不得不把模型切片,装进不同服务器间进行训练以及对齐,而服务器间较慢的 沟通速率直接影响了模型训练的效果。我们把能用最高速通信协议互联的显卡数量称之 为 HB-DOMIN,而在模型参数日益庞大的发展过程中,在同等代际芯片内,HB-DOMIN 成为了决定模型训练能力的关键因素。 在这种背景下,英伟达的 NV-LINK 在 Hopper 架构上迈出了进化的第一步,通过外置的 专用交换机,承载更多的 NV-LINK switch 芯片,从而扩大现有显卡的 HB-DOMIN。在 Hopper100 时代,通过 GH200 SuperPOD 产品,NV-LINK 第一次走出服务器内部,实现 了跨越服务器的 256 张显卡互联。
但由于 Hopper 架构下对应的 NV-Link 3.0 交换芯片成熟度较低,英伟达需要两层架构来 连接显卡,因此一个 GH200 256 卡集群内需要大量的高端光模块,成本极高,给客户的 采购带来了不便。同时,在 GH200 发布之时,模型的参数还未膨胀到万亿级别,根据 Meta 的研究结果显示,在万亿参数之下,超过 100 后的 HB-Domin 扩张边际效应会出现 加速递减。

在 Blackwell 架构时代,英伟达正式完善了 NVLINK 的扩张之路,随着 4NM 最新一代 NV-Link 交换芯片的发布,英伟达推出了正式的拳头产品 GB200 NVL72。英伟达通过单 机柜内部单层 NVlink+铜缆的连接,实现了用较低成本达成一个具有高性价比的 HB-DOMIN 数字的目标,真正迈出了节点内互联协议向上层扩张的第一步。
我们除了在最新一代 NV-LINK 上,也再一次重新认识了节点内互联协议的重要性,甚至 可以说,节点内通信的扩张,已经成了摩尔定律是否能在算力时代延续的关键。节点内 通信协议的迭代以及低成本实现,是当前应对“通信墙”、“内存墙”的最佳解决办法。 当前 NV-LINK 最大的竞争者便来自于英伟达在通用显卡领域的最大竞争者 AMD,与英伟 达相同,即使是对网络协议开放最为支持的 AMD,在其节点内互联领域,依然使用其专 用的协议“Infinity Fabric”,但同时,与英伟达不同 AMD 将这份协议共享给了合作的博 通、Arista、思科这三家以太网龙头。
当下来看,Infinity Fabric 与 NVLINK 的差距仍然较大,在包括专用交换芯片、多卡互联、 协议完成度等方面,AMD 仍然有较长的路需要追赶、这也体现出,当前的头部通用算力 竞争,已经从芯片设计这一单一环节,慢慢扩大到节点内通信这一环节。 总结来看,节点间通信正在变成算力中愈发重要的组成部分,同时,随着 HB-DOMIN 扩大,“算力节点”也在逐步扩大,我们认为,这背后是节点间协议在整个 AI 集群内的 “向上渗透”,同时,依靠在节点间协议及其承载硬件的系统化压缩,也是未来 AI 算力 实现摩尔定律的解决之道。
3.2 节点间通信协议:历久弥新,封闭与开放之争
现在我们把视角移到算力节点外部,来看一下当前构成全球算力集群连接的主流协议。 当下的算力中心,NPU 正在逐步迈向百万级规模,即使算力节点或者我们说的 HB-DOMIN 加速扩大,但节点间连接依然是构成全球 AI 算力的基石部分。 从当前来看,节点间连接协议主要分为InfiniBand协议与以太网家族内的ROCE协议族。 超算节点间互联的核心在于 RDMA 功能。过去,在传统的 CPU 为主的数据中心中,普遍 采用 TCP/IP 协议进行传输,即数据从发送端内存发出后,经过发送端设备 CPU 编码后, 发送至接收端设备的 CPU,经过解码后放入内存。这一过程中由于数据经过多个设备且 多次编解码,因此会产生较高的延迟,而延迟则是对计算卡间相互同步最关键的的因素, 因此,在显卡间互联的需求下,绕过 CPU,实现内存之间的远程直接互访(Remote Direct Memory Access)RDMA 变成为了 AI 集群连接的刚需。
在这种背景下,当前由英伟达主导的原生支持 RDMA 的 IB 协议以太网下支持该功能的 ROCE 协议族变成了当下的唯二选择,而这两种协议鲜明的特点又让整个节点间协议的 竞争变得精彩异常。 IB 协议的出现最早可以追溯至 1999 年,当时,通信能力过差的 PCI 总线逐渐成为各个 设备之间沟通的瓶颈,在此背景下,英特尔、微软、IBM、几大巨头成立的 FIO Developers Forum 和 NGIO Forum 进行了合并,创立了 InfiniBand 贸易协会(InfiniBand TradeAssociation,IBTA),并在 2000 年推出了第一版的 IB 协议框架。在 1999 年创立的交 换芯片公司 Mellanox 也加入了 IB 阵营。 IB 从创立之初,便领先性的提出了 RDMA 概念,从而能够绕开 PCI 总线的限制,进行更 加高速的访问,但好景不长,在 2022 年,英特尔,微软等巨头相继宣布退出 IB 联盟, 转而转向我们上文提到的 PCIE 协议的研发,IB 因此走向衰落。但到了 2005 年,随着存 储设备间的通信需求上升,IB 重新迎来上升期,再后来,随着全球超算搭建,越来越多 的超级计算机开始使用 IB 进行连接。在这过程中,依靠着对 IB 的不离不弃和相关收购, Mellanox 从一家芯片公司扩展到了网卡、交换机/网关、远程通信系统和线缆及模块全 领域,成为世界级网络提供商,在 2019 年,英伟达用 69 亿美元的报价击败英特尔与 微软,成功收购了 Mellanox。
另一方面,以太网则在 2010 年发布了 RoCE 协议,基于以太网协议实现 RDMA,同 时在 2014 年提出了更加成熟的 RoCE v2。 进入大模型时代以来,全球数据中心快速转向智算化,因此主要的新增投资设备都需要 RDMA 连接方式的支持。但当下的竞争格局又与之前的 RoCE V2 与 IB 的竞争发生了 变化,由于英伟达在全球显卡领域的绝对领先地位,英伟达显卡对于 IB 的适配程度更 加完善,其中最明显的一点体现在 Mellanox 交换机部署的 Sharp 协议中。
由于在 AI 运算中,显卡与显卡之间需要大量的复杂 Reduce 通信,上文中也提到,这 也是 AI 通信系统工程中需要解决的核心问题,在 Mellanox 交换机产品中,在英伟达 的帮助下,公司创新性地在交换芯片中集成了计算引擎单元,可以支持相关 Reduce 计 算,从而帮助 GPU 减轻负载,但是相关功能需要 GPU 厂商的配合。 由此可见,AI 时代的通信协议之争,背后核心已然变成了显卡厂商的话语权之争,当下 来看,IB 协议凭借着英伟达的支持,占据了较好的竞争优势,而传统的以太网厂商们, 由于缺乏一款有力的芯片支撑,则在部分功能上稍显弱势。但是 AMD 带领下的超以太 联盟的出现,有望逐渐扭转这一局面。
2023 年 7 月 19 日,AMD、博通、思科、ARISTA、Meta、微软等来自计算芯片、网络侧以及用户侧的各个龙头厂商共同组建了超以太网联盟,我们认为,超以太网联盟成立的 目的便是为了能够在以太网的基础之上,搭建起一个完全开放,更加灵活,且性能超越 IB 的网络协议,从而与 IB 进行抗衡。
AMD 作为超以太联盟的核心成员,在 Mi300 系列发布会上,公司表示其显卡的后端连接 将会无条件使用以太网,同时用于节点内互联的 Infinity Fabric 协议,也将开放给以太网 厂商。我们判断,随着 AMD 和 UEC 联盟中博通等成员的合作进度逐渐加快,UEC 联 盟也有望真正形成一套类似于 N 卡+IB 的兼容与合作体系,从而给英伟达带来挑战。 但其过程注定漫长,从 AMD 侧单卡算力的追赶,再到博通侧交换芯片的进步,再到不 同厂商间的开放与合作,仍有许多路要走。 总结来看,节点间通信协议之争,已经渐渐的从原理之争演变成了话语权之争,使用何 种协议,更多的是 GPU 话语权的延伸,英伟达希望通过 IB 扩大全环节话语权,客户则 希望拥抱更加开放的 IB,行业的竞争将持续推动通信协议的持续进化。
上节我们讨论了 AI 需求是如何推动 RDMA 功能的进化与放量,同样,在网络硬件的领 域,AI 的新需求也正在带来除了速率更新外的其他变化,从传输介质、交换机、网络架 构乃至数据中心整体形态都在发生变化。
4.1 光、铜与硅,传输介质之争将走向何方
近年来,随着人类数据量快速膨胀,以及传输速率成倍提升,我们在无线网、固网等电 信侧率先迎来了光进铜退的浪潮,从最早的拨号上网,再到光纤入户乃至现在的 FTTR, 正式一轮轮光纤光缆对于铜线的逐步替代。 到了数据中心内部,光进铜退的进程也同样在进行,由光模块、AOC 等等光通信组成的 通信系统正在逐渐代替有 DAC,AEC 等组成的铜传输系统,这背后是高速率传输下,铜 介质衰减愈发剧烈的必然物理规律。如果没有 AI 带来的多样需求,随着服务器网口速率 逐代提升,光传输会渐渐向机柜内部持续渗透,并最终形成全光数据中心。 但 AI 的出现,给个“光进铜退”这一过程带来了一丝波折,或者说让市场产生了一定的 困惑。其背后的核心原因是:AI 带来了通信系统复杂度与造价的非代际线性增长,在指 数级的需求增加面前,高速率光模块变得愈发昂贵。因此,性价比更高的铜缆在当前速 率吸引力逐步提升,同时叠加散热等等配套部件的改善,显卡厂商得以将更多的计算单 元尽可能多的压缩在铜缆可以触及的单机柜范围内。
从背后我们不难发现,在 AI 时代,由于开支的增加,在当前 2-3 年的节点内,光铜之争 的核心从速率升级变为了成本先行,同时由于通信系统的复杂程度加速上升,简化与低 故障率亦成为了客户选择介质的关键考虑因素。 长距离跨服务器传输:光模块是唯一方案,降本与简化是创新方向。 由于铜缆的传输距离限制,所谓“光退铜进”也只能发生在短距离传输上,而面对 5 米以上的传输距离,也就是跨服务器或跨算力节点传输时,光传输仍然是唯一选择。但当 下,客户的除了关心常规的速率升级之外,对于成本和故障率(器件复杂程度)的追求 正在愈发急迫,这也带动了光通信行业未来的升级方向。 LPO/LRO:LPO 通过线性直驱技术替换传统的 DSP,将其功能集成到交换芯片中,只留 下 driver 和 TIA 芯片。LPO 光模块中用到的 TIA、driver 芯片性能也有所提升,从而实 现更好的线性度。LRO 则是在一端采用传统光模块,另外一端采用 LPO 光模块,从而使 得客户的接受度更高的一种过渡方案。 硅光:硅光通过成熟技术使得部分光模块的光引擎中的分立器件能够自动化集成在硅基 芯片上,从而能够实现大幅的成本降低,同时自动化生产和制程更新也能帮助硅光芯片 进行迭代,我们认为,LPO、硅光是行业进度最快的两个降本创新方案。
薄膜铌酸锂:铌酸锂材料是可靠材料中电光系数最优的选择(考虑居里点和电光系数)。 薄膜工艺拉进电极距离,降低电压提升带宽电压比。相比其他材料兼具大带宽/低损耗/ 低驱动电压等诸多光电最需要的优点。当下来看,薄膜铌酸锂主要用于高速率硅光调制 器,我们认为,使用薄膜铌酸锂调制器可以在 1.6T,3.2T 实现更好的性能。 CPO:CPO 指将光模块直接封装在交换机主板上,从而能够共享交换机主板散热,同时 缩短电信号在交换机主板上传输的距离,但是目前来看,由于 AI 中心中的光模块属于易 损品,共封装后维护难度较大,因此客户对 CPO 的认可程度还有待观察。 机柜内连接:成本与稳定双重优势下,铜线是中短期优势选择,随着长期速率上升,光 进铜退仍会发生。 DAC:Direct Attach Cable,即为高速铜缆,可以适应较短距离内的超高速连接,当前市 场主流 800G DAC 长度在 3 米以内,是一种拥有较高性价比的机柜内连接方案。 AOC:Active Optical Cables,有源光缆,即为两端提前完成一体化分装的光模块与光纤 构成的系统,其传输距离相较传统的多模或单模光模块较短,但是成本也较低,是超越 铜缆传输极限后的机柜内短距离连接选择。 关于硅的演进,当下的主流思路主要包括了 Chiplet 与 Wafer-scaling 两种,这两种方法 的核心思路都在于,通过更先进的半导体制造与设计工艺,从而扩大单块芯片能够承载 的计算单元数,并尽可能的使得更多通信发展在单块硅片内,最大化计算效率,这部分 内容我们在此前深度《AI 算力的 ASIC 之路——从以太坊矿机说起》中有详细介绍,在 本文中不再赘述。 综合来看,传输介质的更迭与竞争跟随需求而动,而当下的需求则非常明晰,在 MOE 等新训练框架下,模型参数往万亿规模进发,如何高性价比的实现更可能强的单节点算 力,或者说是扩大“HB-DOMIN”域的数量,从而使得模型的切分不必过于细碎,导 致训练效率的降低,无论是光、铜还是最底层的硅,都在此路线上不断努力。
4.2 交换机的创新:光交换机初出茅庐
交换机作为网络的核心节点,是承载通信协议的核心部件,在如今的 AI 集群内,交换机 也承担起愈发复杂的任务,如上文提到的 Mellanox 交换机中,其就通过 SHARP 协议兼 具了部分对齐运算的功能,帮助 AI 运算进行加速。
但另一方面,尽管如今的电交换机愈发强大,更新迭代的速度依旧稳定,但纯光交换似 乎正在成为一种全新的潮流。究其原因,我们认为,光交换机风潮的背后主要有两点原 因,第一,AI 参与者的巨头化。第二,AI 集群的加速扩大。 光交换系统相比于电交换系统,其去除了电芯片,使用光学镜片,对传入交换机内部的 光信号进行折射与分配,从而让其不经过转换,从而传入对应的光模块之中。与电交换 机相比,光交换机由于省去了光电转换的过程,因此功耗,时延等等会更低,同时由于 其不受制与电交换机芯片的容量上限限制,对于网络层数优化和单台交换机能够覆盖的 台数也有增加,但相反,使用光交换机需要专门设计网络架构让其适配,同时光交换机 的集群一旦建立,无法进行零散扩容,只能一次性扩容一整个网络集群,灵活性也较差, 此外,光交换机在目前阶段,没有通用版本,需要自研或者定制化设计,门槛较高。

但随着 AI 竞争正式进入巨头厮杀的后半程,巨头所拥有的 AI 集群规模正在快速扩大, 巨头拥有成熟的投资规划、网络架构的自研能力、以及充足的资金,因此在节点规模不 断扩大的今天,如谷歌等巨头客户正在加速 OCS 体系的研发与部署。
而回归到传统的电交换部分,如今的电交换机的创新,除了上文的协议部分,更多的集 中在了芯片部分,包括制程的迭代,功能的创新等等,同时,如博通等交换机厂商,凭 借自有 IP 在不同下游客户芯片处的运用,使得自身的与客户的绑定变得更强,结合通信 协议上的战队,在 AI 时代,交换机行业已经正式变成了芯片联盟之间的全方位比拼。
4.3 网络架构的创新:叶脊之后,走向何方?
网络架构则是协议与硬件外的通信系统的重要构成部分,架构决定了服务器中的数据以 何种路径进行传输,同时优秀的网络架构能够使得数据流量全域可达的同时,缩减时延, 保证稳定性。同时,网络架构还需要满足易于维护和扩容的需求,因此,架构是通信系 统从纸面设计走向实物工程中的重要一环。 现代社会的网络架构,从电话时代的矩阵图结构,再到 ClOS 网络模型为现代网络奠定 基础架构,CLOS 的架构核心是,用多个小规模、低成本的单元,构建复杂、大规模的 网络。在 CLOS 模型的基础上,逐渐发展出了各种网络拓扑结构,例如星型、链型、环 型、树型等架构,随后,树型网络逐渐成为主流架构。
树型架构主要经过了三代演变,第一代即为最为传统的树型架构,这种树型架构的特点 在于,每经过一层,带宽严格 2:1 收敛,即两个 100M 的下游设备接入交换机后,固定 输出一路 100M 的数据流,面对云计算到来之前较小的数据流,这种架构尚能应付,但 随着互联网以及云计算时代的到来,逐级收敛的带宽无法满足流量传输需求,因此一种 名为“胖树”的改进型架构被逐渐运用于数据中心。胖树架构采用三层交换机,其核心 理念是,使用大量的低性能交换机,构建出大规模的无阻塞网络。对于任意的通信模式, 总有路径让他们的通信带宽达到网卡带宽,但是在上层运用更加高级的交换机,让顶层 交换尽可能保持较低的收敛比。
“胖树”架构为现代数据中心的连接奠定了基础,但其本身也存在着诸如带宽的浪费、 难以扩容、难以支持大规模云计算等等问题,面对日益庞大的网络规模,传统胖树的缺 陷愈发明显。
于是在胖树的基础上,进化出了当下先进数据中心与 AI 集群使用的叶脊(Spine-Leaf) 架构,相比于胖树,叶脊更加强调扁平化,与繁复的三层胖树相比,每个低层级的交换 机(leaf)都会连接到每个高层级的交换机(spine),形成一个 full-mesh 拓扑。leaf 层 由接入交换机组成,用于连接服务器等设备。spine 层是网络的骨干(backbone),负责 将所有的 leaf 连接起来。这样的构型下,任意两个物理服务器之间的数据转发,其经过 的节点数都是固定的一台叶与一台脊交换机,保证了东西向流量的承载和时延,也通过 了脊交换机的扩容,避免了大量使用异常昂贵的核心层交换机,同时也可以通过随时增 加脊层交换机的数量,来对整个网络进行扩容。 当下来看,叶脊凭借其诸多优点,已经成为了主流 AI 集群与头部数据中心的标准架构, 但随着单个AI集群内部的节点数量急剧膨胀,同时AI训练过程中对于延时的极端追求, 胖树架构的一些问题也开始凸显,我们,第一,当规模急剧膨胀时,交换机的容量上限 更新是否能够满足显卡集群进化的速度。第二,叶脊在面对上百万计算节点的互联时, 是否还具备性价比?
叶脊架构的如上两个问题,也带领着网络架构层面的创新,我们认为,创新主要集中在 两个方向,第一,追寻超大节点数下的新型架构,第二通过诸如扩大 HB-DOMIN 叠加 软件优化的方式,在充分理解模型的基础上,缩减节点之间的流量沟通。 第一种解决方法的代表之一,便是蜻蜓(Dragonfly)架构,蜻蜓架构最早在 2008 年被 提出,最早被运用于 HPC 中,但由于其每一次扩展都必须重新布线,同时布线较为复杂, 所以即使其使用的交换机相较于 CLOS 架构的较少,但最终没能成为主流。但是如今在 海量节点和 AI 硬件资本支出昂贵的背景下,Dragonfly 架构逐渐开始重新受到业界前沿 的关注。在当下,随着上文提到的 OCS 光交换系统的出现,复杂的布线有望通过 OCS 进行简化,第二巨头对于 AI 集群的规划和资本支出节奏更为明确,因此 dragonfly 较为 繁琐的扩容过程也不再成为掣肘。第三,dragonfly 在时延上相较于叶脊,在物理层面更 具优势,当下如 Groq 等对于时延更为敏感的 AI 芯片已经开始采用该架构来构建集群。

第二种解决方法的代表之一,是 Meta 与 MIT 提出的 Rail-only 架构,Rail-Only 架构通过 将 GPU 分组,组成一个高带宽互联域(HB 域),然后再将这些 HB 域内的特定的 GPU 跨接到特定的 Rail 交换机,虽然增加了跨域通信的路由调度复杂度,但是通过合理的 HB 域和 Rail 交换机设计,整体架构可以大量减少交换机的使用,最多可以降低 75%的网络 通信耗费。这一架构也暗合上文提到的通过片间通信的创新,通过扩大后的 HB-DOMIN 域,给予训练切分和软件优化更多的实现空间,从而减少 HB-DOMIN 之间的交换机需求 量,为超大集群的网络降本提供空间。
4.4 数据中心集群的创新:未来算力网络的终极形式?
随着 AI 集群规模继续膨胀,单个数据中心的容量终将达到上限,这里的上限指的并非是 资本开支亦或是通信网络能够承载的节点上限,而是数据中心所在地的电力资源或是有 性价比的电力资源承载能力将达到上限。 2024 年初,微软与 OPENAI 开始探讨在 2028 年构建一台超级超算“星际之门”,根据The information 报道,星际之门最终整体计划可能涉及超过 1000 美元的投资,并需要 使用多达 5 千兆瓦的电力,这也将成为项目在芯片,资金之外,最急需解决的问题之一。 因此,在当下的行业前沿,如何通过智算中心之间的长距离互联,使得算力能够均匀分 布在有性价比电力的地区,避免因单一地区价格过高从而产生的算力成本上升或算力容 量上限。而数据中心之间的互联,相比集群内部互联体系,所使用的协议,硬件等等都 有很大的不同。 当下数据中心通常通过对上层交换机或核心交换机与外部网络相连接,而数据中心互联 网 DCI 则往往由运营商搭建,其采用长距离的相干光模块,虽然传输速率较长,但其速 率和稳定性相较数据中心用的光模块有较大差异,同时其价格居高不下,因此降本,重 新搭建架构都是在正式建设前需要考虑的问题。 但如若我们将视线拉到更加宏观的角度来看,单个的算力中心本质上与前文的一个 HB-DOMIN 域类似且功能更加强大,因此我们认为该类连接未来的发展路径,一方面是 加速对于相干光模块产业的投资,使其能够承担起 AI 中心互联的承载和容量要求,一方 面是加强数据中心内部的互联密度,将数据中心打造的更加类似于单个 HB 域,最后则 是对分布式软件和训练软件的创新,使其能够进行跨 IDC 的数据、模型切分以及并行。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)