节点内外多种互联协议并存。
智算中心内部网络互联可以分为节点内互联和节点外互联(此处以服务器为节点),节点内互联包括处理器之间、处理器与外设及存储之间互联,节点外互联主要指服务器之间互联。 计算体系多种互联协议:自1978年intel开创x86体系以来,逐步衍生出各种物理特性、传输特性和功能特性不同的互联协议。 处理器之间:UPI、CXL、PCIe、NVLink等; 处理器与外设及存储之间:Pcie、CXL、NVLink、SATA、SAS、NVMe等; 节点之间:Ethernet、IB等。

节点内:私有方案以英伟达NVLink为代表。大模型场景,私有和开放技术方案并存。针对传统传统的中小模型,PCIe技术方案已经非常成熟;面向大模型场景,基于扣卡模组的卡间高速互联方案主要分为私有和开放技术两大类,私有方案以英伟达NVLink为代表,开放技术方案以OAM和UBB为主。 私有方案以英伟达NVLink为代表。2014年英伟达发布第一代NVLink,旨在实现GPU芯片间低延迟、高带宽的数据互联,相较于传统PCIe方案,CPU和GPU之间共享数据的速度大幅提升。
传统PCIe方案:PCIe由Intel 2001年推出,主要用于连接CPU和各类高速外围设备,采用点对点的连接方式,平均3年迭代一次;在传统PCIe方案中,GPU发出的信号要先传递到PCIe Switch,PCIe Switch中涉及到数据的处理,CPU会对数据进行分发调度,会引入额外的网络延迟,限制了系统性能。NVLink方案:以P100方案为例,拥有4条NVLink,单条NVLink是一个双向接口,包括32个链路,每个方向形成8个差分(采用基于差分信号线的高速串行通信技术),单条NVLink提供40GB/s带宽(通过将多个Sub-Link组成Port,实现GPU之间的快速数据传输),合计提供160GB/s带宽。
NVLink已经发展至第五代产品。NVLink已经发展至第五代:第一代到第二代的演进主要是互 联拓扑的改变,从cube直连变为Switch交换拓扑;第三代在 通过增加单卡的NVLink通道数提升点到点(P2P)带宽,第 四代通过完善多种协议内容,进一步实现C2C(Chip to Chip)、AI卡间以及服务器节点的统一连接;第五代带宽大 幅提升,同时支持576个GPU之间的无缝高速通信。 NVSwitch:节点交换架构。NVSwitch是一种类似交换机的物 理芯片(Asic),通过其接口可以将多个GPU高速互联在一 起,实现所有GPU在一个具有全带宽连接集群中协同工作。
开放技术方案以OAM和UBB为主。开放技术方案:2019年OCP组织为降低整机厂家集成多家AI芯片的适配难度,发起开放加速器基础设施项目(OAI),定义了业内通用的AI扣卡模组形态(OAM)-基板拓扑结构(UBB)设计规范,以8张OAM为一个整体,进一步定义了8*OAM的Baseboard的主机接口、供电方式、散热方式、管理接口、卡间互联拓扑、Scale Out方式。

系统架构:OAM模块承担起单个GPU节点的AI加速计算能力,通过符合UBB v1.5base规范的基板完成OAM间的7P*8FC(全互联)、6P*8HCM(混合立方互联)等高速互联拓扑实现多OAM数据低延时共享,利用RDMA网络部署实现对外拓展完成集群互联,最大程度上发布OAM计算性能并降低通信带宽限制。 AI扣卡模组形态(OCP Accelerator Module,OAM):OCP-OAI定义了OAM的结构形态及互联接口,以此促进跨加速器通信的可拓展性。 基板拓扑结构(Universal Baseboard,UBB):UBB基板可以承载8个OAM模块,形成一个AI加速计算子系统,尺寸为16.7*21英寸,可以放在19寸、21寸机柜中。
节点间:主要方案为Infiniband和RoCEv2。RDMA技术是降低卡间通信时间的关键技术。在分布式场景中,整体算力并不是随着智算节点的增长而线性增长,而是存在加速比(通常小于1,由于存在卡间通信时间),RDMA技术可以绕过操作系统内核,直接访问另一台主机内存,从而大幅降低卡间通信时间。主要方案为Infiniband和RoCEv2。实现RDMA的方式有Infiniband、RoCEv1、RoCEv2、iWARP,其中RoCEv1已经被v2替代,iWARP使用较少,目前主要方案为Infiniband和RoCEv2。
InfiniBand网络核心组成。Infiniband网络主要包括InfiniBand网卡、InfiniBand交换机、Subnet Management(SM)、连接件组成。目前,英伟达是InfiniBand网络方案和设备最主要供应商,其他供应商还包括intel、Cisco、HPE等。 英伟达:InfiniBand技术的主要供应商,提供各种InfiniBand适配器、交换机和其他相关产品; Intel:InfiniBand另一重要供应商,提供各种InfiniBand网络产品和方案; Cisco:知名网络设备制造商,也提供InfiniBand交换机和其他相关产品; HPE:大型IT公司,提供各种InfiniBand网络解决方案和产品,包括适配器、交换机和服务器等。
节点间:InfiniBand网络特点-无损&万卡拓展能力。原生无损网络:InfiniBand网络采用基于Credit信令机制,从根本上避免缓冲区溢出丢包。 发送端只有在确定接收端有额度能接受对应数量的报文后,才会启动报文发送; 每一条链路都有预置缓冲区,发送端一次发送的数据不会超过接收端可用预置缓冲区的大小;接收端完成转发后会腾空缓冲区,并持续向发送端返回当前可用的预置缓冲区大小;通过该流控机制,可以确保发送端绝不会发送过量,网络中不会产生缓冲区溢出丢包。 万卡拓展能力:InfiniBand的Adaptive Routing基于逐包的动态路由,在超大规模组网的情况下保证网络最优利用。

节点间:RoCEv2网络核心组成。RoCEv2网络是一个纯分布式的网络,由支持RoCEv2的网卡和交换机、连接件、流控机制组成,一般情况下是两层架构。连接件使用传统光纤和光模块即可,流控机制通常使用PFC、ECN和DCQCN。 设备供应商:1)交换机:支持RoCE交换机供应商较多,新华三、华为等占据主要市场份额。2)网卡:目前英伟达ConnextX系列网卡占据主要市场份额。