2025年计算机行业专题报告:互联总线——Scale_Up能力跃升的关键通路

一、高速互联总线为大模型时代下的Scale-Up服务

计算机总线:连接系统与组件,以bit恒量带宽

总线接口就是系统或PCB的不同部件之间的数据传输的物理导线,计算机中的64bit处理器必须在一个总线接口上同时移动64bit数据。总线接口可以有三个主要功能:①发送数据(数据总线)②寻找特定的数据(地址总线)③控制系统中不同部分的运行(控制总线)。这三条总线合在一起称为系统总线,共同控制着CPU或微处理器的信息流。个人计算机的数据总线可以接收来自中央处理器的信息流,每次8~64bit。就像一根软管抽出的水不能超过管子的直径一样,连接到32bit处理器的总线不能在同一时间(每个时钟周期)传送或接收超过32bit的信息。这样一来,比特数的功能就是测量总线的“直径”或“宽度”。在早期,称为母线的线束将每个组件分别连接起来,但这种方法既慢又没有效率,为了提高速度和改善性能,计算机公司将接口的数量从胡乱连接的组件和模块群减少到两个芯片——北桥和南桥芯片组架构。

在北桥和南桥芯片组架构中,北桥通过前端总线(FSB)接于CPU接口,并把它与具有高性能要求的组件连接,如内存和图形模块。然后,北桥与南桥连接,南桥又与所有低优先级的组件和接口连接,如以太网、USB和其他低速总线。这些非北桥总线接口统称为外围总线。北桥和南桥在一个称为V0控制器集线器(ICH)的连接点上相互连接,它们一起称为芯片组。

服务器常见的计算机总线协议包括PCI e、Ethe rne t等

据《计算机组成原理(第3版)》唐朔飞,总线是在计算机系统模块化的发展过程中产生的,随着计算机应用领域的不断扩大,计算机系统中各类模块(特别是I/O设备所带的各类接口模块)品种极其繁杂,往往一种模块要配一种总线,很难在总线上更换、组合各类模块或设备。20世纪70年代末,为了使系统设计简化,模块生产批量化,确保其性能稳定、质量可靠,实现可移化,便于维护等,人们开始研究如何使总线建立标准,在总线的统一标准下,完成系统设计、模块制作。这样,系统、模块、设备与总线之间不适应、不通用及不匹配的问题就迎刃而解了。

服务器常用总线协议指的是服务器中用于连接和通信的标准接口协议。据Worktil e,总线协议定义了计算机系统中数据传输的规范和约定,以确保各个硬件设备能够正常的通信和工作。常见的服务器总线协议有以下几种:1)PCIe(PCI Express)总线协议:P C I e 是 一 种 高 速 串 行 总 线 协 议 , 用 于 连 接 计 算 机 主 板 和 外 部 硬 件 设 备 , 提 供 更 高 的 传 输 速度和更可靠的连接。2)USB(Universal Serial Bus)总线协议:USB是一种用于连接外部设备和计算机的通用串行总线协议,具有热插拔、高带宽和广泛的应用支持,普遍应用于服务器中的外部存储设备和外围设备。3)SAS(Seri al Att ached SCSI)总线协议:SAS是一种将SCSI协议用于串行传输的接口标准,主要用于连接磁盘驱动器和其他存储设备。4)Ethe rne t总线协议:Et he rne t是一种用于局域网通信的协议,常用于服务器之间的数据传输和网络通信。

大模型时代下的Sc a l e -Up对高速互联协议产生新需求

大模型需要采用多机多卡集群的方式进行训练,主流的并行训练方式有数据并行、模型并行(张量并行、流水线并行)、专家并行等。张量并行和专家并行的并行计算方式,每次迭代数据量达几百GB,GPU互联需要超高带宽和极低时延,以压缩GPU之间的通信开销成本,此时纵向扩展成为必然—Sc a l e -Up网络是一种追求极致性能的算力资源纵向扩展网络。

Sc a l e -Up网络技术要求,1)高带宽:算力、算据、算法需求在大模型时代呈现高速增长态势,传输链路带宽的提升速度远远落后于AI算力的快速增长。参数量、数据量的指数级增长带来了内存墙问题;所需带宽下限:B=D×N/T(单位:GB/s),B为网络带宽需求,D为单次通信的数据量,T为单次迭代的计算时间,N为通信频率,PCI e带宽已不能满足Sc al e -Up网络的带宽需求,为了解决这个问题,英伟达开发了NVLink总线。2)低时延,通常要求Sc a l e -Up网络时延控制在1 u s以下。3)高可靠,高可靠性是Sc a l e -Up网络的基本需求,因为计算任务的确定性,网络异常都会导致计算时长增加甚至无法完成任务。

Sc a l e -Up网络关键技术,1)物理层:Sc a l e -Up网络物理层首先要考虑带宽问题,网络物理层需要针对时延优化;2)链路层:相对标准以太网或者PCI e总线,Sc a l e -Up网络需要在协议上精简,以降低协议开销。在超节点内部场景中,NVLi n k的传输效率可达9 4%,以太网在2 5 6Byt epayload下的理论传输效率约为8 2%;3)事务层/传输层:计算单元需要内存语义,直接使用和控制计算机内存的机制和规则。

二、Scale-Up中高速互联协议NVLink领先、众厂商追赶

PCI e协议与交换机是传统的计算机扩展总线标准

据半导体行业观察公众号,PCI e(Pe rip h e r a l Comp o n e n tI n t e r c o n n e c t Ex p r e ss)最初由I n t e l在2 0 0 1年提出,是一种高速串行计算机扩展总线标准,用于连接主板和高速外围设备,后续交由PCI- S I G(PCI特殊兴趣组织)认证后,该标准被命名为“ PCI-Ex pr e ss”,简称“PCI e ”,旨在替代旧的PCI、PCI-X和AGP总线标准。作为现代计算平台的核心互联技术,PCI e凭借串行总线架构实现了对传统PCI并行总线的全面革新。相较于并行传输模式,PCI e通过三大核心特性突破了传统技术的局限:1)串行通信机制:以串行传输替代并行架构,从物理层减少信号干扰,显著提升数据传输效率与有效距离;2)点对点连接设计:每个外设通过独立链路直接对接根复合体,消除总线竞争瓶颈,实现数据传输的直接性与高效性;3)可扩展带宽能力:支持通过通道(Lan e)数量线性扩展带宽,灵活匹配不同设备的性能需求。

这些技术特性不仅为显卡、存储设备、网卡等外设提供了远超传统PCI的传输带宽与更低延迟,更通过高效资源调度降低系统占用,成为支撑当代计算机硬件高速互联的核心技术基石,深刻影响着整个计算系统的架构设计与性能优化方向。

英伟达NVLink:Sc al e -Up中实现GPU与GPU间高速互联

AI和HPC工作负载的性能需求继续快速增长,需要扩展到多节点、多GPU系统。大规模提供卓越性能需要每个GPU之间的高带宽通信,NVIDIA NVLink规范旨在与NVIDIA GPU协同工作,以实现所需的性能和可扩展性。NVLink的一个关键优势是它提供了比PCI e大得多的带宽。第四代NVLi n k每个通道的带宽为1 0 0Gb p s,是PCI e Ge n 5的3 2Gb p s带宽的三倍多。可以组合多个NVLink以提供更高的聚合通道数,从而产生更高的吞吐量。

NVIDIA NVSwitch首先与NVIDIA V100 Tensor Core GPU和第二代NVLink一起推出,实现了服务器中所有GPU之间的高带宽、任意连接。NVIDIA A100 Tensor Core GPU引入了第三代NVLink和第二代NVSwitch,使每CPU带宽和减少带宽都增加了一倍。使用第四代N V L i n k和第三代N V S w i t c h,具有八个N V I D I A H 1 0 0 Te n s o r Co r e G P U的系统具有3 . 6 TB/s的二等分带宽和450GB/s的缩减操作带宽。与上一代相比,这两个数字分别增加了1.5倍和3倍。此外,使用第四代NVLink和第三代NVSwit ch以及外部NVIDIA NVLink交换机,现在可以以NVLink速度跨多台服务器进行多GPU通信。

华为灵衢(UB)总线:开源,协议归一,众硬件平等

基于灵衢的超节点参考架构具备如下六大特征:1、总线级互联:基于灵衢的总线级互联,提供百n s同步内存语义访问时延和2~5 u s异步内存语义访问时延,满足算力单元高并发的访问需求;提供组件间TB/s级带宽,相比传统数据中心网络带宽至少提升1 0倍。2、协议归一:基于灵衢的协议归一,支持超节点内不同类型、不同距离的组件统一互联,访问无协议转换开销,组件包括CPU、NPU、GPU、MEM、DPU、SSU和Swi t ch等;提供统一的编程模型。3、平等协同:基于灵衢的平等协同机制,支持超节点内所有组件去中心化的互相访问、调用和协同工作,提升组件间访存和通信性能。4、全量池化:基于灵衢和Li n u x操作系统的灵衢扩展组件,提供超节点的设备管理、内存管理、通信和虚拟化等功能,支持超节点资源的高效池化管理和调用,提升资源弹性和利用率。5、大规模组网:支持超节点以大于9 0%的线性度从单节点扩展到8 1 9 2卡,未来还将持续提升至1 5 4 8 8卡,甚至更大规模;支持超节点通过UBoE构建百万卡规模的集群,兼容以太组网。6、高可用性:基于灵衢的可靠机制,支持超节点内应用无感知的u s级检错和容错,在8 1 9 2卡超节点范围内实现光互连MTBF(Me a n Time Be twe e n Fa il ur e s)大于6 0 0 0小时。

灵衢包含以下要素:UB Pro c e ssing Unit(UBPU)是支持UB协议栈的处理单元,实现特定功能。UB Contr o ll e r是UBPU中执行UB协议栈的组件,并提供软硬件接口。UB Memo r y Ma n a g eme n t Un it(UMMU)是UBPU中执行内存地址翻译和访问权限控制的组件。UB Swit c h是Swit ch中的必选组件,在其他UBPU中是可选组件,支持在UB端口间转发报文。UB Li n k是UBPU间的点到点连接。UB Doma i n是一个全部使用UBLi nk连接起来的UBPU集合。UB Fa b ri c是UB Doma i n内所有UB Swit c h和UB Li n k的集合。UB o v e r Et h e r n e t(UBoE)通过以太/IP网络承载UB事务,实现跨UB Doma i n互通。

三、NVLink走向开源,互联技术应服务高带宽和低延时

NVLink Fusi on部分开源合作,以应对各大厂商的挑战

2025年5月,NVIDIA发布NVIDIA NVLink Fusion,这款全新芯片将助力行业用户通过全球领先且广泛采用的计算互连架构——NVIDIA NVLi n k打造的强健合作伙伴生态系统,构建半定制AI基础设施。Me d i aTe k、Ma r v e l l、Al c h i p Te c hnol ogi es、Ast e r a Labs、Synopsys和Cadenc e是首批采用NVLink Fusion的厂商,可支持定制化芯片纵向扩展(Sc a l e -Up)以满足模型训练和代理式AI推理等要求严苛的工作负载的需求。使用NVLink Fusion,富士通和Qua l comm CPU还可与NVIDIAGPU进行整合,以构建高性能的NVIDIA AI工厂。

NVLink Fusion还为云服务商提供了便捷的途径,他们可以使用自定义ASIC、NVIDIA机架级系统和NVIDIA端到端网络平台,将AI工厂扩展到数百万个GPU。该平台支持高达800Gb/s的吞吐量,搭配NVIDIA Connec tX-8 Supe rNIC、NVIDIASpectrum-X以太网和NVIDIA Quantum-X800 InfiniBand交换机,以及即将到来的光电一体化封装网络交换机。

算力需求演进对互联技术实现高带宽、低时延提出更高要求

模型需求演进:文章《Scaling Laws for Neural Language Models》中指出,随着模型规模、数据集规模及训练计算量的增加,语言建模性能呈现平滑提升趋势。要获得最优性能,这三个因素必须同步提升。当其他两个因素未形成瓶颈时,实证性能与各独立因素均呈现幂律关系。模型性能主要受规模影响,对模型结构的影响较小。具体而言,模型性能最显著地取决于三个要素:模型参数数量(不含嵌入层)、数据集规模以及训练所需的计算资源。在合理范围内,性能对深度与宽度等架构超参数的依赖性极低。 

训练不足:在文章《Training Comput e-Optimal Large Language Models》中,作者研究了在给定计算预算下训练Tr ansformer语言模型的最佳模型规模和训练标记数量。研究发现,当前大型语言模型存在显著训练不足的问题,这是近期在保持训练数据量不变的情况下过度追求模型规模扩张的结果。

报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告