英伟达GB200服务器看点在哪?

最佳答案 匿名用户编辑于2024/10/08 14:07

72xGPU 高密服务器方案,机柜内呈现“铜进”趋势。

英伟达于今年 3 月在 GTC 大会中发布多节点、高密度、液冷型的机架级系统 GB200,适 用于计算密集型的工作负载。GB200 主要有 GB200 NVL72 和 GB200 NVL36*2 两种形态, 它们结合了 36 个 Grace Blackwell 超级芯片,其中包括 72 个 Blackwell GPU 和 36 个 Grace CPU,这些 GPU 通过双向 1.8TB/s 的第五代 NVLink 互连。与相同数量的英伟达 H100 Tensor Core GPU 相比,GB200 NVL72 可将 LLM 推理工作负载的性能提高 30 倍,并将成 本和能耗降低 25 倍。

本次 GB200 新架构的亮点在于大量采用“铜连接”设计,从 DGX H100 到 GB200 呈现明 显的“铜进”趋势。我们回顾英伟达 DGX H100 到 GH200 再到 GB200 的服务器架构演进 史发现,随着 GPU 带宽和机柜密度的不断提升,机柜内铜连接的使用量也随之增长。在 DGX H100 阶段,H100 通过 NVLink 4.0 进行连接,交换机与服务器、交换机与交换机之 间以光连接方案作为主导;在 GH200 阶段,机柜密度开始提升,柜内部分互联改用铜连接, 但光连接仍在机柜间互联中占据主导地位;在 GB200 阶段,机柜密度再次升格,B200 开 始通过 NVLink 5.0 进行连接,最明显的一处变化在于背板连接由过去的 PCB 整板转变到 背板连接器+铜缆的形式,另外板内、机柜间的铜缆用量也显著增加。

我们认为,随着 GPU 单卡算力升级,对传输带宽要求也同步提升,同时机柜集成度增加、 算力密度增加,也缩短了传输距离,在机柜内短距传输场景中,铜连接能够以较低的成本 实现与光连接相近的高速传输能力,且经由屏蔽设计的铜缆相比 PCB 连接能提供更优异的 传输信号完整性和抗电磁干扰性。此外,对于像 GB200 NVL72 这样的高密度、超节点架 构来说,机柜对于功耗更加敏感(B200 单卡功耗超过 1000W),而铜连接多为无源器件, 天然具备低功耗优势。综合来看,高速铜连接在现代 AI 集群短距传输中优势凸显,我们判 断未来机柜内部铜连接应用仍将呈增长趋势,且随着集群密度的进一步提升,机柜间亦有 望增加铜连接的使用。

依照前述框架,高速铜连接在数据中心机柜内中有三大典型应用场景:背板连接、近芯片 连接与外部 I/O 连接,我们梳理 GB200 架构中各部位铜连接应用如下:

1)背板连接:包括计算 Tray 和 NVSwitch Tray 之间的高速连接铜缆,它们两头分别连接 计算 Tray 和 NVSwitch Tray 上的 Paladin 背板连接器。具体来看,以 GB200 NVL72 为 例,GB200 NVL72 由 18 个计算 Tray、9 个 NVSwitch Tray 以及顶端的 IB 交换机构成,机 柜背部由密集的高速铜缆实现 Tray 间互联。

2)近芯片连接(Tray 内部或板内):主要是 NVSwitch Tray 板上的芯片与前端 OSFP 以 及后端背板连接器相连的 Overpass 跳线,以及计算 Tray 板上的 GB200 芯片与前端 OSFP 以及后端背板连接器相连的连接线(一般 PCIE 5 线已经够用,这部分我们不算在高速铜连 接内)。 具体来看:1)NVSwitch Tray:每个 Tray 由 2 个 28.8Tb/s 的 NVLink Switch5 ASIC 构成, 单个 NVSwitch 芯片周围共有 4 个铜缆端口,每个端口通过大量的 overpass 与安费诺的 Paladin HD 背板连接器相连(见下图淡蓝线),此外 NVSwitch 芯片还需额外的 DensiLink 跨接电缆与 OSFP CAGE 进行连接(DensiLink 亦属于 Overpass 跳线的一种);2)计算 Tray:每个计算 Tray 包含 2 个 Bianca 板,每个 Bianca 板包含 1 个 Grace CPU 和 2 个 Blackwell GPU,计算节点内部存在高速跳线(overpass),GB200 芯片结合体与 Tray 上 的 OSFP CAGE 之间亦有铜连接。

3)外部 I/O 连接:主要包括机柜间的 ACC(仅存在于 NVL36*2 机柜型),相比 NVL72 来 说,NVL36*2 形态下的 GB200 服务器需要额外的 9 组高速铜缆(据 SemiAnalysis 测算, 共 18*9=162 条 1.6T 双端口水平 ACC)来实现两个机柜的 NVSwitch Tray 的互联。此外, 需要额外的 I/O 连接满足计算设备与网络设备之间的互联。