1.1. Serdes 持续升级,推动 GPU 互联带宽迭代增长
算力芯片的互联带宽已成为衡量其系统级性能的核心指标,而决定这一指标上限的 底层技术在于 SerDes 的代际演进。作为高速 IO 端口的关键组件,SerDes 负责将芯片 内部并行数据流转换为高速串行信号,其单 lane 速率直接定义了 GPU 对外互联的带宽 天花板。回顾英伟达 GPU 架构迭代路径,SerDes 速率呈现清晰的倍增规律:Ampere 架 构采用56Gbps SerDes支撑NVLink 3,Hopper架构升级至112Gbps SerDes对应NVLink 4,当前 Blackwell 架构则跃迁至 224Gbps SerDes 实现 NVLink 5 的带宽突破。这一技术 演进并非简单的参数提升,而是直接决定了单机柜算力密度的理论上限——当 Rubin Ultra 机柜带宽达到 1.5PB/s 量级时,其底层必然对应着 SerDes 向 448G 乃至更高的跨 越式升级。

在分析 NVLink 带宽时,需首先厘清英伟达在计算口径与硬件定义上的技术混淆。 一方面,GPU 计算侧通常沿用内存带宽的计量习惯,以字节每秒(Byte/s)为单位表述 总线带宽;另一方面,NVLink Switch 及 IB/Ethernet 交换设备则采用网络设备视角,以 比特每秒(bit/s)计量物理层传输速率。更深层的混淆在于 NVLink 的物理层定义:自 NVLink 3.0 起,英伟达采用"sub-link"作为基本物理单元,每个 sub-link 由 4 对差分信号 线构成,同时包含独立的发送(TX)与接收(RX)通路。这与传统网络设备中"一个 400Gbps 接口指单方向 400Gbps 收发并发"的定义存在本质差异,导致同一物理接口在 不同语境下呈现不同的带宽数值。
以 Hopper 架构的 H100 为例可具体说明这一计算逻辑。H100 采用 112G SerDes, 经编码开销调整后单对差分线实际承载 100Gbps 有效数据。由于每个 sub-link 包含 4 对 差分线且支持双向并发传输,其单向网络带宽为 4×100Gbps=400Gbps,而双向总带宽 换算为字节单位则为 400Gbps×2÷8=100GB/s。但英伟达在 GPU 侧通常将收发合并表 述为 50GB/s per sub-link(单向字节数),H100 共集成 18 个 sub-link,故总互联带宽表 述为 50GB/s×18=900GB/s。进入 Blackwell 时代,B200 采用 224G SerDes,单对差分线 速率提升至 200Gbps,单个 sub-link 单向网络带宽达 800Gbps(即 4×200Gbps),对应 100GB/s 的双向字节带宽。18 个 sub-link 共同构建出 1.8TB/s(100GB/s×18)的 NVLink 5 总带宽,从网络设备视角等效于 9 个 400Gbps 单向接口的聚合能力。
展望未来,SerDes 的迭代速度将进一步加快。根据英伟达官方技术路线图,Rubin 架构机柜级互联带宽较 GB200 提升 2 倍至 260TB/s,而 Rubin Ultra 更将跃升 12 倍至 1.5PB/s。这一带宽跨越无法通过简单的 lane 数量堆叠实现,必须依赖 SerDes 单 lane 速率的代际突破。基于当前 224G SerDes 支撑 1.8TB/s 单芯片带宽的技术基线推算,要实现 PB 级机柜互联,SerDes 速率必然向 448G PAM4 乃至 896G PAM6 演进。这意味着 下一代算力芯片的物理层设计将面临更严峻的信号完整性与功耗挑战,同时也为高速传 输介质、光电封装技术产业链带来确定性的升级需求。
1.2. Serdes 速率提升,推动 CCL 升级
当 SerDes 速率沿着 56G-112G-224G 的路径持续攀升,并朝着 Rubin 时代 448G 乃至 896G 演进时,带宽增长的物理代价开始显现。如前文所述,Rubin Ultra 机柜要实 现 1.5PB/s 的互联带宽,意味着单链路速率必须突破当前 224Gbps 的物理极限。然而, 电信号传输遵循基本的物理规律:224Gbps PAM4 调制信号的奈奎斯特频率已达 56GHz, 若进一步升级至 448G PAM4,频率将飙升至 112GHz。在此频段下,传统 M7/M8 级别 覆铜板的介质损耗呈指数级增长,信号在传输数英寸后便会衰减至无法恢复的程度。这 意味着,若不解决传输介质的物理瓶颈,前述的带宽代际升级将无从落地,PCB 材料体 系被迫迎来从 M7/M8 向 M9(Df<0.001)的强制性跃迁。

而 CCL 材料升级的首要环节在于增强材料的革新。传统 PCB 采用 E-glass 玻纤布(Dk≈6.6,Df≈0.001),其介电常数(Dk)和损耗因数(Df)在高频下表现不佳。为匹 配 224G 以上 SerDes 需求,产业界正加速导入 Low Dk 玻纤布乃至熔融石英布。石英布 凭借极低的介电损耗成为 M9 材料的核心选项,但其硬度高、编织难、与树脂结合力弱 等工艺难点,导致目前仅少数头部覆铜板厂商具备量产能力。这种材料壁垒直接决定了 M9 覆铜板的供应稀缺性。 此外,树脂基体体系的变革则是 M9 材料实现低损耗的根本保障。传统环氧树脂 (Epoxy)因含羟基、环氧基等极性基团,Df 值较高,难以满足 112G 以上 SerDes 的低 损耗需求。在 AI 算力及高频通信领域,其正逐步被聚苯醚(PPO)、碳氢树脂乃至苯并 环丁烯(BCB)等低极性材料替代。特别是 BCB 树脂,其 Df 值可低至 0.0008,且玻璃 化转变温度>350°C,成为支撑 224G SerDes 及 CPO 封装的前沿候选材料。碳氢树脂体 系则通过引入氢化环烯烃共聚物与聚丁二烯共混改性,配合球形硅微粉的界面极化抑制 技术,在 M8/M9 级别实现 Df<0.001 的平衡性能。这些特种树脂的合成涉及分子量精 准控制、低极性交联剂选择及填料表面改性,构成了覆铜板厂商的核心 Know-how。
最后,CCL 铜箔表面处理技术的同步升级同样关键。高频信号遵循趋肤效应,在 224Gbps 速率下,信号在铜箔表面的趋肤深度仅约 0.4μm,铜箔表面粗糙度(Rz)若过 大将显著增加导体损耗。传统 HTE(高延伸率)铜箔 Rz 值约 3-5μm,已无法满足需求; 产业正向 HVLP4 乃至 HVLP5 铜箔迁移。更先进的 VLP(Very Low Profile)与 ULP(Ultra Low Profile)铜箔通过特殊晶粒结构控制与表面粗化处理工艺,在保障与树脂结合强度 的同时,将表面粗糙度降至亚微米级,确保 56GHz 以上信号的传输完整性。 从产业投资视角看,SerDes 向 448G 演进将引发 PCB 材料体系的代际替换潮。我 们预计 M9 级别 CCL 在 AI 服务器 PCB 中的渗透率将从 2026 年快速提升,驱动覆铜板 行业价值量重构。建议重点关注具备石英纤维、石英布编织技术、HVLP4/5 铜箔量产能 力,以及 BCB/碳氢树脂配方的上游材料龙头。这一技术升级并非简单的工艺改进,而是 由算力芯片物理层速率瓶颈决定的必然选择,产业链准备度与认证壁垒将决定未来两年 的竞争格局。
1.3. Serdes 功耗提升,推动光互联向近封装、共封装升级
SerDes 速率的指数级提升在突破带宽瓶颈的同时,也带来了严峻的功耗挑战。缩 短光电转换点与交换芯片之间的电气距离,减少甚至消除高功耗 DSP 的使用,成为光 互联技术演进的核心逻辑。当前 800G 光模块采用 8×100G SerDes 架构,单模块功耗已 达 12-18W;随着 SerDes 向 200G/lane 演进,1.6T 光模块(8×200G)功耗已飙升至 25- 30W,其中 DSP(数字信号处理器)用于补偿信道损耗的功耗占比超过 50%。更严峻的 是,当 SerDes 速率向 448G 乃至更高迭代时,电信号在 PCB 走线及连接器中的高频损 耗呈指数级增长——根据 OIF(光互联论坛)数据,448G PAM4 信号在标准 PCB 上的 插入损耗可达 20-50dB,必须依赖更高阶的 DSP 算法进行补偿,这将导致单通道功耗突 破 15W,3.2T 光模块整体功耗将接近 40W。业界预计届时 SerDes 在交换芯片中的功耗占比将超过 40%,热流密度高达 50W/cm²,传统风冷散热已触及物理极限。因此,单纯 依靠工艺微缩和算法优化已无法破解功耗困局,缩短光电转换点与交换芯片之间的电气 距离,减少甚至消除高功耗 DSP 的使用,成为光互联技术演进的核心逻辑。 NPO(Near Packaged Optics,近封装光学)作为过渡性方案,率先在产业化路径 上取得突破。该技术将光引擎通过 LGA 连接器直接部署在交换机板上,与交换芯片的 物理距离缩短至 150mm(符合 OIF 标准),远小于传统可插拔模块 15-30cm 的走线长度。 电气路径的缩短显著降低了高频信号衰减,使得光引擎完全省去高功耗 DSP 芯片,采用 线性直驱架构,仅保留 Driver 和 TIA 等模拟器件,从而相较传统可插拔模块降低 50% 以上功耗,更为重要的是,NPO 保留了光引擎的可拆卸性,支持热插拔维护,避免了与 交换芯片绑定封装带来的良率风险及"故障需更换整机"的运维难题。因此,NPO 成为云 服务商现阶段优先落地的技术方案——如阿里云在 UPN512 超节点(512 颗 xPU 全互联 架构)中明确采用 NPO 作为核心使能技术,并已成功点亮全球首款 3.2T NPO 光模块。

CPO 则代表了中期内的终极解决方案。该技术将光引擎与交换芯片共同封装在同 一 IC 载板或硅中介层上,电气连接距离进一步压缩至 50mm 以内(符合 OIF 标准),部 分基于 FOWLP 的先进方案甚至实现亚毫米级的极短互连。根据博通与 Meta 的联合实 测数据,CPO 方案可将 800G 光互联功耗从传统可插拔模块的 15W 降至 5.4W,系统整 体能耗降低 65%以上。英伟达技术数据显示,CPO 可将每端口功耗从 30W 降至 9W, 信号完整性提升 64 倍。然而,CPO 面临光引擎与交换芯片绑定封装导致的良率耦合问 题——一旦光引擎失效需整体更换 ASIC 模组,维护成本高昂,因此业界预计将在 2026- 2027 年随着封装工艺成熟逐步商用。
OIO(Optical I/O,光学 I/O)则是面向 Rubin 及更远期架构的终极愿景。该技术 将光收发功能直接集成至计算芯片的封装基板或硅中介层上,与 HBM 及计算裸片通过 TSOV 实现 3D 堆叠,彻底取代传统的电 I/O 接口。OIO 可将光引擎、GPU、HBM 置于 同一封装内,实现芯片级光互连。根据中国信通院数据,相比传统可插拔方案,OIO 可 将数据传输带宽提升 7 倍,功耗降低至 1/5,尺寸缩小至 1/12。Intel 的 OCI(Optical Compute Interconnect)Chiplet 已验证该架构可行性,其 4Tbps 双向传输速率与<5pJ/bit 的能效显著优于电 I/O 方案。尽管目前 OIO 仍处于实验室向产业化过渡阶段,Yole 预测 其商业生态需 5 年以上方能完全爆发(Yole 预计 2033 年市场规模达 23 亿美元),但已 代表了"光进铜退"在芯片尺度的终极形态。
从 NPO 到 CPO 再到 OIO,光互联技术正沿着"板级近封装→载板共封装→芯片内 集成"的路径持续演进,以应对 SerDes 向 448G/896G 升级带来的功耗与带宽密度双重挑 战。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)