通信设备行业在AI时代迎来了新的发展机遇,特别是在交换机领域,出现了显著的产业变革。本文将深入探讨AI时代交换机的四大变革机遇,包括组网架构的变革、高速交换机的需求增长、白盒化趋势以及光交换机的商用化进程。通过对这些变革的分析,本文旨在为读者提供全面、客观的行业洞察。
在AI时代,交换机的组网架构发生了显著变化。传统的网络架构主要依赖于前端组网,而AI服务器的引入增加了后端组网的需求。AI服务器相比传统服务器,新增了GPU模块,这些模块通过网卡与其他服务器或交换机互联,实现各节点之间的通信。因此,AI服务器组网增加了每台服务器的网络端口数量,拉动了对高速交换机、网卡、光模块和光纤光缆等组件的需求。
AI集群的规模不断扩大,从百卡、千卡拓展至万卡、十万卡,甚至百万卡集群。随着AI模型参数的持续增长,集群规模的扩展推动了组网架构从两层向三层、四层架构的演进,带来了大量高速交换机的需求。以太网网络凭借其深厚的根基和众多的生态厂商,在AI网络中占比有望持续提升,尽管IB网络在低延迟、堵塞控制和自适应路由等方面具有优势,但以太网方案的优化和超以太网联盟的发展将进一步推动以太网交换机的需求增长。
RDMA技术在智算中心组网中的广泛应用也是一个重要的推动因素。RDMA技术通过绕过操作系统内核,使得一台服务器可以直接访问另一台服务器的内存,显著降低了通信时延,提高了资源利用率和训练效率。RDMA技术的三种实现方式中,RoCEv2技术基于以太网,具备成本优势和丰富的生态系统,预计未来在RDMA市场中的占比将持续提升。
AI大模型的快速发展对算力需求提出了更高的要求,推动了交换机端口速率和交换容量的同步升级。交换机端口速率从200G向400G、800G、1.6T提升,交换芯片带宽容量提升至25.6T、51.2T,下一代102.4T交换芯片有望于2025年下半年推出。高速数据中心交换机市场规模有望快速增长。

以太网交换芯片的迭代周期约为两年,随着芯片制程的不断进步,交换芯片的带宽和性能也在不断提升。以博通开发的数据中心交换芯片Tomahawk系列为例,第一代Tomahawk芯片于2014年下半年发布,带宽为3.2Tbps,采用25Gbps SerDes技术,支持32个100G端口;2022年下半年,Tomahawk5发布,单芯片带宽高达51.2Tbps,采用112Gbps SerDes技术,支持64个800G端口。下一代102.4T芯片有望采用3nm制程,单芯片功耗可能超过1000W,或将切换至液冷散热模组。
AI高密度训练需求下,高交换容量交换机的需求持续增长。采用多芯片盒式交换机的形式有望填补芯片迭代真空期带来的盒式交换容量瓶颈。例如,英伟达在2024年3月发布的Quantum-X800系列交换机包含4颗交换芯片,可实现端到端800Gb/s吞吐量,整体高度4U,可实现144个800G端口分布在72个OSFP端口中,总交换容量带宽达到115.2Tbps。由于单交换机包含4颗交换芯片,交换机容量增长带动可支持高速率端口数量增长,能够满足AI集群的高密度组网需求。
白盒交换机是一种硬件与软件解耦的网络交换机,其硬件由开放化的硬件组件组成,而软件可由用户或第三方自由选择和定制,具备灵活性、可扩展性较高、采购和维护成本较低等优势。白盒交换机广泛应用于互联网厂商和运营商网络,白盒化趋势显著,目前产业生态较为完善,商用交换机芯片厂商、JDM/ODM/OEM交换机设备商有望迎来发展新机遇。
白盒交换机的核心在于软硬件的解耦。传统交换机采用软硬一体化设计,底层芯片与上层系统紧密捆绑,而白盒交换机利用标准化芯片接口解耦底层芯片和上层应用,使得硬件和软件可以独立选择和升级。白盒交换机的硬件主要包括交换芯片、CPU芯片、网卡、存储器件和外围硬件,软件主要指网络操作系统(NOS)以及其所搭载的网络应用。
白盒交换机的灵活性和可扩展性使其在互联网和运营商网络中得到了广泛应用。白盒交换机产业生态较为完善,上游主要为硬件提供商,包括Arista、思科、新华三、锐捷网络等,网络操作系统供应商包括Arrcus、Kaloom、Cumulus、Big Switch、FBOSS、SONIC等,下游客户主要包括云服务商和电信运营商。SONIC作为一个成熟的开源交换机操作系统,已经被多个国内外云厂商规模部署运行,白盒交换机市场空间持续增长。
光交换机在AI大模型预训练应用场景中表现较好,光电路交换机(OCS)主要通过配置光交换矩阵,在任意输入/输出端口间建立光学路径以实现信号的交换。相比电交换机,光交换机具有成本低、时延低、功耗低、可靠性高等特点,光电融合方案中OCS方案商用化程度较高,基于3D-MEMS系统的OCS方案综合应用较好。
光交换机的可靠性更强,功耗更低。OCS对光信号的速率和协议等均是透明的,不需要随着服务器NIC网卡速率以及端口迭代,相同OCS硬件可以跨代际的被重复利用,长期成本开支更低,生命周期较长。由于没有光/电转换和相应的包处理和分发的过程,OCS拥有更小的每端口功耗和较低的时延。此外,OCS整机使用芯片类型及数量较少,故障率远低于电交换机,可靠性更强。
谷歌的OCS解决方案在其基础设施中主要有Jupiter数据中心和TPU数据中心两大应用场景。通过引入OCS取代Spine层传统电交换机,将网络逻辑拓扑CLOS架构演进到Aggregation层的直接光互联。OCS采用光交换,对传输的速率无感,通过进一步引入WDM和环行器等技术可以实现在单根光纤上传输通道数的增加以及Tx/Rx双路信号,以提升单光纤的数据传输速率,在增加带宽容量的同时,减少电力消耗和降低成本。目前已有多家公司推出了商用的OCS产品。
以上就是关于通信设备行业在AI时代的四大变革机遇的分析。AI驱动组网架构变革,新增后端组网需求;800G交换机开始放量,102.4T交换芯片有望推出;交换机白盒化趋势显著,带来新成长机遇;光交换机商用逐渐成熟,光电融合组网落地大模型训练。这些变革为通信设备行业带来了新的发展机遇,未来将继续推动行业的快速发展。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)