随着ChatGPT、Deepseek等大语言模型的爆发式发展,人工智能技术正进入一个全新的时代。这些拥有数千亿甚至万亿参数的大模型对计算能力提出了前所未有的需求,全球范围内正在加速建设智能计算中心(智算中心)以满足这一需求。然而,AI训练和推理业务对网络可靠性的要求极高,任何网络链路的闪断或中断都可能导致训练任务失败,造成巨大的时间和资源浪费。在这一背景下,中国移动联合产业界合作伙伴提出了面向新型智算中心的以太网弹性通道(FlexLane)技术,该技术通过创新的多通道架构设计,将AI网络互联可靠性提升至6个9(99.9999%)以上,为AI业务的稳定运行提供了坚实保障。
人工智能技术近年来取得了突破性进展,特别是以ChatGPT、Deepseek为代表的大语言模型(LLM)的兴起,标志着AI进入了一个全新的发展阶段。这些大模型通常拥有数千亿甚至万亿的参数规模,中小模型也普遍达到十亿参数级别,训练这些模型需要海量的计算资源。为满足这一需求,智算中心作为AI发展的新型基础设施底座,正在全球范围内加速建设和部署。
与传统数据中心主要承载企业级应用(如Web服务、数据库、存储等)不同,新型智算中心主要服务于AI训练与推理业务,其网络流量模式具有显著的东西向特征。在AI训练过程中,大量服务器需要协同工作,频繁交换梯度数据和模型参数,这对网络可靠性提出了前所未有的挑战。服务器之间逻辑连接的任何一条物理链路发生故障,都可能导致数据同步失败,任务中断,造成大量时间和资源的浪费。
根据Meta公司关于LLama 3.1万卡集群的公开研究,在为期54天的训练期间共发生了466次故障中断,其中GPU、网络互联和主机等故障占比靠前,仅因网络设备和线缆问题造成的网络互联故障就达到35次。这一数据凸显了网络可靠性对AI训练业务的关键影响。
光互联链路虽然在带宽、延迟、传输距离等方面具备显著优势,已成为智算中心的主流互联方案,但其可靠性问题不容忽视。主流400G/200G光模块的年失效率超过0.2%,这意味着在千卡以上的AI集群中,平均每年会发生数十次光模块故障事件。除了器件本身的失效外,设备侧或配线架光纤端面脏污也会引发链路闪断,进一步加剧了网络不可靠的问题。
IEEE 802.3标准以太网接口设计以性能最优为目标,当单一物理通道发生故障时,整条高速链路就会失效。在一个典型的万卡集群无收敛组网中(GPU总数为10240,高速互联链路总数为15360条),使用标准以太网接口进行大模型训练时,根据当前常见大模型披露的训练时间,训练过程中发生链路故障的次数约为2-22次,远不能满足新型智算中心AI业务零中断的需求。
针对智算中心对网络可靠性的极致需求,中国移动联合产业界提出了FlexLane(弹性通道)技术方案。该技术基于高速接口多通道架构的现状,打破原有固定组合,引入灵活多通道架构,通过降速运行实时有效地规避任何通道发生的故障,将链路可靠性提升万倍以上,助力AI网络互联可靠性超越5个9(99.999%),达到6个9(99.9999%)的水平。
FlexLane技术的核心架构包括三个关键子系统:检测功能、切换机制和交互协议。检测功能负责实时监控各通道状态,支持被动查询或主动上报物理通道的状态信息,包括发光功率、收光功率、温度、电流、电压等参数。切换机制管理物理通道的状态(开启/关闭),当检测到故障时支持隔离故障通道,当故障通道恢复正常后支持将其恢复为工作状态。交互协议则负责链路两端通过协议报文进行故障隔离、故障恢复等操作的通信。
FlexLane技术支持灵活的部署策略,既可以通过软件升级现有网络设备和光模块软件实现快速部署,也可以在未来通过硬件演进方案升级MAC/PHY接口,获得更优的性能表现。在故障处理方面,FlexLane采用了一套完整的流程,包括故障检测、故障隔离、故障恢复以及主动通道管理。
在故障检测方面,FlexLane针对链路信号丢失故障(SF)采用基于通道AM失锁检测方案,当检测到某个通道连续N个AM周期丢失锁定时,判断该通道失效。针对链路信号质量差导致的故障(SD),则采用符号错误率(SER)统计方案,当一个通道的SER超过预设阈值时,认为该通道发生SD故障。此外,FlexLane还可以基于光模块状态参数(温度、电压、电流等)结合通道SER进行统一预测和决策,实现对潜在故障通道的提前识别。
FlexLane的故障隔离机制能够在检测到故障后迅速对故障通道进行隔离,避免AI业务中断。以四通道400GE高速接口为例,当一端发送侧的某一光模块发生闪断或中断故障时,接收端会立即检测到SF或SD故障,隔离故障通道并停止在所有通道上接收业务数据流,同时发送协议报文通告故障信息。发送端收到故障信息后也会隔离故障通道,停止在所有通道上发送业务数据流,然后通过握手信息约定故障隔离完成后业务恢复的切换边界,最终在正常工作的通道上恢复业务数据流传输。
FlexLane技术的应用为智算中心网络带来了革命性的可靠性提升。根据技术白皮书中的详细计算,一个含N个通道的FlexLane接口故障失效的概率约为F_Lane^N,这相比标准以太网接口的N×F_Lane有了质的飞跃。以典型的双通道光模块为例,FlexLane接口在一小时内发生故障的概率从标准接口的2×10^-7降低至1×10^-14,可靠性提升了7个数量级。
在一个典型的万卡集群无收敛组网中(GPU总数为10240,高速互联链路总数M为15360条),使用FlexLane接口的集群网络在一小时内发生链路故障的概率约为3.07×10^-10,比使用标准接口情况下的6.14×10^-3低了7个数量级。这意味着在使用FlexLane接口进行大模型训练时,训练过程中发生链路故障的次数从标准接口的2-22次降低至10^-7-10^-6次,AI网络光互联部分的可靠性真正达到了6个9的水平。
除了可靠性方面的突破性提升外,FlexLane技术还带来了显著的节能效益。其主动降速/升速机制支持根据信道质量和流量变化关闭或开启接口中的通道,实现动态节能。在智算中心场景下,AI大模型训练过程中的流量模型具有明显的方波特征,网络利用率在不同阶段差异很大。例如某GPT-3组网中,GPU之间的网络利用率约为5%,交换机之间的网络利用率仅1%,这意味着AI集群网络在等待计算期间会产生大量的"空跑"能耗。
FlexLane技术通过在这些低流量时段关闭部分通道的耗能元件(分布于MAC/PHY、SerDes和光模块),可显著降低能耗。以支持四通道的FlexLane接口为例,在GPU服务器计算期间,当互联链路空闲时,关闭三个通道保留一个通道运行,接口能耗理论上可降低70.9%,主芯片能耗理论上可降低35.5%。在二层网络设备互联空闲期间,每链路关闭三个通道,接口能耗理论上降低74.5%,主芯片能耗理论上可降低37.3%。这些节能效果对于大规模智算中心的长期运营成本控制具有重要意义。
FlexLane技术具有广泛的应用前景,不仅适用于智算中心内部网络,也可用于智算中心间互联场景。在智算中心内部,服务器与网络设备、网络设备与网络设备之间的高速互联主要承载AI推理与训练任务,对延迟和带宽要求极高。FlexLane技术通过支持降一通道运行策略(带宽仅损失1/N),在保证业务连续性的同时,将链路可靠性大幅提升。
以典型的400G光模块(4条100G通道)100米多模互联链路为例,使用FlexLane技术后,1小时内发生故障的概率从4×10^-7降低至6×10^-14,可靠性提升了7个数量级。这种提升对于需要长时间稳定运行的AI训练任务至关重要,可有效避免因网络问题导致的训练中断和资源浪费。
在智算中心间互联场景中,出口网络设备之间通常部署高速直检光模块或相干光模块。对于直检光模块互联链路,FlexLane技术支持在任一通道的关键器件故障时不影响连通性,如果支持降到一通道运行,可靠性将得到极大提升。以典型400GE(4条100G通道)10公里单模互联链路为例,支持三条通道故障隔离后,1小时内发生故障的概率从4×10^-7降低至1×10^-28。这意味着部署10^12条400GE链路的超大网络,在宇宙年龄时间尺度内都不会发生因通道器件故障而丢失连通性的情况。
对于采用相干光模块的互联链路(主机侧多通道,线路侧单通道单纤),FlexLane技术主要提升主机侧接口的可靠性。当任一SerDes故障(如接插件异常)时,FlexLane可隔离故障并维持链路继续运行,解决了相干链路中主机侧电接口及接插件故障占比较大的问题。
展望未来,FlexLane技术将持续演进,与链路级重传(LLR)等技术结合,实现高速互联故障无损传输。同时,其链路降速信息实时上报功能可支持全网调优,为多通道高速接口的大规模应用扫清障碍。随着1.6TE及更大带宽时代的到来,FlexLane技术有望成为智算中心网络架构的标准配置,为AI计算基础设施的可靠运行保驾护航。
以上就是关于2025年智算中心网络技术发展的分析。随着AI大模型对计算需求的爆炸式增长,智算中心作为新型基础设施正在全球范围内加速建设。在这一过程中,网络可靠性成为影响AI业务连续性的关键因素。中国移动提出的FlexLane技术通过创新的弹性多通道架构设计,将AI网络互联可靠性提升至6个9以上,同时兼顾动态节能特性,为智算中心的发展提供了强有力的技术支撑。该技术具备低成本、易部署的特点,既支持现有设备软件升级,也可通过新设备硬件集成实现,预计将在智算中心内部及互联场景获得广泛应用,引领高速接口产业从单纯追求性能最优向性能与可靠性并重的方向发展。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)