随着人工智能技术的飞速发展,大模型训练与推理对算力的需求呈指数级增长。AI集群规模已从万卡级别向十万卡甚至数十万卡迈进,网络架构已成为制约算力扩展的关键瓶颈。阿里云智能集团网络研发发布的《UPN512技术架构白皮书》提出了一种基于单层光互连的超高性能网络(UPN)架构,旨在突破传统铜缆互连在规模、成本与可靠性方面的限制。本文将围绕AI基础设施网络的发展趋势、光互连技术的演进与挑战、UPN512的系统设计及其在传输语义与在网计算方面的创新,展开深入分析。
近年来,人工智能模型结构从稠密(Dense)模型逐渐转向混合专家(Mixture of Experts, MoE)模型。MoE通过多个专家网络并行处理不同数据子集,显著提升了模型容量与计算效率。例如,开源模型Mixtral 8x7B仅具备8个专家,而2024年主流模型如Qwen3、DeepSeek-v3和Kimi K2已分别扩展至128、256和384个专家。这一变化对网络架构提出了更高要求:MoE模型通常采用专家并行(Expert Parallelism, EP)策略,依赖超大带宽与超低时延的网络通信,且更大的EP并行域成为提升计算效率的关键。
与此同时,智算集群的负载模式也从预训练向“训推一体”演进。同一集群中同时运行离线训练、强化学习和在线推理任务,使得网络流量模型愈发复杂。分布式推理优化技术如PD分离、AF分离和大EP推理等进一步增加了网络架构的设计难度。多种并行模式与不同计算密度负载的共存,要求网络具备更高的灵活性与资源调度能力。
在这一背景下,通过xPU Scale-up网络实现算力集群化扩展成为主流技术路径。NVIDIA、华为等厂商已推出72卡、384卡的超节点系统,旨在通过大带宽低时延互联提升整体算力。然而,传统的铜缆互连方案在高密机柜设计中面临可靠性、散热与扩展性等多重挑战,光互连技术因其在距离与带宽方面的优势,正逐渐成为下一代Scale-up系统的核心选择。
光互连技术在Scale-up系统中的应用仍面临成本与可靠性两大核心挑战。根据白皮书中的成本模型分析,在64至128 xPU规模内,铜缆方案的整体成本约为光互连方案的50%,优势明显。但在超过128 xPU的大规模场景中,传统单层光互连方案的成本已低于双层(铜+光)架构,显示出其在大规模扩展中的经济性。

在光互连技术中,LPO(Linear Pluggable Optics)和NPO(Near-Packaged Optics)因其在功耗、时延和成本方面的优势,成为UPN512系统的优选方案。LPO去除DSP芯片,成本降低约30%,但依赖主芯片SerDes性能;NPO则通过近封装设计进一步提升带宽密度与信号完整性,更适合高速率、高密度场景。相比之下,CPO(Co-packaged Optics)虽在性能上更具优势,但因生态封闭与标准化难度高,在实际部署中面临更大挑战。
可靠性方面,光互连需应对链路信号质量与节点故障两类问题。传统FEC(前向纠错)与LLR(链路级重传)机制已能有效处理链路错误,但在大规模系统中,端到端重传机制与系统级容错设计变得尤为关键。根据阿里云实际运行数据,铜缆链路的故障概率是基于FRO光互连的6倍,而LPO/NPO技术在去除DSP后进一步提升了信号稳定性与模块可靠性。
阿里云UPN512架构的核心创新在于其单层光互连与解耦设计。该系统通过High Radix以太网交换芯片实现512个xPU的全互连,未来可扩展至1024卡及以上规模。光互连突破距离限制,使得xPU与交换机可分布在不同机柜中,摆脱了传统AI Rack在高密设计中的物理约束。

在设备形态上,UPN512采用盒式设计,回归标准机柜部署模式,显著降低了系统复杂度与运维成本。与传统NVL72等铜缆系统相比,UPN512在故障隔离与部件更换方面具备显著优势。例如,铜缆系统中的电缆托盘(cable tray)一旦损坏需整体更换,而光模块支持端口级热插拔,平均修复时间(MTTR)可控制在分钟级别。
UPN512支持LPO与NPO两种光互连方案,并根据场景需求灵活选择。在带宽密度要求较低、芯片SerDes能力较强的场景中,LPO因其标准化与多源供应优势成为首选;而在高带宽、高密度场景中,NPO则凭借其更高的带宽密度与更低的信号损耗占据优势。

随着xPU算力与显存带宽的不断提升,网络通信所占用的计算资源日益显著。例如,在DeepEP实现中,网络传输最高可占用15%的GPU计算资源。为降低这一开销,UPN512定义了三种低时延通信语义:内存语义(Load/Store)、消息语义(Send/Recv)与张量语义(Push/Pull)。
内存语义适用于小数据块同步访问,控制精度高但算力消耗大;消息语义通过DMA引擎实现异步大数据传输,显著减轻核心负担;张量语义则针对1-100KB规模的张量数据传输进行优化,支持流式传输、动态压缩与显隐式确认机制,适用于MoE模型中的Dispatch与Combine操作。
在网计算方面,UPN512基于以太网交换芯片实现集合通信加速,支持AllReduce、AllGather、ReduceScatter等操作。通过虚拟地址映射与分组广播机制,系统在对称与非对称通信模式中均能实现高效的数据聚合与分发,显著降低通信延迟与显存带宽占用。

以上就是关于2024年AI基础设施网络架构的分析。从MoE模型的结构演进到训推一体负载的复杂化,从铜缆互连的物理限制到光互连技术的成本与可靠性挑战,阿里云UPN512架构通过单层光互连、解耦设备设计、LPO/NPO光模块优化以及创新的传输语义与在网计算机制,为下一代Scale-up系统提供了一条可行的技术路径。该架构不仅具备规模扩展能力,还在成本控制、可靠性提升与算力利用率优化方面表现出显著优势,有望推动AI基础设施向更大规模、更高性能的方向持续演进。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)