2024年AI基础设施网络架构分析：单层光互连与千卡Scale-up系统的未来之路

其他2025/10/09
举报

随着人工智能技术的飞速发展，大模型训练与推理对算力的需求呈指数级增长。AI集群规模已从万卡级别向十万卡甚至数十万卡迈进，网络架构已成为制约算力扩展的关键瓶颈。阿里云智能集团网络研发发布的《UPN512技术架构白皮书》提出了一种基于单层光互连的超高性能网络（UPN）架构，旨在突破传统铜缆互连在规模、成本与可靠性方面的限制。本文将围绕AI基础设施网络的发展趋势、光互连技术的演进与挑战、UPN512的系统设计及其在传输语义与在网计算方面的创新，展开深入分析。

一、AI基础设施网络的发展趋势：从MoE结构到训推一体

近年来，人工智能模型结构从稠密（Dense）模型逐渐转向混合专家（Mixture of Experts, MoE）模型。MoE通过多个专家网络并行处理不同数据子集，显著提升了模型容量与计算效率。例如，开源模型Mixtral 8x7B仅具备8个专家，而2024年主流模型如Qwen3、DeepSeek-v3和Kimi K2已分别扩展至128、256和384个专家。这一变化对网络架构提出了更高要求：MoE模型通常采用专家并行（Expert Parallelism, EP）策略，依赖超大带宽与超低时延的网络通信，且更大的EP并行域成为提升计算效率的关键。

与此同时，智算集群的负载模式也从预训练向“训推一体”演进。同一集群中同时运行离线训练、强化学习和在线推理任务，使得网络流量模型愈发复杂。分布式推理优化技术如PD分离、AF分离和大EP推理等进一步增加了网络架构的设计难度。多种并行模式与不同计算密度负载的共存，要求网络具备更高的灵活性与资源调度能力。

在这一背景下，通过xPU Scale-up网络实现算力集群化扩展成为主流技术路径。NVIDIA、华为等厂商已推出72卡、384卡的超节点系统，旨在通过大带宽低时延互联提升整体算力。然而，传统的铜缆互连方案在高密机柜设计中面临可靠性、散热与扩展性等多重挑战，光互连技术因其在距离与带宽方面的优势，正逐渐成为下一代Scale-up系统的核心选择。

二、光互连技术的演进与挑战：成本、可靠性与架构创新

光互连技术在Scale-up系统中的应用仍面临成本与可靠性两大核心挑战。根据白皮书中的成本模型分析，在64至128 xPU规模内，铜缆方案的整体成本约为光互连方案的50%，优势明显。但在超过128 xPU的大规模场景中，传统单层光互连方案的成本已低于双层（铜+光）架构，显示出其在大规模扩展中的经济性。

在光互连技术中，LPO（Linear Pluggable Optics）和NPO（Near-Packaged Optics）因其在功耗、时延和成本方面的优势，成为UPN512系统的优选方案。LPO去除DSP芯片，成本降低约30%，但依赖主芯片SerDes性能；NPO则通过近封装设计进一步提升带宽密度与信号完整性，更适合高速率、高密度场景。相比之下，CPO（Co-packaged Optics）虽在性能上更具优势，但因生态封闭与标准化难度高，在实际部署中面临更大挑战。

可靠性方面，光互连需应对链路信号质量与节点故障两类问题。传统FEC（前向纠错）与LLR（链路级重传）机制已能有效处理链路错误，但在大规模系统中，端到端重传机制与系统级容错设计变得尤为关键。根据阿里云实际运行数据，铜缆链路的故障概率是基于FRO光互连的6倍，而LPO/NPO技术在去除DSP后进一步提升了信号稳定性与模块可靠性。

三、UPN512系统架构设计：单层光互连与解耦理念

阿里云UPN512架构的核心创新在于其单层光互连与解耦设计。该系统通过High Radix以太网交换芯片实现512个xPU的全互连，未来可扩展至1024卡及以上规模。光互连突破距离限制，使得xPU与交换机可分布在不同机柜中，摆脱了传统AI Rack在高密设计中的物理约束。

在设备形态上，UPN512采用盒式设计，回归标准机柜部署模式，显著降低了系统复杂度与运维成本。与传统NVL72等铜缆系统相比，UPN512在故障隔离与部件更换方面具备显著优势。例如，铜缆系统中的电缆托盘（cable tray）一旦损坏需整体更换，而光模块支持端口级热插拔，平均修复时间（MTTR）可控制在分钟级别。

UPN512支持LPO与NPO两种光互连方案，并根据场景需求灵活选择。在带宽密度要求较低、芯片SerDes能力较强的场景中，LPO因其标准化与多源供应优势成为首选；而在高带宽、高密度场景中，NPO则凭借其更高的带宽密度与更低的信号损耗占据优势。

四、传输语义与在网计算：提升通信效率与算力利用率

随着xPU算力与显存带宽的不断提升，网络通信所占用的计算资源日益显著。例如，在DeepEP实现中，网络传输最高可占用15%的GPU计算资源。为降低这一开销，UPN512定义了三种低时延通信语义：内存语义（Load/Store）、消息语义（Send/Recv）与张量语义（Push/Pull）。

内存语义适用于小数据块同步访问，控制精度高但算力消耗大；消息语义通过DMA引擎实现异步大数据传输，显著减轻核心负担；张量语义则针对1-100KB规模的张量数据传输进行优化，支持流式传输、动态压缩与显隐式确认机制，适用于MoE模型中的Dispatch与Combine操作。

在网计算方面，UPN512基于以太网交换芯片实现集合通信加速，支持AllReduce、AllGather、ReduceScatter等操作。通过虚拟地址映射与分组广播机制，系统在对称与非对称通信模式中均能实现高效的数据聚合与分发，显著降低通信延迟与显存带宽占用。

以上就是关于2024年AI基础设施网络架构的分析。从MoE模型的结构演进到训推一体负载的复杂化，从铜缆互连的物理限制到光互连技术的成本与可靠性挑战，阿里云UPN512架构通过单层光互连、解耦设备设计、LPO/NPO光模块优化以及创新的传输语义与在网计算机制，为下一代Scale-up系统提供了一条可行的技术路径。该架构不仅具备规模扩展能力，还在成本控制、可靠性提升与算力利用率优化方面表现出显著优势，有望推动AI基础设施向更大规模、更高性能的方向持续演进。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）