在人工智能技术飞速发展的今天,大模型推理性能已成为衡量AI基础设施能力的关键指标。华为昇腾系列服务器凭借其独特的硬件架构和优化技术,在大模型推理领域取得了突破性进展。本文聚焦华为最新发布的昇腾服务器DeepSeek V3/R1推理部署方案,深入分析其技术特点、性能表现及行业影响。报告显示,基于CloudMatrix 384超节点的部署方案在50ms时延约束下实现了单卡1920 Tokens/s的惊人吞吐量,而Atlas 800I A2服务器方案也在100ms时延下达到723-808 Tokens/s的性能水平。这些数据不仅刷新了行业标准,更为AI基础设施的发展指明了方向。我们将从技术架构、性能优化和行业应用三个维度,全面剖析这一里程碑式的技术突破。
华为昇腾服务器系列在硬件设计上实现了多项突破,为高性能AI推理奠定了坚实基础。昇腾NPU芯片采用达芬奇架构,专为大规模AI训练和高性能推理任务优化,具备卓越的计算能力和能效表现。这一系列芯片包含多种型号,可根据不同服务器定位灵活配置,满足从边缘计算到数据中心的各种需求。
Atlas 800I A2推理服务器代表了中等规模部署的硬件解决方案。单节点配置8张NPU芯片,通过Fullmesh形成全互联结构,节点内通信总带宽高达392GB/s。这种设计确保了在单个节点内数据交换的高效性,特别适合中小规模模型的部署。节点间则通过网络交换机互联,形成Stars结构,提供50GB/s的总带宽。在实际部署中,需要特别注意节点间通信量的优化,以避免带宽成为性能瓶颈。
CloudMatrix 384超节点则是面向超大规模模型推理的终极解决方案。基于灵衢高速互联总线技术,CM384通过多卡紧耦合互联、统一内存编址和统一通信等创新,实现了算力、互联带宽和内存带宽的全面领先。与传统的多节点集群相比,CM384的子节点间带宽不再受限,使得全域专家并行等先进部署策略成为可能,能够充分发挥超节点的高算力特性。
特别值得注意的是,昇腾芯片支持多种计算资源(如张量计算单元、向量计算单元)和通信资源的并发使用。这一特性为系统级优化提供了巨大空间,允许通过精细的流水编排实现计算与通信的完美重叠。硬件层面的多流并发能力,使得通信-计算并发、通信-通信并发和通信-权重预取并发等多种加速技术得以实现,为后续的软件优化奠定了基础。
在内存架构方面,昇腾服务器采用了分级缓存设计,算子在进行计算时会优先从高带宽缓存中寻找数据。这种设计特别适合大模型推理中频繁的权重搬运场景,当通信过程中HBM带宽占用率较低时,可以预取后续计算所需的权重到缓存中,显著降低后续算子的数据搬运开销。实测数据显示,这种预取技术对通信性能影响极小,却能提升MLA模块约10%的计算性能。
DeepSeek V3/R1作为业界领先的开源大语言模型,在自然语言处理、代码生成和知识推理等领域展现出卓越性能。华为团队针对该模型特点,开发了两套差异化的部署方案,充分挖掘了昇腾硬件的潜力。
模型量化策略是保证推理性能的关键基础。部署方案采用了SmoothQuant技术对模型进行A8W8动态量化,即激活和权重均使用INT8数据类型,计算中间变量采用BF16格式。当前KVCache使用BF16存储和计算,这种组合被记为A8W8C16量化策略。量化不仅降低了内存占用,还提高了计算效率,为高吞吐量奠定了基础。
Prefill和Decode分离部署(PD分离)是方案的核心创新之一。大模型推理中,Prefill阶段通常是计算瓶颈,而Decode阶段则是带宽和通信瓶颈,两者最优部署策略往往不同。华为的方案将两阶段解耦部署,既满足了首Token时延(TTFT)和Decode时延(TPOT)的不同要求,又避免了权重占用的冲突。实测表明,这种分离部署方式比传统一体化部署能带来显著的性能提升。
在Atlas 800I A2服务器上的部署方案体现了灵活性与性能的平衡。Decode阶段使用32卡部署,Prefill阶段使用16卡,针对不同模块采用了多样化的并行策略。MLA模块在Prefill阶段采用TP16部署,Decode阶段则转为DP32,以优化内存占用和计算效率。MoE模块采用EP32策略,将256个路由专家平均分配到所有NPU卡上,每卡部署8个专家,有效分摊了内存压力。稠密层FFN、Embedding和LM Head部分则采用DP4+TP8的混合策略,在性能和内存占用间取得了良好平衡。
CloudMatrix 384超节点的部署方案则展现了大规模专家并行的威力。Decode阶段使用144卡(18个子节点)部署,MLA部分保持DP策略,MoE部分采用EP144的超大规模并行,将共享专家视为必选路由专家单独部署。这种部署方式充分利用了CM384的高通信带宽特性,采用All2All而非AllGather+ReduceScatter的通信方案,进一步降低了通信开销。特别值得注意的是,在稠密层FFN部分,CM384采用TP2而非A2上的TP8,更充分地利用了交换设备互联的优势。
服务框架方面,方案基于vLLM进行了深度定制和优化。针对PD分离部署,实现了Prefill调度分桶和灵衢互联分层传输等创新技术。框架支持大规模EP、小规模EP、DP和TP等多种并行策略,并能支撑10K以上的超高并发。这些优化使得框架侧耗时降至极低水平,MTP部分的框架耗时仅为1ms左右,为整体性能突破创造了条件。
华为团队在算子、模型和框架三个层面实施了一系列创新优化,这些技术的协同作用最终实现了性能的突破。
在算子层面,MLA(多头潜在注意力)算子的优化尤为关键。团队借鉴Flash-Attention思想,开发了AMLA算法,通过浮点二进制编码解析及存内计算能力,实现乘性计算的加性等价转换,直接在内存上更新输出矩阵,避免了中间变量的重复搬运。同时,精细的L1缓存规划和K-buffer流水排布策略,使算力利用率达到55%-60%,比传统Attention实现性能提升近1倍。MLA前序算子则通过权重吸收和深度融合技术,结合计算解耦和局部计算融合等优化,性能提升了30%以上。
MoE通信算子的优化解决了大规模专家并行的关键瓶颈。Dispatch/Combine通算融合算子将计算和通信拆解为token粒度,通过流水排布实现并行执行,利用内存语义通信技术减少本地拷贝和等待开销。SMTurbo-CPP技术则在内存语义级别优化All2All(v),通过读写混合、聚合流水和批量检测提升线程访存效率,降低通信算子时延8%-20%。在Atlas 800I A2上采用的细粒度分级流水算法,使节点间通信耗时几乎被节点内通信完全掩盖,大幅提升了AllGather和ReduceScatter的效率。
模型侧优化聚焦通信和并发两个维度。FlashComm技术将张量并行中的AllReduce通信替换为更高效的集合通信逻辑,在Prefill阶段降低25%通信量,提升10%推理性能。层内并行转换技术重新设计MLA层内多卡并行策略,实现TP与DP灵活转换,降低节点内通信量71%。计算通信并发技术充分利用昇腾多流机制,将Gating函数计算、共享专家计算和特征汇聚通信三者解耦并发,在Decode阶段带来15%的性能提升。通信和权重预取的并发技术则通过预取下一层MLA权重和KVCache,提升MLA约10%的性能。
框架侧的优化确保了系统整体效率。API Server水平扩容通过Global Proxy组件实现KVCache亲和、负载均衡及序列长度调度优化,显著提升了请求处理能力。组网方案从全连接简化为1:1组网,减少通讯开销。全并行、全异步前后处理结合Multi-Step技术降低Decode前后处理耗时。针对MoE模型的动态负载均衡策略,通过专家重排、分层冗余部署和近实时调度,有效解决了"冷热专家"问题,提升了整体吞吐量。
特别值得关注的是推理投机框架FusionSpec的创新。该框架将投机模型置于主体模型之后,直接使用主体模型输出并复用控制参数,大幅减少框架耗时。轻量步间准备和多核并行全异步设计,使MTP部分框架耗时降至1ms左右,完美适配PD分离部署场景。这些优化共同作用,最终实现了单卡1920 Tokens/s的惊人性能。
华为团队提供的性能数据充分验证了优化方案的有效性,同时也揭示了进一步改进的空间。
Atlas 800I A2服务器在100ms时延约束下表现出色。测试采用2K输入+2K输出序列,单卡平均并发数72,MTP接受率按70%折算时,实现端到端耗时99.6ms,卡均吞吐723 Tokens/s。当MTP接受率提升至90%时,吞吐可达808 Tokens/s。Prefill阶段测试采用拼batch方式形成16K总序列,端到端耗时631ms,卡均吞吐1622 Tokens/s。分析表明,MLA算子在MTP场景下达到55%-60%的算力利用率,而MoE部分由于专家激活token数限制(144个),仍有提升空间。采用更大规模EP部署策略可进一步提高MoE算力利用率。
CloudMatrix 384超节点的表现更为惊人。基于理论分析,在无时延限制情况下,CM384的理论吞吐可达4386 Tokens/s。实际部署中,由于时延约束、带宽抢占、框架开销和负载不均等因素,性能有所折扣。2025年4月,硅基流动联合华为云基于CM384上线DeepSeek-R1服务,在保证单用户20 TPS(等效50ms时延)前提下,单卡Decode吞吐突破1920 Tokens/s,创造了行业新纪录。这一成就充分证明了大规模专家并行方案的可行性。
未来发展方向主要集中在五个方面:低时延场景优化、Micro-batch技术应用、低比特量化方案、MLA算子量化支持,以及更大规模EP部署。当前方案在卡均8并发下时延为15ms(CM384)和卡均4并发下30ms(A2),仍有优化空间。Micro-batch技术在高并发场景预计可带来显著性能提升,目前仅在CM384上应用,未来将适配A2平台。探索A8W4或A4W4量化方案有望进一步降低MoE部分访存带宽需求。MLA层算子针对INT8量化的适配正在进行,将通过算子重构和流水优化保证性能。对于A2服务器,考虑64卡或128卡部署方案,可提高MoE部分算力利用率。
序列负载均衡是另一个重要优化方向。实际部署中,不同请求的序列长度差异会导致MLA阶段卡间负载不均。通过预测输出长度并结合输入长度进行优先级调度,有望减少等待时间,提升整体效率。这些优化方向共同构成了昇腾服务器持续性能提升的技术路线图。
以上就是关于华为昇腾AI服务器DeepSeek V3/R1推理部署方案的综合分析。从硬件架构创新、部署策略优化到多层次性能调优,华为团队展示了一条通向极致推理性能的技术路径。单卡1920 Tokens/s的吞吐量不仅代表了当前行业最高水平,更为AI基础设施的未来发展树立了新标杆。随着低时延优化、更大规模EP部署等技术的持续演进,昇腾服务器有望在更多应用场景中释放大模型的潜力,推动人工智能技术向更深更广的领域发展。这一系列技术创新和性能突破,将深刻影响AI计算基础设施的竞争格局和发展方向。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)