2025年昇腾AI服务器分析：单卡推理性能突破1920 Tokens/s的硬核技术解析

其他2025/05/26
举报

在人工智能技术飞速发展的今天，大模型推理性能已成为衡量AI基础设施能力的关键指标。华为昇腾系列服务器凭借其独特的硬件架构和优化技术，在大模型推理领域取得了突破性进展。本文聚焦华为最新发布的昇腾服务器DeepSeek V3/R1推理部署方案，深入分析其技术特点、性能表现及行业影响。报告显示，基于CloudMatrix 384超节点的部署方案在50ms时延约束下实现了单卡1920 Tokens/s的惊人吞吐量，而Atlas 800I A2服务器方案也在100ms时延下达到723-808 Tokens/s的性能水平。这些数据不仅刷新了行业标准，更为AI基础设施的发展指明了方向。我们将从技术架构、性能优化和行业应用三个维度，全面剖析这一里程碑式的技术突破。

一、昇腾服务器硬件架构的革命性创新

华为昇腾服务器系列在硬件设计上实现了多项突破，为高性能AI推理奠定了坚实基础。昇腾NPU芯片采用达芬奇架构，专为大规模AI训练和高性能推理任务优化，具备卓越的计算能力和能效表现。这一系列芯片包含多种型号，可根据不同服务器定位灵活配置，满足从边缘计算到数据中心的各种需求。

Atlas 800I A2推理服务器代表了中等规模部署的硬件解决方案。单节点配置8张NPU芯片，通过Fullmesh形成全互联结构，节点内通信总带宽高达392GB/s。这种设计确保了在单个节点内数据交换的高效性，特别适合中小规模模型的部署。节点间则通过网络交换机互联，形成Stars结构，提供50GB/s的总带宽。在实际部署中，需要特别注意节点间通信量的优化，以避免带宽成为性能瓶颈。

CloudMatrix 384超节点则是面向超大规模模型推理的终极解决方案。基于灵衢高速互联总线技术，CM384通过多卡紧耦合互联、统一内存编址和统一通信等创新，实现了算力、互联带宽和内存带宽的全面领先。与传统的多节点集群相比，CM384的子节点间带宽不再受限，使得全域专家并行等先进部署策略成为可能，能够充分发挥超节点的高算力特性。

特别值得注意的是，昇腾芯片支持多种计算资源（如张量计算单元、向量计算单元）和通信资源的并发使用。这一特性为系统级优化提供了巨大空间，允许通过精细的流水编排实现计算与通信的完美重叠。硬件层面的多流并发能力，使得通信-计算并发、通信-通信并发和通信-权重预取并发等多种加速技术得以实现，为后续的软件优化奠定了基础。

在内存架构方面，昇腾服务器采用了分级缓存设计，算子在进行计算时会优先从高带宽缓存中寻找数据。这种设计特别适合大模型推理中频繁的权重搬运场景，当通信过程中HBM带宽占用率较低时，可以预取后续计算所需的权重到缓存中，显著降低后续算子的数据搬运开销。实测数据显示，这种预取技术对通信性能影响极小，却能提升MLA模块约10%的计算性能。

二、DeepSeek V3/R1模型的创新部署策略

DeepSeek V3/R1作为业界领先的开源大语言模型，在自然语言处理、代码生成和知识推理等领域展现出卓越性能。华为团队针对该模型特点，开发了两套差异化的部署方案，充分挖掘了昇腾硬件的潜力。

模型量化策略是保证推理性能的关键基础。部署方案采用了SmoothQuant技术对模型进行A8W8动态量化，即激活和权重均使用INT8数据类型，计算中间变量采用BF16格式。当前KVCache使用BF16存储和计算，这种组合被记为A8W8C16量化策略。量化不仅降低了内存占用，还提高了计算效率，为高吞吐量奠定了基础。

Prefill和Decode分离部署（PD分离）是方案的核心创新之一。大模型推理中，Prefill阶段通常是计算瓶颈，而Decode阶段则是带宽和通信瓶颈，两者最优部署策略往往不同。华为的方案将两阶段解耦部署，既满足了首Token时延（TTFT）和Decode时延（TPOT）的不同要求，又避免了权重占用的冲突。实测表明，这种分离部署方式比传统一体化部署能带来显著的性能提升。

在Atlas 800I A2服务器上的部署方案体现了灵活性与性能的平衡。Decode阶段使用32卡部署，Prefill阶段使用16卡，针对不同模块采用了多样化的并行策略。MLA模块在Prefill阶段采用TP16部署，Decode阶段则转为DP32，以优化内存占用和计算效率。MoE模块采用EP32策略，将256个路由专家平均分配到所有NPU卡上，每卡部署8个专家，有效分摊了内存压力。稠密层FFN、Embedding和LM Head部分则采用DP4+TP8的混合策略，在性能和内存占用间取得了良好平衡。

CloudMatrix 384超节点的部署方案则展现了大规模专家并行的威力。Decode阶段使用144卡（18个子节点）部署，MLA部分保持DP策略，MoE部分采用EP144的超大规模并行，将共享专家视为必选路由专家单独部署。这种部署方式充分利用了CM384的高通信带宽特性，采用All2All而非AllGather+ReduceScatter的通信方案，进一步降低了通信开销。特别值得注意的是，在稠密层FFN部分，CM384采用TP2而非A2上的TP8，更充分地利用了交换设备互联的优势。

服务框架方面，方案基于vLLM进行了深度定制和优化。针对PD分离部署，实现了Prefill调度分桶和灵衢互联分层传输等创新技术。框架支持大规模EP、小规模EP、DP和TP等多种并行策略，并能支撑10K以上的超高并发。这些优化使得框架侧耗时降至极低水平，MTP部分的框架耗时仅为1ms左右，为整体性能突破创造了条件。

三、多层次性能优化技术解析

华为团队在算子、模型和框架三个层面实施了一系列创新优化，这些技术的协同作用最终实现了性能的突破。

在算子层面，MLA（多头潜在注意力）算子的优化尤为关键。团队借鉴Flash-Attention思想，开发了AMLA算法，通过浮点二进制编码解析及存内计算能力，实现乘性计算的加性等价转换，直接在内存上更新输出矩阵，避免了中间变量的重复搬运。同时，精细的L1缓存规划和K-buffer流水排布策略，使算力利用率达到55%-60%，比传统Attention实现性能提升近1倍。MLA前序算子则通过权重吸收和深度融合技术，结合计算解耦和局部计算融合等优化，性能提升了30%以上。

MoE通信算子的优化解决了大规模专家并行的关键瓶颈。Dispatch/Combine通算融合算子将计算和通信拆解为token粒度，通过流水排布实现并行执行，利用内存语义通信技术减少本地拷贝和等待开销。SMTurbo-CPP技术则在内存语义级别优化All2All(v)，通过读写混合、聚合流水和批量检测提升线程访存效率，降低通信算子时延8%-20%。在Atlas 800I A2上采用的细粒度分级流水算法，使节点间通信耗时几乎被节点内通信完全掩盖，大幅提升了AllGather和ReduceScatter的效率。

模型侧优化聚焦通信和并发两个维度。FlashComm技术将张量并行中的AllReduce通信替换为更高效的集合通信逻辑，在Prefill阶段降低25%通信量，提升10%推理性能。层内并行转换技术重新设计MLA层内多卡并行策略，实现TP与DP灵活转换，降低节点内通信量71%。计算通信并发技术充分利用昇腾多流机制，将Gating函数计算、共享专家计算和特征汇聚通信三者解耦并发，在Decode阶段带来15%的性能提升。通信和权重预取的并发技术则通过预取下一层MLA权重和KVCache，提升MLA约10%的性能。

框架侧的优化确保了系统整体效率。API Server水平扩容通过Global Proxy组件实现KVCache亲和、负载均衡及序列长度调度优化，显著提升了请求处理能力。组网方案从全连接简化为1:1组网，减少通讯开销。全并行、全异步前后处理结合Multi-Step技术降低Decode前后处理耗时。针对MoE模型的动态负载均衡策略，通过专家重排、分层冗余部署和近实时调度，有效解决了"冷热专家"问题，提升了整体吞吐量。

特别值得关注的是推理投机框架FusionSpec的创新。该框架将投机模型置于主体模型之后，直接使用主体模型输出并复用控制参数，大幅减少框架耗时。轻量步间准备和多核并行全异步设计，使MTP部分框架耗时降至1ms左右，完美适配PD分离部署场景。这些优化共同作用，最终实现了单卡1920 Tokens/s的惊人性能。

四、实测性能与未来发展方向

华为团队提供的性能数据充分验证了优化方案的有效性，同时也揭示了进一步改进的空间。

Atlas 800I A2服务器在100ms时延约束下表现出色。测试采用2K输入+2K输出序列，单卡平均并发数72，MTP接受率按70%折算时，实现端到端耗时99.6ms，卡均吞吐723 Tokens/s。当MTP接受率提升至90%时，吞吐可达808 Tokens/s。Prefill阶段测试采用拼batch方式形成16K总序列，端到端耗时631ms，卡均吞吐1622 Tokens/s。分析表明，MLA算子在MTP场景下达到55%-60%的算力利用率，而MoE部分由于专家激活token数限制（144个），仍有提升空间。采用更大规模EP部署策略可进一步提高MoE算力利用率。

CloudMatrix 384超节点的表现更为惊人。基于理论分析，在无时延限制情况下，CM384的理论吞吐可达4386 Tokens/s。实际部署中，由于时延约束、带宽抢占、框架开销和负载不均等因素，性能有所折扣。2025年4月，硅基流动联合华为云基于CM384上线DeepSeek-R1服务，在保证单用户20 TPS（等效50ms时延）前提下，单卡Decode吞吐突破1920 Tokens/s，创造了行业新纪录。这一成就充分证明了大规模专家并行方案的可行性。

未来发展方向主要集中在五个方面：低时延场景优化、Micro-batch技术应用、低比特量化方案、MLA算子量化支持，以及更大规模EP部署。当前方案在卡均8并发下时延为15ms（CM384）和卡均4并发下30ms（A2），仍有优化空间。Micro-batch技术在高并发场景预计可带来显著性能提升，目前仅在CM384上应用，未来将适配A2平台。探索A8W4或A4W4量化方案有望进一步降低MoE部分访存带宽需求。MLA层算子针对INT8量化的适配正在进行，将通过算子重构和流水优化保证性能。对于A2服务器，考虑64卡或128卡部署方案，可提高MoE部分算力利用率。

序列负载均衡是另一个重要优化方向。实际部署中，不同请求的序列长度差异会导致MLA阶段卡间负载不均。通过预测输出长度并结合输入长度进行优先级调度，有望减少等待时间，提升整体效率。这些优化方向共同构成了昇腾服务器持续性能提升的技术路线图。

以上就是关于华为昇腾AI服务器DeepSeek V3/R1推理部署方案的综合分析。从硬件架构创新、部署策略优化到多层次性能调优，华为团队展示了一条通向极致推理性能的技术路径。单卡1920 Tokens/s的吞吐量不仅代表了当前行业最高水平，更为AI基础设施的未来发展树立了新标杆。随着低时延优化、更大规模EP部署等技术的持续演进，昇腾服务器有望在更多应用场景中释放大模型的潜力，推动人工智能技术向更深更广的领域发展。这一系列技术创新和性能突破，将深刻影响AI计算基础设施的竞争格局和发展方向。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）