2025年计算机行业AI算力“卖水人”系列专题报告：昇腾AI，引领“超节点+集群”时代

国海证券2025/09/29
举报

第一章昇腾芯片

昇腾芯片：基于华为达芬奇架构，是昇腾计算的核心基座

昇腾处理器（HUAWEI As c end）是基于华为达芬奇架构的NPU。NPU（神经网络处理器）针对矩阵运算专门优化设计，昇腾AI芯片是构建昇腾计算产品、使能上层软件和应用的底座，有高算力、高能效、灵活可裁剪等特性。

昇腾计算：面向“端+边+云”的全场景AI基础设施

基于昇腾系列AI处理器，华为Atlas人工智能计算解决方案通过模块、板卡、小站、服务器、集群等丰富的产品形态，打造面向“端、边、云”的全场景AI基础设施方案，覆盖深度学习领域推理和训练全流程。

昇腾Atl as 900 AI集群：打造首个万卡AI集群

昇腾384超节点（Atlas 900 A3 SuperPoD），华为 CloudMatrix 的核心愿景是构建一个「万物皆可池化、平等对待、自由组合」的 AI 原生数据中心。昇腾超节点通过总线技术实现384个NPU之间的大带宽低时延互联，解决集群内计算、存储等各资源之间的通信瓶颈，通过系统工程的优化，实现资源的高效调度，让超节点像一台计算机一样工作。

截至2025年9月18日，华为Atlas 900 A3 SuperPoD超节点累计部署300多套，服务于互联网、金融、运营商、电力、制造等行业的20多个客户。

昇腾384超节点由12个计算柜和4个总线柜构成，依托华为在I C T领域深厚的技术与工程经验，通过最佳负载均衡组网方案，该超节点可进一步扩展为包含 1 0 万卡的 Atlas900 SuperCluster超节点集群，为未来更大规模的模型演进提供有力支撑。

昇腾 3 8 4 集成了 3 8 4 颗昇腾 9 1 0 C N P U 和 1 9 2 颗鲲鹏 C P U 的庞大超级节点，采用全互连拓扑架构，可提供 300PFLOPS的密集BF16计算能力，几乎是GB200 NVL72 的两倍，也具备超过3 . 6倍的总内存容量和2 . 1倍的内存带宽。CloudMat r ix384设计了三个互补的网络平面：

UB平面：核心的Scale- Up网络，以全互联（Al l-to- Al l）拓扑连接所有N P U和C P U。每颗昇腾 910 C 贡献超过392 GB/s的单向带宽。它专为TP、EP等细粒度并行以及内存池的快速访问而设计。

RDMA平面：用于超级节点间的Scale-Out通信，采用 RoCE协议，确保与现有生态兼容。NPU 是该平面的唯一参与者，用于KV Cache在Prefi l l和D ecode节点间的传输、分布式训练等。

VPC平面：通过华为自研的擎天卡连接到数据中心网络，负责管理、控制、访问持久化存储等。

昇腾Atl as 950/ 9 6 0 Supe rPoD计划于2 026/ 2027年上市

Atlas 950 SuperPoD：从基础器件、协议算法到光电技术，实现系统级创新突破。通过正交架构，Atlas950实现零线缆电互联，采用液冷接头浮动盲插设计做到零漏液，其独创的材料和工艺让光模块液冷可靠性提升一倍。其创新的UB-Mesh递归直连拓扑网络架构，支持单板内、单板间和机架间的NPU全互联，以64卡为步长按需扩展，最大可实现8192卡无收敛全互联。

Atlas 960 SuperPoD（2027Q4上市）规模为15,488卡（NPUs），FP8算力为8EFLOPS，FP4算力为16EFLOPS，互联带宽为34PB/s。

昇腾Ta ishan 9 5 0 Supe rPoD：业界首款通算超节点

Taishan 950 SuperPoD——华为推出的业界首款通算超节点，为通算性能提升开辟全新路径。该产品具备百纳秒级超低时延、TB级超大带宽和内存池化能力，能大幅提升数据库、虚机热迁移和大数据场景等业务性能。该产品基于新一代鲲鹏950处理器，结合GaussDB分布式数据库，有望彻底取代各种应用场景的大型机和小型机以及Exadata数据库一体机。

华为灵衢：面向超节点的互联协议

灵衢是一种面向超节点的互联协议，将I/O、内存访问和各类处理单元间的通信统一在同一互联技术体系，实现数据高性能传输、算力高效协同、资源统一管理和灵活组合，是超节点参考架构的基础。基于灵衢（UnifiedBus，简称UB）的超节点架构，支持CPU、NPU、GPU、MEM、DPU、SSU（Scalable Storage Unit）和Switch中的一种或者多种组件资源池化和平等协同，构建逻辑上的一台计算机。

华为于2019年开始研究灵衢技术，2025年灵衢1.0正式在Atlas 900 A3 SuperPoD上商用验证，2025年9月，华为正式开放灵衢2.0协议。

HCCL、华为交换机为昇腾AI提供强大的通信基础

卡间互联：集合通信库（ Huawei Collective Communication Library ，简称HCCL）是基于昇腾硬件的高性能集合通信库，提供单机多卡以及多机多卡间的数据并行、模型并行集合通信方案。H CCL支持A l lRe d u c e、Br o a d c a st、Al l gat her、ReduceScatter、AlltoAll等通信原语，Ring、Mesh、HD等通信算法，在HCCS、RoCE和PCIe高速链路实现集合通信。

交换机：华为推出面向智能时代的CloudEngine数据中心交换机，定义了智能时代数据中心交换机的三大特征：400GE超宽、0丢包以太网、全生命周期自动管理，助力客户加速智能化转型。

第二章昇腾软件架构

昇腾软件：构建全栈AI软硬件平台，CANN全面开源开放

昇腾处理器的卓越性能决定其算力水平，但其相关的软件生态是推升AI芯片计算生态发展的关键。2025年8月，华为宣布：华为昇腾硬件使能CANN全面开源开放，Mind系列应用使能套件及工具链全面开源，支持用户自主的深度挖潜和自定义开发。

昇腾CANN：对标英伟达CUDA核心软件层

昇腾CANN对上支持AI框架，对下服务AI处理器，对标英伟达CUDA核心软件层。英伟达CUDA是一种通用并行计算架构，提供硬件直接访问接口，适配多种AI框架等。

CANN8.0版独创通信算法/算子与丰富API，释放硬件价值

CANN 8.0，新增NB 2.0等十几类通算融合算子，通过自适应通信域优化，充分利用超节点通信全链路，实现更细粒度的通信计算并行，将模型训练性能提升20%以上。新增的通信、矩阵运算、数据搬运等API，提供20类200+ API，算子开发效率提升30%，大幅降低算子开发工作量，Matmul等典型融合算子开发代码量缩减30%以上。

昇思MindSpo r e：适配De epSe ek等大模型，打造大模型训推平台

昇思MindSpo r e是华为推出的面向全场景AI计算框架，打造大模型最佳训推平台之一。 Mi n dSp o r e在机器学习开发中起上承应用（北向）、下接芯片（南向）的桥梁意义。MindSpor e 1.0实现业界首个全场景AI框架，1.5版本开始原生支持大模型，2.0版本提供大模型套件支持一站式训练，2025年4月，昇思MindSpor e 2 .6版本正式发布。该版本全面支持类De epSe ek V3 /R1 MoE模型训练推理全流程，推出训推一体的强化学习套件使能后训练范式创新，易用性上实现主流SOTA模型的Day0迁移。

MindSpore 适配大模型，市场份额位于第一梯队。昇思Min dSp o r e面向政企、金融、运营商、电力、交通等行业提供了端到端的训推一体解决方案，赋能千行百业。

昇腾推理解决方案：提升吞吐量，降低推理成本

面向AI模型推理场景，昇腾推理解决方案包含Atl as及伙伴推理硬件、异构计算架构CANN、昇腾推理引擎MindIE、行业应用开发套件MindX SDK，边缘部署使能MindX Edge等。昇腾推理基础软件提供系统性联合优化来降低时延，提升吞吐效率，在满足时延条件下，最大实现6x吞吐提升，大大降低了每百万tokens的推理成本。

第三章晶圆制造

晶圆生产过程：半导体设计、晶圆制造、测试封装

半导体设计、晶圆制造、测试封装是芯片制造最重要的三个环节。晶圆代工模式由Fabl e ss（无晶圆厂，半导体设计公司），以及Foundry（晶圆代工厂）组成，晶圆代工厂会将制造好的芯片交由封测厂商进行芯片的封装和测试。头部的晶圆代工厂主要是台积电、三星、联电、中芯国际等。

多家代工厂发展先进制程，台积电为领头羊

行业追求缩小支制程来提升晶体管密度，从而增加计算能力。先进制程与成熟制程的分界线为28nm，28nm以下的制程被称为先进制程，发展先进制程有技术与资本双重障碍。索尼、Sharp、Infineon、AMD、德州仪器、意法半导体、格罗方德和联电陆续退出先进制程研发，目前，7nm及以下的制程工艺，仅台积电、英尔特、三星三家厂商可以掌握。头部的3大玩家中，也只有台积电的先进制程是最成熟和稳定的。

第四章需求端

中美关税摩擦经历多轮升级，自主可控大势所趋

2025年中美关税摩擦在短短数月内经历了多轮升级，自主可控为大势所趋。 2025年2月1日，美国总统特朗普签署行政命令，宣布对中国所有进口商品额外征收10%的关税；随后4月2日特朗普在白宫签署两项关于所谓“对等关税”的行政令，宣布美国对所有贸易伙伴设立10%的“最低基准关税”，并对某些贸易伙伴征收更高关税。中国的迅速反制在美方行动后立即展开。5月12日，《中美日内瓦经贸会谈联合声明》发布，关税摩擦有所缓和。

中国对美国实行反制关税，或将加速我国自主可控的进程。2 0 2 5年4月4日，我国宣布对所有美国进口商品征收3 4%关税，并加强对稀土出口限制，我们认为这一举措或将增加进口软硬件产品的销售成本，从而加速国内市场向自主可控产业链转移。

近年，我国持续推动“自主可控”、“科技自立”。2022年国资委发布79号文，要求2027年底前，实现所有中央企业信息化系统安可信创替代。2024年，我国发布多项政策，提出抓紧打造自主可控的产业链供应链，四大协会建议国内企业审慎选择采购美国芯片。

GPU：AI带动需求提升，2 0 2 4年国产占比升至30%

中国加速芯片市场持续增长。据IDC，2 0 2 4年，中国加速芯片的市场规模增长迅速，超过270万张。从技术角度来看，G P U卡占据7 0 %的市场份额；从品牌角度来看，中国本土人工智能芯片品牌的出货量已超过82万张，市占率30%左右。

从行业的角度看，互联网依然是最大的采购行业，据IDC数据，2024年占整体加速服务器市场超过6 5%的份额，其余行业均有不同幅度的增长。

2 0 2 4年，中国AI服务器增长迅速。IDC数据显示，2 0 2 4年中国加速服务器市场规模达到2 2 1亿美元，同比2023年增长134%。其中GPU服务器依然是主导地位，占比达到69%。同时ASIC和FPGA等非G P U 加速服务器高速增长，占比超过30%。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

2025年计算机行业AI算力“卖水人”系列专题报告：昇腾AI，引领“超节点+集群”时代

第一章 昇腾芯片

第二章 昇腾软件架构

第三章 晶圆制造

第四章 需求端

报告节选：

第一章昇腾芯片

第二章昇腾软件架构

第三章晶圆制造

第四章需求端