昇腾芯片:基于华为达芬奇架构,是昇腾计算的核心基座
昇腾处理器(HUAWEI As c end)是基于华为达芬奇架构的NPU。NPU(神经网络处理器)针对矩阵运算专门优化设计,昇腾AI芯片是构建昇腾计算产品、使能上层软件和应用的底座,有高算力、高能效、灵活可裁剪等特性。
昇腾计算:面向“端+边+云”的全场景AI基础设施
基于昇腾系列AI处理器,华为Atlas人工智能计算解决方案通过模块、板卡、小站、服务器、集群等丰富的产品形态,打造面向“端、边、云”的全场景AI基础设施方案,覆盖深度学习领域推理和训练全流程。
昇腾Atl as 900 AI集群:打造首个万卡AI集群
昇腾384超节点(Atlas 900 A3 SuperPoD),华为 CloudMatrix 的核心愿景是构建一个「万物皆可池化、平等对待、自由组合」的 AI 原生数据中心。昇腾超节点通过总线技术实现384个NPU之间的大带宽低时延互联,解决集群内计算、存储等各资源之间的通信瓶颈,通过系统工程的优化,实现资源的高效调度,让超节点像一台计算机一样工作。
截至2025年9月18日,华为Atlas 900 A3 SuperPoD超节点累计部署300多套,服务于互联网、金融、运营商、电力、制造等行业的20多个客户。
昇腾384超节点由12个计算柜和4个总线柜构成,依托华 为在I C T领域深厚的技术与工程经验,通过最佳负载均衡 组 网 方 案 , 该 超 节 点 可 进 一 步 扩 展 为 包 含 1 0 万 卡 的 Atlas900 SuperCluster超节点集群,为未来更大规模 的模型演进提供有力支撑。
昇 腾 3 8 4 集 成 了 3 8 4 颗 昇 腾 9 1 0 C N P U 和 1 9 2 颗 鲲 鹏 C P U 的 庞 大 超 级 节 点 , 采 用 全 互 连 拓 扑 架 构 , 可 提 供 300PFLOPS的密集BF16计算能力,几乎是GB200 NVL72 的两倍,也具备超过3 . 6倍的总内存容量和2 . 1倍的内存带 宽。CloudMat r ix384设计了三个互补的网络平面:
UB平面:核心的Scale- Up网络,以全互联(Al l-to- Al l)拓扑连接所有N P U和C P U。每颗昇腾 910 C 贡献 超过392 GB/s的单向带宽。它专为TP、EP等细粒度并 行以及内存池的快速访问而设计。
RDMA平面:用于超级节点间的Scale-Out通信,采用 RoCE协议,确保与现有生态兼容。NPU 是该平面的唯 一参与者,用于KV Cache在Prefi l l和D ecode节点间 的传输、分布式训练等。
VPC平面:通过华为自研的擎天卡连接到数据中心网络, 负责管理、控制、访问持久化存储等。
昇腾Atl as 950/ 9 6 0 Supe rPoD计划于2 026/ 2027年上市
Atlas 950 SuperPoD:从基础器件、协议算法到光电技术,实现系统级创新突破。通过正交架构,Atlas950实现零线缆电互联,采用液冷接头浮动盲插设计做到零漏液,其独创的材料和工艺让光模块液冷可靠性提升一倍。其创新的UB-Mesh递归直连拓扑网络架构,支持单板内、单板间和机架间的NPU全互联,以64卡为步长按需扩展,最大可实现8192卡无收敛全互联。
Atlas 960 SuperPoD(2027Q4上市)规模为15,488卡(NPUs),FP8算力为8EFLOPS,FP4算力为16EFLOPS,互联带宽为34PB/s。
昇腾Ta ishan 9 5 0 Supe rPoD:业界首款通算超节点
Taishan 950 SuperPoD——华为推出的业界首款通算超节点,为通算性能提升开辟全新路径。该产品具备百纳秒级超低时延、TB级超大带宽和内存池化能力,能大幅提升数据库、虚机热迁移和大数据场景等业务性能。该产品基于新一代鲲鹏950处理器,结合GaussDB分布式数据库,有望彻底取代各种应用场景的大型机和小型机以及Exadata数据库一体机。
华为灵衢:面向超节点的互联协议
灵衢是一种面向超节点的互联协议,将I/O、内存访问和各类处理单元间的通信统一在 同一互联技术体系,实现数据高性能传输、算力高效协同、资源统一管理和灵活组合,是超节点参考架构的基础。基于灵衢(UnifiedBus,简称UB)的超节点架构,支持CPU、NPU、GPU、MEM、DPU、SSU(Scalable Storage Unit)和Switch中的一种或者多种组件资源池化和平等协同,构建逻辑上的一台计算机。
华为于2019年开始研究灵衢技术,2025年灵衢1.0正式在Atlas 900 A3 SuperPoD上商用验证,2025年9月,华为正式开放灵衢2.0协议。
HCCL、华为交换机为昇腾AI提供强大的通信基础
卡间互联:集合通信库( Huawei Collective Communication Library ,简称HCCL)是基于昇腾硬件的高性能集合通信库,提供单机多卡以及多机多卡间的数据并行、模型并行集合通信方案。H CCL支持A l lRe d u c e、Br o a d c a st、Al l gat her、ReduceScatter、AlltoAll等通信原语,Ring、Mesh、HD等通信算法,在HCCS、RoCE和PCIe高速链路实现集合通信。
交换机:华为推出面向智能时代的CloudEngine数据中心交换机,定义了智能时代数据中心交换机的三大特征:400GE超宽、0丢包以太网、全生命周期自动管理,助力客户加速智能化转型。
昇腾软件:构建全栈AI软硬件平台,CANN全面开源开放
昇腾处理器的卓越性能决定其算力水平,但其相关的软件生态是推升AI芯片计算生态发展的关键。2025年8月,华为宣布:华为昇腾硬件使能CANN全面开源开放,Mind系列应用使能套件及工具链全面开源,支持用户自主的深度挖潜和自定义开发。
昇腾CANN:对标英伟达CUDA核心软件层
昇腾CANN对上支持AI框架,对下服务AI处理器,对标英伟达CUDA核心软件层。英伟达CUDA是一种通用并行计算架构,提供硬件直接访问接口,适配多种AI框架等。
CANN8.0版独创通信算法/算子与丰富API,释放硬件价值
CANN 8.0,新增NB 2.0等十几类通算融合算子,通过自适应通信域优化,充分利用超节点通信全链路,实现更细粒度的通信计算并行,将模型训练性能提升20%以上。新增的通信、矩阵运算、数据搬运等API,提供20类200+ API,算子开发效率提升30%,大幅降低算子开发工作量,Matmul等典型融合算子开发代码量缩减30%以上。
昇思MindSpo r e:适配De epSe ek等大模型,打造大模型训推平台
昇思MindSpo r e是华为推出的面向全场景AI计算框架,打造大模型最佳训推平台之一。 Mi n dSp o r e在机器学习开发中起上承应用(北向)、下接芯片(南向)的桥梁意义。MindSpor e 1.0实现业界首个全场景AI框架,1.5版本开始原生支持大模型,2.0版本提供大模型套件支持一站式训练,2025年4月,昇思MindSpor e 2 .6版本正式发布。该版本全面支持类De epSe ek V3 /R1 MoE模型训练推理全流程,推出训推一体的强化学习套件使能后训练范式创新,易用性上实现主流SOTA模型的Day0迁移。
MindSpore 适配大模型,市场份额位于第一梯队。昇思Min dSp o r e面向政企、金融、运营商、电力、交通等行业提供了端到端的训推一体解决方案,赋能千行百业。
昇腾推理解决方案:提升吞吐量,降低推理成本
面向AI模型推理场景,昇腾推理解决方案包含Atl as及伙伴推理硬件、异构计算架构CANN、昇腾推理引擎MindIE、行业应用开发套件MindX SDK,边缘部署使能MindX Edge等。昇腾推理基础软件提供系统性联合优化来降低时延,提升吞吐效率,在满足时延条件下,最大实现6x吞吐提升,大大降低了每百万tokens的推理成本。
晶圆生产过程:半导体设计、晶圆制造、测试封装
半导体设计、晶圆制造、测试封装是芯片制造最重要的三个环节。晶圆代工模式由Fabl e ss(无晶圆厂,半导体设计公司),以及Foundry(晶圆代工厂)组成,晶圆代工厂会将制造好的芯片交由封测厂商进行芯片的封装和测试。头部的晶圆代工厂主要是台积电、三星、联电、中芯国际等。
多家代工厂发展先进制程,台积电为领头羊
行业追求缩小支制程来提升晶体管密度,从而增加计算能力。先进制程与成熟制程的分界线为28nm,28nm以下的制程被称为先进制程,发展先进制程有技术与资本双重障碍。索尼、Sharp、Infineon、AMD、德州仪器、意法半导体、格罗方德和联电陆续退出先进制程研发,目前,7nm及以下的制程工艺,仅台积电、英尔特、三星三家厂商可以掌握。头部的3大玩家中,也只有台积电的先进制程是最成熟和稳定的。
中美关税摩擦经历多轮升级,自主可控大势所趋
2025年中美关税摩擦在短短数月内经历了多轮升级,自主可控为大势所趋。 2025年2月1日,美国总统特朗普签署行政命令,宣布对中国所有进口商品额外征收10%的关税;随后4月2日特朗普在白宫签署两项关于所谓“对等关税”的行政令,宣布美国对所有贸易伙伴设立10%的“最低基准关税”,并对某些贸易伙伴征收更高关税。中国的迅速反制在美方行动后立即展开。5月12日,《中美日内瓦经贸会谈联合声明》发布,关税摩擦有所缓和。
中国对美国实行反制关税,或将加速我国自主可控的进程。2 0 2 5年4月4日,我国宣布对所有美国进口商品征收3 4%关税,并加强对稀土出口限制,我们认为这一举措或将增加进口软硬件产品的销售成本,从而加速国内市场向自主可控产业链转移。
近年,我国持续推动“自主可控”、“科技自立”。2022年国资委发布79号文,要求2027年底前,实现所有中央企业信息化系统安可信创替代。2024年,我国发布多项政策,提出抓紧打造自主可控的产业链供应链,四大协会建议国内企业审慎选择采购美国芯片。
GPU:AI带动需求提升,2 0 2 4年国产占比升至30%
中国加速芯片市场持续增长。据IDC,2 0 2 4年,中国加速芯片的市场规模增长迅速,超过270万张。从技术角度来看,G P U卡占据7 0 %的市场份额;从品牌角度来看,中国本土人工智能芯片品牌的出货量已超过82万张,市占率30%左右。
从行业的角度看,互联网依然是最大的采购行业,据IDC数据,2024年占整体加速服务器市场超过6 5%的份额,其余行业均有不同幅度的增长。
2 0 2 4年,中国AI服务器增长迅速。IDC数据显示,2 0 2 4年中国加速服务器市场规模达到2 2 1亿美元,同比2023年增长134%。其中GPU服务器依然是主导地位,占比达到69%。同时ASIC和FPGA等非G P U 加速服务器高速增长,占比超过30%。



(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)