如何看待华为盘古大模型演进历程?

最佳答案 匿名用户编辑于2025/08/27 11:46

华为盘古大模型的演进历程,不仅是一部大模型技术迭代史,而且是一部围绕其 自研昇腾(Ascend)硬件平台,从追赶到探索,逐步构建“软硬一体”战略的产 业发展路径。

1. 盘古大模型系列的起点是 PanGu-α确立基于昇腾与自研框架的技 术路线

华为盘古大模型的征程始于2021年4月,其标志性起点是PanGu-α模型的发布。 这是一个参数规模高达 2000 亿的自回归中文预训练语言模型,其训练语料库是从 近 80TB 原始数据中经过复杂清洗和过滤后提炼出的 1.1TB 高质量中文文本,在 当时引起了业界的广泛关注。PanGu-α的论文明确指出,当时 GPT-3 等模型主要 基于英文且仅提供有限访问,而其目标正是为了推动中文预训练语言模型的公共 研究。它首次完整地向外界展示了华为 AI 的全栈自主技术路线,模型是在一个由 2048 个自研的昇腾 910 AI 处理器组成的集群上,使用自研的 MindSpore 深度学习 框架完成训练的。为了攻克大模型训练的内存和算力挑战,团队基于 MindSpore 框架采用了包括数据并行、算子级模型并行、流水线模型并行在内的五维并行策 略,从而高效地将训练任务扩展至整个集群,为其后续走上“为硬件效率而进行 软件创新”的道路奠定了方向。这种优化不仅体现在系统工程层面,也体现在模 型架构的微创新上,例如论文中提到的在 Transformer 主干网络之上增加一个独特 的“查询层”(Query Layer)以增强模型性能。PanGu-α解决了华为 AI 大模型 “从 0 到 1”的问题,它验证了这条全栈自主路线的技术可行性,成为了后续所 有演进的重要基础。

2. PanGu-Σ对稀疏化进行早期尝试,2023 年就向万亿参数发起探索

在 PanGu-α证明了千亿级稠密模型的可行性之后,华为将目光投向了更具挑战性 的万亿参数领域。2023 年 3 月,华为发布了拥有 1.085 万亿参数的 PanGu-Σ模 型,标志着其向更大模型规模和更高效模型架构的探索上又迈进一步。PanGu-Σ 团队认为,单纯增加稠密模型的参数会带来高昂的计算成本,而稀疏化是通往万 亿参数更经济高效的路径。 PanGu-Σ的核心创新在于引入了稀疏化架构。它并非沿用传统的稠密模型设计,而是通过继承式学习(Inheritance Learning)策略,继承了 PanGu-α 13B 版本的 参数,并将其扩展为一个覆盖 40 个不同领域(包括自然语言和编程语言)的稀疏 模型。这一架构的核心是随机路由专家(Random Routed Experts,RRE),它在模 型的上层用多个条件激活的前馈网络(即专家)替代了原有的稠密前馈网络。与 当时主流 MoE 模型采用可学习的门控网络来路由 token 不同,RRE 采用了一种非 学习式的、基于 token ID 和预设映射表的两级随机路由机制。这种设计的背后, 反映了华为在模型设计的早期阶段就注意到了稀疏模型在分布式系统上的核心问 题:负载均衡。随机路由虽然在模型表达能力上可能不如可学习路由,但它通过 随机化和预设映射,天然地避免了部分专家过载而另一部分专家空闲的问题,保 证了训练的稳定性和硬件资源利用率。此外,这种非学习式的路由设计还带来了 一个关键的工程优势:模型可以被灵活地拆解,允许开发者无损地提取出特定领 域的子模型(如代码模型、双语模型)进行独立部署,极大地提升了模型的实用 性和落地效率。

为了支撑这个万亿参数的稀疏模型在一个适度规模的硬件资源上高效训练,华为 同步推出了一套名为专家计算与存储分离(Expert Computation and Storage Separation,ECSS)的系统设计。ECSS 是一种创新的异构计算方案,它将计算密 集型的任务保留在 NPU 上,而将内存消耗巨大的优化器状态等卸载到拥有 750GB 主机内存容量(Host Memory)的主机 CPU(鲲鹏 920 CPU)上进行处理。通过这 种方式,ECSS 有效缓解了单颗昇腾 910 处理器 32GB 高带宽内存(High-Bandwidth Memory,HBM)的瓶颈,使得在仅 512 卡的集群上训练万亿模型成为可能,并实 现了高达 6.3 倍的训练吞吐量提升。 PanGu-Σ的实践,是华为从稠密模型向稀疏模型演进的一次重要尝试。RRE 和 ECSS 的组合,清晰地展示了华为解决大规模的模型挑战的思路:当遇到硬件瓶颈 时,不仅从软件算法层面(RRE)进行创新,也从系统架构层面(ECSS)进行软 硬件协同设计。这标志着其“软硬一体”的战略思想开始从理论走向实践。

3. 盘古 3.0 提出“5+N+X”架构,面向多行业进行大模型落地

2023 年 7 月,在华为开发者大会上,盘古大模型 3.0 正式发布,同时提出了一个 战略性口号,“不作诗,只做事”。这一口号的背后,是盘古大模型从通用技术展 示向深度赋能千行百业的战略转型。这一战略以其在一系列行业应用为基础:例 如,盘古气象大模型成为全球首个在精度上超越传统数值预报方法的 AI 模型,其 成果发表于顶级科学期刊《自然》(Nature);盘古药物分子大模型则成功研发出一 款有望成为全球 40 年来首个新靶点、新类别抗生素的超级抗菌药 Drug X,并将 研发周期从数年缩短至几个月。

盘古 3.0 推出了标志性的“5+N+X”三层架构: L0 层:基础大模型。包含自然语言处理(NLP)、计算机视觉(CV)、多模态、预 测、科学计算五个基础大模型。同时,盘古 3.0 也为用户提供从 100 亿参数到 1, 000 亿参数等五种不同规模的大模型以适应不同行业的多样化需求。L0 层是盘古 能力的基础,为上层应用提供通用的、可组合的 AI 技能。 L1 层:行业大模型。包含 N 个面向特定行业的模型,如政务、金融、制造、矿 山、气象等。这些模型利用行业公开数据和华为在这些领域的相关经验进行训练, 实现了对行业知识的深度理解。 L2 层:场景化模型。包含更多细化场景的模型,更加专注于政务热线、网点助手、 先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景, 为客户提供开箱即用的模型服务。 “5+N+X”架构的核心设计理念是分层解耦。它允许客户与合作伙伴根据自身需 求,灵活地调用任意一层或多层模型的能力,既可以直接使用 L0 和 L1 的通用技 能,也可以在其基础上结合自有数据,快速构建并迭代自己的 L2 场景化模型。这 种架构是华为对大模型商业化路径的判断,华为更聚焦其拥有传统优势的 B 端行 业市场。 这一战略选择,反过来又进一步凸显了其“软硬一体”模式的必要性。行业客户 对 AI 解决方案的要求远比普通消费者苛刻,他们更关心模型及硬件的可靠性、数 据的安全性、部署的成本效益以及长期的技术支持。华为云提供了工业级的解决 方案:在可靠性上,其昇腾 AI 云服务承诺千卡训练 30 天长稳率达到 90%;在数 据安全与合规上,则提供公用云、大模型云专区、混合云等多样化的部署形态, 以满足不同行业客户的严苛标准。通过从芯片、框架到模型的全栈垂直整合和深 度优化,华为为行业客户提供一个性能可预期、安全可控、成本可负担的端到端 解决方案。因此,盘古 3.0 的发布,进一步明确了华为 AI 的商业模式和市场定 位。

4. 盘古 5.0 发布、盘古 5.5 全面拥抱 MoE,体现从应用深化到架构升 维的演进

从 2024 到 2025 年,华为盘古大模型的发展呈现出一条从应用场景深化到核心架 构升维的清晰路径。在 2024 年 6 月的开发者大会上,盘古大模型 5.0 的发布标志 着其向千行万业的深度渗透。其核心是“全系列、多模态、强思维”的全面升级, 推出了从十亿级(E 系列)到万亿级(S 系列)的完整模型矩阵,并着重强化了模 型在工业设计、自动驾驶、具身智能等领域的复杂任务规划与工具调用能力。 在此基础上,华为于 2025 年 6 月发布的盘古大模型 5.5,则正式标志着其技术路 线的又一次重要演进,即全面拥抱并深度优化混合专家(MoE)架构。这背后, 是 Pangu Ultra MoE(718B 总参数)和 Pangu Pro MoE(72B 总参数,16B 激活参 数)等一系列技术探索的落地。 这一系列新模型的发布,其核心驱动力是将系统效率和硬件亲和性提升到了新的 高度。与早期的 PanGu-Σ采用的非学习式 RRE 路由不同,新的 MoE 模型采用了 更主流的可学习门控网络,但在路由机制上进行了重要的创新。Pangu Pro MoE 模 型中引入了“分组专家混合”(Mixture of Grouped Experts, MoGE)架构,通过将 专家分组并强制从每个组中激活固定数量的专家,以结构性的方式缓解了传统 MoE 在分布式系统中的负载均衡难题。

Pangu Ultra MoE、Pangu Pro MoE 的关键超参数,如隐层维度、网络深度、专家数 量等,都有通过复杂的系统仿真流程,针对昇腾硬件平台(如 Ascend 910B/C 平 台、新一代昇腾 AI 云服务所基于的 CloudMatrix 超节点 Supernode 架构等)的特 性进行反复迭代和寻优的结果。这表明华为的模型设计理念:在设计之初就将硬 件的性能边界作为核心约束,去寻找一个能在该硬件上运行效率最高的模型架构。 这一演进过程,本质上是华为 AI 战略从“点”的突破,到“面”的拓展,再到“体” 的立体化构建过程。PanGu-α是一个技术单点的突破,解决了“有没有”的问题。 PanGu-Σ和盘古 3.0/5.0 将技术能力拓展到万亿参数和行业应用的广阔平面,解决 了“能不能用”和“用在哪”的问题。而盘古 5.5 所代表的 MoE 系列模型,与新 一代昇腾 AI 云服务的深度结合,则标志着华为正在构建一个软硬件深度融合、自 成体系、闭环优化的 AI 生态。这个生态的效率可以用具体的指标来衡量:例如, Pangu Ultra MoE 论文中披露其在 6000 卡昇腾集群上实现了高达 30.0%的模型算 力利用率(Model Flops Utilization,MFU),并取得了媲美 DeepSeek R1 的性能。 这并非单个模型或单款硬件的贡献,它代表了一种基于全栈整合的系统级能力, 这构成了华为在 AI 领域的一项关键竞争力。