由**发布了《华为云昇腾AI云服务行业:6A云化算力底座》这篇报告。以下是对该报告的部分摘录,完整内容请获取原文查看。大模型是一个复杂系统工程,大模型开发的每一步都存在着大量的工程化技术挑战。算力系统也并非算力的简单堆积,需要解决诸如低时延数据交换,节点之间均衡计算避免冷热不均,消弭算力堵点。
人工智能产业发展经历三次浪潮。最近的一次是以 Transformer 架构为代表的大模型,生成式 AI 的兴起,将我们 带入新的 AI 产业浪潮之中。大模型是人工智能历史的分水岭,此前,人们更多关注和讨论的是机器如何感知世 界,例如识别日常生活中的各种物体 ;而现在,人类则进入到通过大模型的生成能力创造数字世界,预测未来趋 势。通过对海量数据的预训练,大模型可以在超高维度空间上对人类全部知识进行高度压缩,进行微调就可以完 成多个应用场景任务的泛化,模型正在从专用走向通用。 随着人工智能技术的日新月异,AI 将进一步驱动各行各业生产能力、生产效率从“量变到质变”,实现跨越式发 展和新质生产力跃升,如何用好 AI 将成为国家、行业、企业的核心竞争力。
大模型的爆发引发全球算力需求的指数级增长。2024 年基于扩散的视频生成模型 Sora 的出现,其革命性的视 频生成能力,不仅展示了 AI 在视觉内容创造上的突破,更预示着全球算力需求的新一轮激增。数据显示,过去 10 年 AI 算力需求翻了 30 万倍。而未来 10 年 AI 算力将再增长 500 倍。数据集规模将从目前的一两个 T 增长到 100T。此外,大模型还需要理解更长的上下文,Token 长度将从千级发展到十万级。 视频生成类模型的算力消耗相比 LLM 提升 20 倍,意味着训练集群规模要扩大一个数量级。万卡训练集群将成为 训练下一代生成式模型的必备条件。由于算力规模扩大,算力的调度和管理的难度将大幅提升,需要有一个算力 平台可以整合管理,调度,自动故障隔离,checkpointing,自动任务恢复的任务。这些挑战相互影响、环环相扣。

针对 AI 时代的这些挑战,华为云提出了软硬件结合的系统性创新,华为云昇腾 AI 云服务整合集群算力、计算引 擎 CANN、AI 开发框架 MindSpore 和 ModelArts AI 开发生产线。为大模型的训练,推理,AI 应用的开发、运行 提供稳定可靠的全栈算力保障。
大模型是一个复杂系统工程,大模型开发的每一步都存在着大量的工程化技术挑战。算力系统也并非算力的简单 堆积,需要解决诸如低时延数据交换,节点之间均衡计算避免冷热不均,消弭算力堵点。避免出现单点硬件故障 导致的全面训练中断、梯度爆炸、算法重训等一系列的问题,是一项复杂的系统工程,需要从算力效率、线性扩 展、长效稳定等多个方面进行系统设计。而云化的全栈算力服务由于积累了足够多的模型训练,运维经验,以服 务的方式让企业使用到最新的经验,技术成果,避免重复解决问题,让企业得以聚焦创新。
昇腾 AI 云服务 :包括云化算力、AI 开发生产线 ModelArts 和 AI 开发者生态 AI Gallery。为 支持大模型的“百模千态”创新,昇腾 AI 云服务提供触手可及的澎湃 AI 算力服务,独有的 多级恢复机制和完备的工具链可实现千卡训练连续 30 天不中断,任务恢复时长小于 30 分 钟,为大模型和 AI 应用的开发、运行、运维提供最佳算力云底座。
AI 开发生产线 ModelArts,是面向 AI 开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分 布式训练、自动化模型生成及端 - 边 - 云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期 AI 工作 流。为满足客户多样化的算力管理模式,ModelArts 提供 Standard 和 Lite 两种模式。ModelArts Standard 包含端 到端的 AI 开发生产线 + 算力持续运维平台。ModelArts Lite 仅包含算力持续运维平台。

昇腾 AI 云服务通过云网边端芯算力协同,为端侧提供更充沛算力,让终端应用更智能。 受限于体积和成本等因素,手机硬件很难做到高清拍摄,也无法支撑超分修图的算力要求。通过以云助端,调用 云端强大的算力,利用枢纽节点大规模算力来进行超分修图,突破手机硬件的限制,为用户的手机拍照体验带来 了全新的突破,使得用户能够在手机上轻松获得专业级的照片效果。
大模型时代的 AI 算力对数据中心的基础设施要求极高。以散热为例,AI 服务器的功率密度远超通用服务器,单 机柜的功耗是过去的 6-8 倍,并需要专用的液冷系统进行散热。大模型训练动辄需要百卡、千卡甚至万卡,自建 AI 数据中心面临 AI 研发人员稀缺,硬件建设周期长、集群运维团队经验少、推理服务时延高等诸多挑战。
AI Gallery 百模千态社区,基于昇腾云服务算力底座,致力于构建一站式 AI 社区服务平台,包含丰富 AI 资产、服 务、解决方案。适配业界主流开源大模型,易用开发工具和超强算力,助力企业和开发者快速创建模型应用,在 大模型时代快人一步。
D-Plan AI 生态伙伴计划是围绕华为云 AI 开发生产线 ModelArts 推出的一项合作伙伴计划,旨在与合作伙伴一起 构建合作共赢的 AI 生态体系,加速 AI 应用落地,华为云向伙伴提供培训、技术、营销和销售的全面支持。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)