大模型混合云创新技术解读

最佳答案 匿名用户编辑于2025/02/25 11:40

随着AI大模型逐步应用到煤矿生产、电力巡检、 工业质检等工业场景,边缘实时推理的需求日益 凸显。

1.多样性算力调度

1.1 业界难题

在AI场景中,CPU扮演着指挥统筹与核心控制的角色,GPU/NPU负责核心AI大模型的并行高性能训练与推理计算。考虑到算力的供应多样性与长期可获得性,以x86和ARM为代表的通用算力和以GPU和NPU为代表的AI算力,将长期协同发展与配合使用,因此需要考虑异构算力的统一调度问题:

异构算力管理的挑战。资源管理:集群管理的资源从通常的CPU+内存,变为CPU+内存+AI算力卡等多种异构硬件管理。除了多种型号的AI算力卡、同型号多代AI算力卡、还有整卡与切分卡的统一管理调度。

拓扑感知:大模型分布式训练过程中,AI算力卡之间或AI服务器之间的带宽并不完全一致。因此调度时,必须考虑异构资源的拓扑关系才能获得最佳的训练效率。

AI资源碎片问题:单个训练/推理作业所需要的AI算力卡数典型值为1、2、4、8、n*8,大于8卡的作业,需运行在完全空闲的节点上。随着多个任务的异步结束,集群中会出现资源碎片,即便整体上存在足够的资源,需要多卡的作业也无法运行,导致资源利用率降低,

推理算力利用率提升的挑战·AI算力多团队共享问题:集团内部需要考虑不同部门多个彼此隔离的A小集群可能导致的整体资源利用率较低的问题,资源池化按需调度是提升资源利用率的有效办法。

算力复用:在推理场景,需要实现推理卡的多路任务并行复用,即多个算法共用一张AI卡,以提升算力利用率。

分布式训练调度的挑战。盗源争夺冲突死锁:传统容器调度逻辑都是按照单个容器依次调度。而分布式AI训练容器必须同时运行以进行集合通信,且只能同时调度成功或调度失败。否则,多个分布式作业在资源调度层面出现争抢并导致死锁,所有训练任务都无法得到有效调度。

1.2 多样性算力调度:全局统筹,提升算力效率

华为云多样性算力调度基于云原生集群管理框架,并融入面向AI场景的Volcano调度框架,实现分布式 AI任务调度增强。同时还针对算力资源的利用率提升做了系列创新优化,包括:逻辑子池、队列优先 级、拓扑感知、整柜亲和、算力切分等。

2.云边协同

2.1 业界难题

随着AI大模型逐步应用到煤矿生产、电力巡检、 工业质检等工业场景,边缘实时推理的需求日益 凸显。业界也在思考如何解决规模化部署与运维 的效率问题,并构建异常样本反馈与模型的快速 迭代机制,让模型常用常新。 海量边缘管理:面向工业场景的海量边缘推理 部署需求,传统人工部署管理的方案,工作量 大且上线慢。缺乏自动化、可视化的管理技 术,将导致每一次后续模型迭代都需要重复操 作,管理效率极低。

模型持续迭代:生产工况或者应用现场情况复 杂并多变,部分工业生产环境中缺少足量的异 常样本进行训练,所以原始模型精度有限,并 且随着使用环境的变化,原始模型精度会下 降。因此,模型精度需要不断地通过异常现场 数据来进行迭代训练,不断地升级模型,实现 精准推理。 综上,需要创新模型训练、推理部署、长期迭代 的办法,才能帮助政企行业真正实现AI智能化的 规模化应用。

2.2 云边协同:海量边缘管理,模型边用边学

华为混合云推出云边协同方案,支持中心训练、边缘推理以及模型边学边用、持续迭代。 中心训练:基于混合云的ModelArts AI开发平台和盘古大模型,形成一站式的场景化模型训练工作流。 通过采集原始生产样本数据和模型运行中产生的存疑样本数据,使用工作流高效训练模型,并统一管理 模型版本。

 

边缘推理:模型按需部署到指定边缘节点,完 成推理识别到告警处置的端到端业务闭环,推 理和处置结果同步上报至中心云平台,实现中 心统一管控。 边用边学:边缘侧将AI误报、新增场景样本数 据反馈至中心侧统一分析,重新训练升级模 型,从而构建高效反馈-迭代升级-部署应用 的循环升级机制。

面向海量边缘,云边协同提供统一的部署、管理、 运维能力: 设备接入与资源管理:边缘节点以VPN或云 专线方式接入边缘管理平台,注册后管理员可 以通过可视化界面,统一对资源进行管理,包 括激活、查看、注销边缘节点,以及一键升级边缘节点的固件版本等。中心云可高效实 现10万+海量边缘节点的纳管。 AI模型部署:中心云将AI场景化工作流训 练好的模型,一键式部署到指定边缘节 点。可实现分钟级模型持续更新,大幅降 低上线时间和运维成本。 离线可用性:当边缘节点与中心的连线中 断后,边缘业务可正常运行;节点故障或 业务异常后,可秒级恢复业务。

3.AI-Native存储

3.1 业界难题

随着AI大模型参数量的增加,训练集群规模也不 断扩大,存储成为制约大模型训练效率提升的关 键瓶颈: 海量小文件加载慢:10亿训练原始数据加载时 间超过10小时。 故障影响大、恢复慢,造成算力空转:分布式 训练中出现故障时,训练集群需要从存储中读 取上一Checkpoint(训练任务检查点)重 新执行训练。Checkpoint读取过程本身会产生大量开销,当恢复时所有计算节点都来读取 Checkpoint文件,保存和恢复通常会成为瓶 颈。目前业界典型的AI服务器年故障率10%至 17%,大规模集群训练单次故障恢复需数小 时,其中检查点的加载耗时占65%。

传统存储从架构上就已经难以应对超大规模AI集 群数据快读、Checkpoint快存、故障快速恢复 的需求,业界亟需面向AI大模型场景更专业的存 储。

3.2 AI-Native存储:创新三层架构,数据快存快恢

AI原始数据集通常存储在大容量对象存储上,然 后通过单机拷贝到AI服务器的本地盘,传统的存 储架构下,这一过程普遍需要10小时才能完成10 亿训练原始数据的读取,无法满足AI大模型的性 能要求。 华为云AI-Native存储,基于OBS数据湖、 SFS Turbo高性能并行文件系统和AI Turbo加 速的创新三层架构,系统性地应对大模型训练场 景的挑战。

OBS数据湖:为数据采集、数据预处理、训 练、推理、模型部署全流程提供海量数据的统 一存储底座。 SFS Turbo高性能并行文件系统:作为OBS访 问的加速层,满足核心训练环节海量小文件高 性能、低时延的加载诉求。 AI Turbo加速:将AI Turbo SDK部署到训练 节点,与AI框架配合让存储主动感知模型的参 数切分、冗余数据策略、训练任务的故障分 类、AI训练平台的容器部署与回收等,为大模 型训练和Checkpoint快存快恢加速。