大模型混合云创新技术解读 - 问答集锦

最佳答案由匿名用户编辑于2025/02/25 11:40

随着AI大模型逐步应用到煤矿生产、电力巡检、工业质检等工业场景，边缘实时推理的需求日益凸显。

1.多样性算力调度

1.1 业界难题

在AI场景中，CPU扮演着指挥统筹与核心控制的角色，GPU/NPU负责核心AI大模型的并行高性能训练与推理计算。考虑到算力的供应多样性与长期可获得性，以x86和ARM为代表的通用算力和以GPU和NPU为代表的AI算力，将长期协同发展与配合使用，因此需要考虑异构算力的统一调度问题:

异构算力管理的挑战。资源管理:集群管理的资源从通常的CPU+内存，变为CPU+内存+AI算力卡等多种异构硬件管理。除了多种型号的AI算力卡、同型号多代AI算力卡、还有整卡与切分卡的统一管理调度。

拓扑感知:大模型分布式训练过程中，AI算力卡之间或AI服务器之间的带宽并不完全一致。因此调度时，必须考虑异构资源的拓扑关系才能获得最佳的训练效率。

AI资源碎片问题:单个训练/推理作业所需要的AI算力卡数典型值为1、2、4、8、n*8，大于8卡的作业，需运行在完全空闲的节点上。随着多个任务的异步结束，集群中会出现资源碎片，即便整体上存在足够的资源，需要多卡的作业也无法运行，导致资源利用率降低，

推理算力利用率提升的挑战·AI算力多团队共享问题:集团内部需要考虑不同部门多个彼此隔离的A小集群可能导致的整体资源利用率较低的问题，资源池化按需调度是提升资源利用率的有效办法。

算力复用:在推理场景，需要实现推理卡的多路任务并行复用，即多个算法共用一张AI卡，以提升算力利用率。

分布式训练调度的挑战。盗源争夺冲突死锁:传统容器调度逻辑都是按照单个容器依次调度。而分布式AI训练容器必须同时运行以进行集合通信，且只能同时调度成功或调度失败。否则，多个分布式作业在资源调度层面出现争抢并导致死锁，所有训练任务都无法得到有效调度。

1.2 多样性算力调度：全局统筹，提升算力效率

华为云多样性算力调度基于云原生集群管理框架，并融入面向AI场景的Volcano调度框架，实现分布式 AI任务调度增强。同时还针对算力资源的利用率提升做了系列创新优化，包括：逻辑子池、队列优先级、拓扑感知、整柜亲和、算力切分等。

2.云边协同

2.1 业界难题

随着AI大模型逐步应用到煤矿生产、电力巡检、工业质检等工业场景，边缘实时推理的需求日益凸显。业界也在思考如何解决规模化部署与运维的效率问题，并构建异常样本反馈与模型的快速迭代机制，让模型常用常新。海量边缘管理：面向工业场景的海量边缘推理部署需求，传统人工部署管理的方案，工作量大且上线慢。缺乏自动化、可视化的管理技术，将导致每一次后续模型迭代都需要重复操作，管理效率极低。

模型持续迭代：生产工况或者应用现场情况复杂并多变，部分工业生产环境中缺少足量的异常样本进行训练，所以原始模型精度有限，并且随着使用环境的变化，原始模型精度会下降。因此，模型精度需要不断地通过异常现场数据来进行迭代训练，不断地升级模型，实现精准推理。综上，需要创新模型训练、推理部署、长期迭代的办法，才能帮助政企行业真正实现AI智能化的规模化应用。

2.2 云边协同：海量边缘管理，模型边用边学

华为混合云推出云边协同方案，支持中心训练、边缘推理以及模型边学边用、持续迭代。中心训练：基于混合云的ModelArts AI开发平台和盘古大模型，形成一站式的场景化模型训练工作流。通过采集原始生产样本数据和模型运行中产生的存疑样本数据，使用工作流高效训练模型，并统一管理模型版本。

边缘推理：模型按需部署到指定边缘节点，完成推理识别到告警处置的端到端业务闭环，推理和处置结果同步上报至中心云平台，实现中心统一管控。边用边学：边缘侧将AI误报、新增场景样本数据反馈至中心侧统一分析，重新训练升级模型，从而构建高效反馈-迭代升级-部署应用的循环升级机制。

面向海量边缘，云边协同提供统一的部署、管理、运维能力：设备接入与资源管理：边缘节点以VPN或云专线方式接入边缘管理平台，注册后管理员可以通过可视化界面，统一对资源进行管理，包括激活、查看、注销边缘节点，以及一键升级边缘节点的固件版本等。中心云可高效实现10万+海量边缘节点的纳管。 AI模型部署：中心云将AI场景化工作流训练好的模型，一键式部署到指定边缘节点。可实现分钟级模型持续更新，大幅降低上线时间和运维成本。离线可用性：当边缘节点与中心的连线中断后，边缘业务可正常运行；节点故障或业务异常后，可秒级恢复业务。

3.AI-Native存储

3.1 业界难题

随着AI大模型参数量的增加，训练集群规模也不断扩大，存储成为制约大模型训练效率提升的关键瓶颈：海量小文件加载慢：10亿训练原始数据加载时间超过10小时。故障影响大、恢复慢，造成算力空转：分布式训练中出现故障时，训练集群需要从存储中读取上一Checkpoint（训练任务检查点）重新执行训练。Checkpoint读取过程本身会产生大量开销，当恢复时所有计算节点都来读取 Checkpoint文件，保存和恢复通常会成为瓶颈。目前业界典型的AI服务器年故障率10%至 17%，大规模集群训练单次故障恢复需数小时，其中检查点的加载耗时占65%。

传统存储从架构上就已经难以应对超大规模AI集群数据快读、Checkpoint快存、故障快速恢复的需求，业界亟需面向AI大模型场景更专业的存储。

3.2 AI-Native存储：创新三层架构，数据快存快恢

AI原始数据集通常存储在大容量对象存储上，然后通过单机拷贝到AI服务器的本地盘，传统的存储架构下，这一过程普遍需要10小时才能完成10 亿训练原始数据的读取，无法满足AI大模型的性能要求。华为云AI-Native存储，基于OBS数据湖、 SFS Turbo高性能并行文件系统和AI Turbo加速的创新三层架构，系统性地应对大模型训练场景的挑战。

OBS数据湖：为数据采集、数据预处理、训练、推理、模型部署全流程提供海量数据的统一存储底座。 SFS Turbo高性能并行文件系统：作为OBS访问的加速层，满足核心训练环节海量小文件高性能、低时延的加载诉求。 AI Turbo加速：将AI Turbo SDK部署到训练节点，与AI框架配合让存储主动感知模型的参数切分、冗余数据策略、训练任务的故障分类、AI训练平台的容器部署与回收等，为大模型训练和Checkpoint快存快恢加速。

参考报告

践行深度用云：大模型混合云，十大创新技术.pdf
- 查看报告