智算部署层级及发展建议有哪些?

最佳答案 匿名用户编辑于2024/11/06 16:15

 

一、智算基础设施发展概述

智算,即人工智能算力,是用于支撑加速人工智能算法模型训练 与推理的算力,其部署层级分为芯片级、单服务器节点级、多服务器 集群级。在芯片级,依托 GPU、NPU、FPGA 和 ASIC 等加速芯片用 于 AI 模型训练与推理加速,当前 GPU 在国内市场中占据主导地位。 华为、天数、海光、寒武纪等本土企业在该领域积极研发布局,如华 为已经推出了昇腾系列全栈自主、性能优良的产品,能够实现对智能 计算的良好支撑。在单服务器节点级,以“CPU+XPU”异构计算范 式为主的 Al 异构服务器,加强 CPU 与 XPU 协同,主流服务器产品 相对更丰富,浪潮、戴尔等传统服务器厂家基于英特尔 CPU+英伟达 GPU 的组合推出了 AI 服务器产品,华为及生态伙伴基于其自主研发 的 AI 芯片推出了国产系列 AI 服务器产品。在多服务器集群级,Al 应用中数据、模型的大型化趋势对智能算力的扩展性提出高要求,资 源需要以集群模式部署以提供并行计算能力,高性能无损网络+高性 能存储为单服务器节点级和多服务器集群级的算力突破提供了重要 支撑。

智算基础设施,即人工智能算力基础设施,是基于人工智能专用 算力芯片及加速芯片等组成异构计算架构,以智能计算设施为核心设 施,以智能算力集群为核心载体,面向人工智能应用场景,提供所需 算力服务、数据服务和算法服务的公共算力基础设施。智算基础设施 需要统筹协同计算、网络、存储等核心技术。大模型参数量和训练数 据复杂性快速增长,对 AI 算力平台的建设提出了新的要求,即需要 从数据中心规模化算力部署的角度,统筹考虑大模型分布式训练对于 计算、网络和存储的需求特点,并集成平台软件、结合应用实践,充 分关注数据传输、任务调度、并行优化、资源利用率等,设计和构建 高性能、高速互联、存算平衡可扩展集群系统,以满足 AI 大模型的 训练需求。首先,大模型的训练推理需要大量的加速卡并行计算,并 且需要使用分布式训练和推理来提高效率。同时,大模型对存储的需 求也很高,因为模型需要存储大量的参数和梯度信息。此外,大模型 对网络的需求也很高,因为需要快速传输数据和同步梯度信息。整体 来看,智算基础设施的部署涉及计算、网络、存储三大维度的横向协 同,也需要兼顾软件平台与硬件资源的纵向协同。

各方主体积极推进布局智算基础设施。以提供公共普惠的智能算 力服务为基本原则,地方政府(地方国投产投平台投资)、央国企(电 信运营商投资)、AI 云厂商(阿里云、华为云、百度智能云等投资) 是我国智算基础设施的投建主体。从总体定位看,智算基础设施成为 地方发展人工智能产业、发展产业数字化的重要创新载体,具有重要 价值。从落地运营看,智算基础设施是加快 AI 产业化和产业 AI 化的 重要战略支撑。智算中心与 AI 云,是当前智算基础设施的两种主要 形态。智算中心一般由地方政府或电信运营商主导建设,定位于服务 区域层面的产业创新与科研创新。据团队不完全统计,截止 2024 年 7 月底,纳入监测的智算中心(含已建和在建)已达 87 个1。AI 云一 般由公有云计算厂商进行区域范围的建设布局,并提供统筹的调度运 营,依托云计算模式,将 AI 部署能力开放给用户,为其不同场景所需要的 AI 算力、算法以及数据,提供规模化、高效率、低成本的支 撑能力。目前,华为云、百度智能云、阿里云、腾讯云等厂商占据国 内 AI 公有云市场份额近 94%2,平台效应凸显。

2.发展建议

从产业实践看,我国智算基础设施发展仍面临着不少问题。布局 方面,地方层面智算基础设施建设运营主体繁多,发展定位不够清晰。 能力方面,现有智算基建底层支撑能力不够扎实、技术创新能力不够 突出、运营保障能力不够全面,且缺乏统一的赋能能力引导规范。赋能模式方面,当前智算基建提供的服务普遍较为浅层,数据、算法、 场景等要素聚合不足、协同度不够,使得智算基建难以有效释放自身 优势。因此亟需有序引导,推进智算基础设施科学赋能。

(一)投资布局要分类引导,分级建设 基础通用大模型的训练推理,需要大规模智算集群的支撑,技术 门槛高、投资规模大。目前在我国只有国家层面统筹推进或互联网大 厂自身具备相应的技术能力与算力资源,因此对于基础通用大模型发 展应当政策引导有序建设。支持头部厂商与先进地区共同投入,面向 基础通用大模型,打造并授牌3-5个国家级超大规模智算中心。同时, 鼓励头部智算集群推进跨域资源互联协同研发,持续开展通用基础大 模型训练场景验证。

行业大模型研发及落地赋能,技术门槛略低,个性化程度高,适 宜作为地方智算基建的主攻方向。对于地方政府主导建设的智算中心, 目前以单体算力规模的中小型的智算中心为主,应将发展重点放在行 业模型相关的业务领域。要做好智能算力资源的统筹,重点聚焦合规 性管控和集约化建设,把握好节奏,避免“一窝蜂”导致大量算力的 浪费。

(二)服务能力要标准先行,强化引导 重视智算基础设施建设运营的标准化规范化。行业层面应强化标 准规范体系建设,推出智算基础设施赋能能力引导性规范。引导地方 政府以及金融、通信、能源等行业用户关注智算基础设施核心能力指 标,重点关注算力有效性、集群稳定性、绿色低碳性与服务易用性。以四个核心能力为主体推进智算基础设施相关的行业标准的制定,为 算力协同、算网融合等做好准备。

持续推进智算基础设施能力体系构建与完善。围绕底层支撑能 力、技术创新能力、运营保障能力,细化智算基建的能力评估指标, 丰富指标维度。引导业界对齐智算基础设施算力有效性认知,并明确 技术差距,包括单卡性能、芯片互联、服务器互联等。积极引导市场 应用绿色低碳智能算力。

(三)要素资源要联合创新,直击场景 支持智算基础设施运营方牵头 AI 全要素联合创新,鼓励多种模 式探索组建人工智能全要素创新联合体。面对 AI 系统创新,要充分 发挥企业科技创新主体作用,重点支持领军企业牵头、创新平台支撑、 任务场景驱动三种组建模式,打造央企国企、民营企业、高校及科研 院所等广泛参与的,融合 AI 全要素环节的创新联合体。 鼓励先进省市先行先试,组建智算基建全要素创新组织。优先支 持区域内智算基建运营主体,与有较好数据基础的行业龙头企业、场 景需求方、专业数据服务商、软件解决方案服务商合作,组建智算基 建全要素创新组织,协同推进区域内行业大模型构建与落地。