智算部署层级及发展建议有哪些？ - 问答集锦

最佳答案由匿名用户编辑于2024/11/06 16:15

一、智算基础设施发展概述

智算，即人工智能算力，是用于支撑加速人工智能算法模型训练与推理的算力，其部署层级分为芯片级、单服务器节点级、多服务器集群级。在芯片级，依托 GPU、NPU、FPGA 和 ASIC 等加速芯片用于 AI 模型训练与推理加速，当前 GPU 在国内市场中占据主导地位。华为、天数、海光、寒武纪等本土企业在该领域积极研发布局，如华为已经推出了昇腾系列全栈自主、性能优良的产品，能够实现对智能计算的良好支撑。在单服务器节点级，以“CPU+XPU”异构计算范式为主的 Al 异构服务器，加强 CPU 与 XPU 协同，主流服务器产品相对更丰富，浪潮、戴尔等传统服务器厂家基于英特尔 CPU+英伟达 GPU 的组合推出了 AI 服务器产品，华为及生态伙伴基于其自主研发的 AI 芯片推出了国产系列 AI 服务器产品。在多服务器集群级，Al 应用中数据、模型的大型化趋势对智能算力的扩展性提出高要求，资源需要以集群模式部署以提供并行计算能力，高性能无损网络+高性能存储为单服务器节点级和多服务器集群级的算力突破提供了重要支撑。

智算基础设施，即人工智能算力基础设施，是基于人工智能专用算力芯片及加速芯片等组成异构计算架构，以智能计算设施为核心设施，以智能算力集群为核心载体，面向人工智能应用场景，提供所需算力服务、数据服务和算法服务的公共算力基础设施。智算基础设施需要统筹协同计算、网络、存储等核心技术。大模型参数量和训练数据复杂性快速增长，对 AI 算力平台的建设提出了新的要求，即需要从数据中心规模化算力部署的角度，统筹考虑大模型分布式训练对于计算、网络和存储的需求特点，并集成平台软件、结合应用实践，充分关注数据传输、任务调度、并行优化、资源利用率等，设计和构建高性能、高速互联、存算平衡可扩展集群系统，以满足 AI 大模型的训练需求。首先，大模型的训练推理需要大量的加速卡并行计算，并且需要使用分布式训练和推理来提高效率。同时，大模型对存储的需求也很高，因为模型需要存储大量的参数和梯度信息。此外，大模型对网络的需求也很高，因为需要快速传输数据和同步梯度信息。整体来看，智算基础设施的部署涉及计算、网络、存储三大维度的横向协同，也需要兼顾软件平台与硬件资源的纵向协同。

各方主体积极推进布局智算基础设施。以提供公共普惠的智能算力服务为基本原则，地方政府（地方国投产投平台投资）、央国企（电信运营商投资）、AI 云厂商（阿里云、华为云、百度智能云等投资）是我国智算基础设施的投建主体。从总体定位看，智算基础设施成为地方发展人工智能产业、发展产业数字化的重要创新载体，具有重要价值。从落地运营看，智算基础设施是加快 AI 产业化和产业 AI 化的重要战略支撑。智算中心与 AI 云，是当前智算基础设施的两种主要形态。智算中心一般由地方政府或电信运营商主导建设，定位于服务区域层面的产业创新与科研创新。据团队不完全统计，截止 2024 年 7 月底，纳入监测的智算中心（含已建和在建）已达 87 个1。AI 云一般由公有云计算厂商进行区域范围的建设布局，并提供统筹的调度运营，依托云计算模式，将 AI 部署能力开放给用户，为其不同场景所需要的 AI 算力、算法以及数据，提供规模化、高效率、低成本的支撑能力。目前，华为云、百度智能云、阿里云、腾讯云等厂商占据国内 AI 公有云市场份额近 94%2，平台效应凸显。

2.发展建议

从产业实践看，我国智算基础设施发展仍面临着不少问题。布局方面，地方层面智算基础设施建设运营主体繁多，发展定位不够清晰。能力方面，现有智算基建底层支撑能力不够扎实、技术创新能力不够突出、运营保障能力不够全面，且缺乏统一的赋能能力引导规范。赋能模式方面，当前智算基建提供的服务普遍较为浅层，数据、算法、场景等要素聚合不足、协同度不够，使得智算基建难以有效释放自身优势。因此亟需有序引导，推进智算基础设施科学赋能。

（一）投资布局要分类引导，分级建设基础通用大模型的训练推理，需要大规模智算集群的支撑，技术门槛高、投资规模大。目前在我国只有国家层面统筹推进或互联网大厂自身具备相应的技术能力与算力资源，因此对于基础通用大模型发展应当政策引导有序建设。支持头部厂商与先进地区共同投入，面向基础通用大模型，打造并授牌3-5个国家级超大规模智算中心。同时，鼓励头部智算集群推进跨域资源互联协同研发，持续开展通用基础大模型训练场景验证。

行业大模型研发及落地赋能，技术门槛略低，个性化程度高，适宜作为地方智算基建的主攻方向。对于地方政府主导建设的智算中心，目前以单体算力规模的中小型的智算中心为主，应将发展重点放在行业模型相关的业务领域。要做好智能算力资源的统筹，重点聚焦合规性管控和集约化建设，把握好节奏，避免“一窝蜂”导致大量算力的浪费。

（二）服务能力要标准先行，强化引导重视智算基础设施建设运营的标准化规范化。行业层面应强化标准规范体系建设，推出智算基础设施赋能能力引导性规范。引导地方政府以及金融、通信、能源等行业用户关注智算基础设施核心能力指标，重点关注算力有效性、集群稳定性、绿色低碳性与服务易用性。以四个核心能力为主体推进智算基础设施相关的行业标准的制定，为算力协同、算网融合等做好准备。

持续推进智算基础设施能力体系构建与完善。围绕底层支撑能力、技术创新能力、运营保障能力，细化智算基建的能力评估指标，丰富指标维度。引导业界对齐智算基础设施算力有效性认知，并明确技术差距，包括单卡性能、芯片互联、服务器互联等。积极引导市场应用绿色低碳智能算力。

（三）要素资源要联合创新，直击场景支持智算基础设施运营方牵头 AI 全要素联合创新，鼓励多种模式探索组建人工智能全要素创新联合体。面对 AI 系统创新，要充分发挥企业科技创新主体作用，重点支持领军企业牵头、创新平台支撑、任务场景驱动三种组建模式，打造央企国企、民营企业、高校及科研院所等广泛参与的，融合 AI 全要素环节的创新联合体。鼓励先进省市先行先试，组建智算基建全要素创新组织。优先支持区域内智算基建运营主体，与有较好数据基础的行业龙头企业、场景需求方、专业数据服务商、软件解决方案服务商合作，组建智算基建全要素创新组织，协同推进区域内行业大模型构建与落地。

参考报告

2024年智算基础设施行业发展研究报告.pdf
- 查看报告