从行业实际需求来看,智 算基础设施着重关注算力有效性、集群稳定性、绿色低碳性、服务易 用性这四个能力要素。
(一)算力有效性是核心
智算基础设施的算力有效性,主要指集群算力利用率,其决定了 智算基础设施最终的有效算力供给能力。模型计算利用率(MFU, Model FLOPS Utilization)是集群算力性能的核心指标之一,用于评 估人工智能加速器在模型训练期间利用程度,它表示在模型训练期间 实际使用的浮点运算数(FLOPS)与理论上可用的 FLOPS 之间的比 率。高 MFU 表明加速器在模型训练中被充分利用。从业界实践调研 结果看,智算基础设施算力有效性能普遍不高,达到 40-50%属于较 为优秀。部分主体在特定条件探索,可超过 50%。芯片存储量和片间 互联带宽,二者共同决定了整个训练任务多久才能完成。在智算基础 设施的构建过程中,要尽可能的降低 AI 加速卡协同过程中的算力损 耗,从而提升集群整体的有效算力。高带宽存储、高速互联网络等技 术用于解决智算基础设施推进分布式并行训练中的“存储墙”与“通 信墙”,尽力提升智算集群算力利用率。
高速互联网络用于解决“通信墙”问题,涉及多卡互联与多机互 联。芯片层面,单服务器内 chip-to-chip 互联场景。英特尔等牵头成 立 CXL 联盟并最新推出 CXL 2.0-3.0 规范,用于 AI、高性能计算等 场景中 CPU 与 GPU 等的互联。以英伟达为典型代表,专门设计用于 点对点链路高速互联的网络方案 NVlink,实现 GPU to GPU 的高速连 接。开放加速规范(OAM)由 OCP 下设的 OAI 小组推动制定,该标 准主要用于指导 AI 硬件加速模块和系统设计。目前有燧原科技、壁 仞科技、浪潮信息等 10 余家 OAI 小组成员已经陆续开发了 10 余种 符合开放加速规范的 OAM 模块,提供高速的卡间互联。设备层面, 推进多服务器节点间的多卡互联。当前 RDMA(远程直接数据存取) 协议已成为大模型时代智算基础设施的底层通信技术,业内主要使用 的是 Infiniband、RoCE(基于融合以太网的远程直接内存访问)。英伟 达解决集群性能瓶颈的方式是引入 InfiniBand 网络,并将 C2C 场景 下应用的 NVLink 延伸至设备间互联。依托构建基于 RDMA 的高速 互联网络,国内厂商在构建智算集群方面正缩小与英伟达 Nvlink+IB 网络方案的差距,不过 RDMA 相关通信芯片存在卡脖子问题。华为 创造性设计和建立了总线体系,以一种可扩展至数据中心规模的计算 机总线,打破服务器物理边界,实现计算集群以一台计算机的方式完 成数据中心的通信、资源管理和功能调用,另外华为昇腾 910 集成了 HCCS、PCIe4.0 和 RoCEv2 接口,为构建横向扩展(ScaleOut)和纵 向扩展(ScaleUp)系统提供了灵活高效的方法。浪潮 SuperPod 集群 采用低延迟、高带宽的 RDMA 网络,并针对并行训练算法的通信模式进行组网拓扑优化,实现集群间任意 AI 芯片间的 RDMA 互联,消 除混合并行算法的潜在通信瓶颈。
提高算力芯片的单片存储和片间带宽有利于提升计算效率,从而 解决“存储墙”。单加速卡的内存无法加载千亿级参数大模型,往往 需要上百张卡才可以支持。为破除存储墙,一般会引入流水线并行, 将模型不同的层放到不同的节点的显卡内进行计算。提高算力芯片的 单片存储有利于减少整体芯片数量,从而提高计算效率。大模型需要 缓存上千亿的参数量,单个芯片的存储量越大,整个集群所需要的芯 片数量就越少,传输时间就相应地会更低,从而更有利于提高整个集 群的计算效率。在提高算力芯片的片间带宽方面,HBM(High Bandwidth Memory,高带宽内存)突破了内存容量与带宽瓶颈,被视 为新一代 DRAM 解决方案。从技术角度看,HBM 促使 DRAM 从传 统 2D 加速走向立体 3D,充分利用空间、缩小面积,契合半导体行业 小型化、集成化的发展趋势。业界认为是 DRAM 通过存储器层次结 构的多样化开辟一条新的道路,革命性提升 DRAM 的性能。
(二)集群稳定性是保障
AI 大模型训练面临智算基础设施稳定性、可用度挑战。大模型 的训练过程比传统的分布式训练复杂,训练周期长达数月。而集群计 算效率低、故障频发且处理复杂,会导致训练中断后不能及时恢复, 从而会降低成功率,也会使训练成本居高不下。模型训练效率的保障 需要硬件、系统、软件、驱动等各个部分的持续稳定运转,一旦出现 问题,整个训练过程都将停摆。而集群是全机大应用,涉及器件数百万/千万级,而单器件故障就会触发整体集群训练中断,大模型训练全 流程时间较长,根因定位定界复杂。以 Meta 训练大模型的实践来看, 大模型平均稳定的集群训练时长仅为 2.8 天左右,但处理故障的时间 就需要 1 天起,极端情况可能达到 30 天,严重拉低大模型训练效率。
网络的可用性直接决定着智算基础设施算力的稳定性,网络故障 引发的影响具有放大效应。在超大网络集群中,一个网络节点的故障 或将影响数十个甚至更多计算节点连通性。故障时需要容错替换等方 式处理故障,并重新排布提升效率。网络故障影响体现在以下几方面: 首先网络故障域大。相比单点 GPU 故障只影响集群算力的千分之几, 网络故障会影响数十个甚至更多 GPU 的连通性,只有网络稳定才能 维持系统算力的完整性。其次网络性能波动影响大。相比单个低性能 GPU 或服务器容易被隔离,网络作为集群共享资源,性能波动会导致 所有计算资源的利用率都受影响。在 AI 大模型场景下,网络故障收 敛时间越长,算力损失越大,性能敏感业务体验也越差。然而可靠性 再高的网络仍然不可避免出现链路级以及节点级的故障,网络规模越 大,出现故障的概率越大。在大规模网络环境中,网络节点和链路数 量激增的同时也带来了故障事件的增加。如何提升网络在故障场景中 的收敛性能是当前网络亟待解决的问题之一。
国内 AI 头部厂商推出集群稳定性方案。华为昇腾 AI 计算集群 推出计算网络存储协同优化技术,提升集群 MTTR(平均故障恢复时 长),打造最佳断点续训。在算网协同方面,实现集合通信建链优化, 缩短训练任务恢复时长;在算存协同方面,提供 NDS 算存直通技术,实现数据免内存拷贝,同时提供异步 CKPT 技术,使得 Checkpoint 保 存到计算内存后,训练任务马上可以继续,不用等待 CKPT 写入存储 过程,从而有效减小 CKPT 保存过程中训练中断的时间,有效缩短训 练任务恢复时长。以昇腾芯片和昇思框架构建的 AI 集群在 2048 卡规 模训练 2000 亿参数盘古大模型时,在非故障停机前连续稳定训练 25 天。浪潮信息推出大模型智算软件栈 OGAI,软件栈调度平台层 AIStation 针对大模型训练中常见的训练中断难题,能够做到训练异常 快速定位,断点自动续训。利用 AIStation 内置的监控全面的监控系 统和智能运维模块,可以快速定位芯片、网卡、通讯设备异常或故障。 摩尔线程夸娥千卡集群支持长时间连续稳定运行,支持大规模 AI 分 布式训练下全栈稳定性诊断与性能分析,结合断点续训,以及高性能 网络和存储,异步检查点(Checkpoint)读写少于 2 分钟,大幅提升 集群算力利用率和有效训练时长。
(三)绿色低碳性是前提
智算中心自身能耗和碳排放将带来不小挑战,当前最为先进的智 算基础设施单柜能耗已达 50+kw。超大规模预训练模型的出现和快速 迭代,智算基础设施的电力成本和设备成本均显著增加。据相关智库 测算,使用英伟达 GPU 集群组成的微软超算数据中心中训练一次 GPT-3 模型消耗的电量约为 19 万度,按照全国电力平均二氧化碳排 放因子 0.5568kg CO2/kWh9计算,相当于间接排放二氧化碳 105,792kg。 大型智算基础设施耗电量更是惊人。以 10 万 GPU 集群为例,功率超过 150MW,一年的耗电量近 16 亿度。此外,据 Llama 3 团队公开信 息显示,训练过程中一大挑战就是电力,数万张 GPU 卡同时高负荷 运行会给数据中心电力带来极强的压力,有时候其电力需求甚至高达 数十兆瓦,超出了电网的极限。
推进部署高集成性智算液冷整机柜,是当前智算基础设施应对高 能耗的先进解决方案之一。智算基础设施正规模化、产品化引入高集 成性液冷集群方案,在液冷总线、电源总线、网络总线方面实现能耗 节约。液冷总线方面,高集成性智算液冷整机柜可实现数字化控制、 按需制冷、盲插高可靠,能够缩短液冷硬件交付周期 75%以上,安装 时间从 2 周缩短至 3 天,整柜功耗降低 10%。电源总线方面,实现全 局池化爆发供电,超高电源转换效率,能够减少业务峰值配电需求 20% 以下,提升市电利用率 20%以上,系统电源转化效率达 97%。网络总 线方面,实现分层解耦,可支持标准交换机,柜内 100%免光模块, 机柜内互联成本降低 90%,整柜功耗降低 3%,网络部署时间缩短 87.5%,单柜部署由 8 小时降至 1 小时。不过,液冷部署和运维也面 临着冷量按需供给的精确液冷挑战,基础设施改造升级的工程化部署 挑战,以及机房系统整体的高可靠挑战。
构建智能化能耗管控平台,实现自动化按需制冷,也是智算基础 设施推进低碳减排的重要手段。部分智算中心建立了运行数据实时采 集、分析与控制平台,利用人工智能技术优化温控供电模式,实现智 能化精确制冷,推动制冷耗电量下降 8%~15%,从而保障智算中心的 安全稳定与低碳运行。通过构建 AI 能耗管控平台,融合末端空调按需自动调控技术和冷冻水系统多点自动联控技术,通过海量数据采集、 AI 模型训练、AI 数据推理、实时评估等手段,对 IT 设备、基础设施 跨域联动,诊断高能耗原因,输出调优方案,确保能效最大化。浪潮 推出算力基础设施 AI 能耗管控平台,以机房空调节能为例,依托 7 类数据模型和 6 大 AI 核心能力,全面感知环境变化、精细采集电量 走势、孪生仿真机房温场,综合考虑室内外环境、IT 负荷、空调输出 等实时状况构建“一房一策”,解决机房制冷过剩和温湿度控制难等 问题,实现制冷量“精准够用”。
(四)服务易用性是亮点
智算基础设施提供云化服务趋势明显。云化服务是智算基础设施 能力触达广大中小企业及个人开发者的重要渠道,智算云服务平台需 要与下层智算基础设施形成强耦合协同关联。云化服务下,用户可以 随时随地进行计算资源的访问和应用,无需进行高额的硬件投入或维 护。这大大降低了 AI 技术的使用门槛,使更多的企业和开发者能够 享受到智能算力的便利。云化服务平台作为用户和智算基础设施之间 的桥梁,需要将上层的需求和下层的资源紧密结合。平台应通过与下 层智算基础设施的深度集成和优化,实现资源的动态调度和管理,为 用户提供高效、稳定、安全的计算服务。云化服务,轻量级的硬件部 署,是智算基础设施提供服务的重要发展方向。
全栈式技术能力是智算基础设施生态构建的基础。智算基础设施 应构筑全栈技术能力,方便用户使用智能算力,全栈生态服务是智算 基础设施能否为用户提供优质 AI 服务的重要标志之一。全栈生态服务包括从数据采集、数据处理、模型训练到模型部署和推理的全过程。 为了提供全栈生态服务,需要打造一个涵盖硬件、软件、算法、数据 等各个方面的生态系统。这样可以确保用户能够获得一站式的服务支 持,从而提高开发效率、减少开发成本。全栈式的服务可以扩展潜在 客户的范围,也能够增加服务客户的深度,从而增加客户粘性。 普惠泛在的智算服务是智算基础设施服务发展趋势。AI 大模型 以“大规模预训练+微调”为主,前期预训练工作量大,且需要高性 能大算力 AI 芯片支撑,算力需求呈现周期性,后期推理算力对芯片 计算能力要求相对较低。智算中心的算法模型、AI 架构定制化程度 高,其他场景难以复用。据 IDC 调研,超过 80%的受访组织表示会 考虑购买预先训练好的人工智能模型,但未来 2-3 年私有化部署仍将 是整个智算市场的主流。由于当前国内高性能芯片受限、智能算力建 设及使用门槛高等原因,借助平台调度实现算力错峰使用,并整合数 据集、组件、算法模型提供平台级服务,可实现全社会算力服务普适、 普惠和高效利用,因此成为业界运营智算中心的趋势。
作为关键环节与核心底座,以智算中心为代表的智能算力基础设 施,在 AI 落地破局与赋能新型工业化进程中,被赋予更重要的定位。 目前国内一批智算基础设施积极探索运营赋能新模式,涌现出一批卓 有成效的赋能落地案例。
(一)产研合作行业大模型
部分智算基础设施将创新重心放在“AI for Science”,积极联合 科研院所与头部 AI 厂商,深度参与行业大模型应用创新,输出智算 资源、算法资源、研发资源等,开展行业大模型的研发,并着力推进 产业化落地。大连人工智能计算中心联合中国科学院大连化学物理研 究所、华为,共同研发了智能化工大模型。该大模型可开展化工知识 的快速检索及化工流程工艺的自主设计和优化,实现甲醇制丙烯 (DMTP)等工艺过程的反应动力学自动生成,缩短化工工艺流程的研 发周期,推动实验室成果快速走向商用。在研发过程中,大连人工智 能计算中心不仅提供 20P 训练算力维持 7 个月训练,还整合大连理工 大学软件学院算法资源进行模型训练调优处理,提升模型训练效率, 更是积极组织化工场景相关企业进行供需对接,助力模型产业化落地。 西安人工智能计算中心已共同推出西安电子科技大学“秦岭·西电遥 感脑大模型”、西北工业大学“秦岭·翱翔流体力学大模型”等多个大 模型,联合西北工业大学成立陕西省智能流体力学重点实验室,与上 海商飞、深圳比亚迪、第一飞机设计院等头部企业合作,持续推进智 能流体力学产业落地。
(二)龙头引领联合创新
部分智算基础设施牵头整合 AI 创新全要素资源,囊括算力、模 型、算法、数据、场景等核心要素,联合相关领域核心科研机构、高 校以及产业链上下游企业等共同发起成立人工智能全要素创新联合 体,推动 AI 技术突破和应用普及,加快人工智能赋能新型工业化建设。阿里云、华为云、腾讯云、百度云、京东云等云计算大厂均已经 推出了 MaaS 服务,该模式的出现为云厂商提供了新的增长空间,同 时,基于数据训练模型,让行业客户、开发者和 ISV 等角色都聚拢在 一起协同创新,降低成本,加速了云厂商自身的生态构建,为自身大 模型落地提供更强的配套支撑。广州人工智能计算中心联合广州数据 集团、华为、中国移动、中国信通院规划所等主体,以及低空经济、 医疗、家居等行业龙头企业伙伴,共同成立了广州人工智能算力及应 用创新联合体,将协作研究 AI+行业应用全要素创新联合体创新范式、 工作框架及保障机制,着力推进低空经济、医疗、家居、教育等领域 AI 应用落地。武汉人工智能计算中心依托中科院“紫东太初”大模 型,在武汉成立多模态人工智能产业联合体,吸引近百家企业,已在 智能制造、智慧城市、智慧文旅等数十个行业中孵化出近 60 个创新 应用,产生了极强的产业集聚效应。
(三)央国企示范应用发展
部分智算基础设施着力面向央国企主体支持全栈 AI 应用发展, 积极响应国资委“人工智能+”专项行动要求,依托智能计算基础软 硬件方案,推进央国企主体 AI 应用全栈方案部署,确保性能先进与 自主可控。沈阳人工智能计算中心底座均采用自主创新的基础软硬件 平台搭建,助力企业、高校、科研院所进行信创转型适配,支持中煤 科工集团机器人科技有限公司借助国产化机器人软硬件平台,打造 AI 智能机器人,完成首款昇腾 AI 智能矿用机器人的研发,2023 年完 成首款昇腾 AI 智能机器人及固定场景视觉识别解决方案的产品发布。该机器人搭载昇腾 Atlas 500 Pro 硬件,在实现安全可靠的同时达到更 高的能效比和计算性能。目前,该项目已在内蒙古寸草塔煤矿等矿井 实现落地使用。
(四)超智融合算力生态
部分智算基础设施以智能超算中心的模式进行赋能,可同时提供 智能计算和高性能计算两种技术路线的算力服务,在社会治理、科学 研究、生产制造、智能感知、区域治理等方面,都具有更高的算力适 配和算法匹配优势,并延伸更为广阔的应用场景及便捷服务。宁波人 工智能超算中心将智算与超算融合建设,大大的提升了覆盖应用场景 的广泛性,减少了建设成本,并为同一家单位或同一个任务对两种类 型算力的需求提供了更多的可能性,也为未来探索从底层技术架构实 现融合发展奠定了基础。宁波大学信息学院研发团队使用智算、超算 算力进行“风华·苍鹭”视频理解大模型研发训练等,通过借助超算资 源实现了计算能力的大幅提升,加快了模型的迭代优化速度。北航宁 波创新研究院科研团队将智算、超算引入飞行器气体燃料模拟中,计 算速度比传统详细机理计算方法快 25 倍,比传统超算中心提速两三 倍。