算力平台绿色技术发展是怎样的态势?

最佳答案 匿名用户编辑于2023/12/15 14:34

随着算力产业链条脉络逐渐明晰,利 用平台能力汇聚算力资源,以场景化、智能化实现算力供需精准匹 配,逐渐成为产业关注的重点和绿色化发展的关键。

1.算力资源调度全局化,促进低碳算力选择应用

算力资源调度是根据不同的任务和计算需求,在算力平台合理 分配和利用算力资源的过程,是提高算力利用效率,减少资源浪费, 保证任务高效执行的重要环节。当前,我国算力产业已经开始探索跨区域及跨集群的算力资源调度平台建设,根据规模大小及覆盖范 围,可分为全国性算力调度平台和企业级调度平台。

虚拟化、云原生技术通过软件能力优化平台性能,是提高服务 器利用率,减少能源消耗和碳排放的关键技术要素。算力由芯片、 服务器等 IT 设备生产出来后,在用户实际使用算力之前,还需通过 算力平台发挥衔接算力供需双方的桥梁作用,如何高效地将硬件算 力转化为软件算力,汇集和统一硬件算力是首要和关键,相关技术 突破经历了算力虚拟化和算力池化两个阶段。算力虚拟化,是在物 理服务器硬件或主机操作系统上插入精简的软件层,该软件层包含 一个以动态和透明方式分配硬件资源的虚拟机监视器。多个操作系 统可以同时在单台物理服务器上运行,彼此之间共享硬件资源。该 技术能够将服务器 CPU 的平均占用率提高 10%~30%,实现服务器 硬件资源整合,有效节能 20%~50%。当前,算力逐渐由串行走向 并行、单核走向双核、同构走向异构,异构计算已经成为计算架构 的主流,算力池化技术从虚拟化发展而来,是云原生技术的一种, 资源管纳的范围从单个节点扩展到由算力网络互联起来的全部算力 节点,将多个计算资源汇聚到一个池中,通过调度算法,按需灵活 调用任意程序,从而提高计算资源的利用率。算力平台会集中管理 多个计算资源,并维护一个资源池,这些资源可以是物理服务器、 虚拟机实例、容器等。资源管理系统负责对资源进行监控、分配、 回收和维护,确保资源的可靠性和可用性。算力池化的一个重要特 性是弹性伸缩。根据用户需求的变化,算力平台能够自动调整资源池的规模,增加或减少计算资源的数量,以满足用户的实时需求。 这种能力可以提高资源利用率,并降低用户的成本。同时算力平台 可以做到有效地按需来针对用户的计算任务进行调度,将任务分配 给合适的计算资源。调度算法通常考虑任务的优先级、资源的可用 性、任务的依赖关系等因素,以实现公平、高效的资源分配。此外, 容器化、容器编排、微服务化等云原生技术使得应用程序更加轻量 级、可移植和高弹性,从而实现了应用程序的快速部署、扩展和缩 减,进一步减少了能源消耗和碳排放。谷歌开发的开源 Kubernetes 平台,通过有效管理容器和根据需求扩展资源来优化资源利用,可 以防止过度配置,并允许更好地利用基础设施资源,从而实现节省 成本的作用。

企业自用算力平台可以利用先进的资源调度技术更好地管理和 使用计算资源,提高计算任务的效率和可靠性。对于覆盖用户范围 更广的全国性或地区性算力平台,资源调度能力可以帮助用户以较 低成本灵活地获取和管理低碳绿色计算资源,降低资源的浪费。这 对于需要大量计算资源的应用场景,如人工智能、大数据分析等, 具有重要意义。2023 年 6 月,中国信通院联合中国电信共同发布我 国首个实现多元异构算力调度的全国性平台——“全国一体化算力 算网调度平台(1.0版)”。该平台汇聚通用算力、智能算力、高性 能算力、边缘算力等多元算力资源,实现不同厂商的异构资源池的 算力动态感知与作业智能分发调度。特别在 AI 训练作业调度流程中, 可实现跨资源池/跨架构/跨厂商的异构算力资源调度。云厂商以及算力设备商等依据各自的算力资源优势也纷纷布局建设企业算力平 台生态。新华三发布了支持 AIGC 大算力调度的“傲飞算力平台”, 可与业务深度结合提升工作效率,持续优化算法和积累公域数据, 为用户提供最新知识能力。阿里云推出智能计算解决方案“飞天智 算平台”,适配多种芯片架构,支持 X86、ARM、GPU、NPU 等多种处 理器混合部署和统一调度,可以适配多种国内自研芯片,并进行应 用优化。

2.平台产品开发智能化,实现算力资源高效利用

算力在经过虚拟化和池化后,根据负载调用任意大小的算力成 为可能,计算架构提供了一种可扩展和适应不断变化的硬件和软件 环境的方案。计算架构可以屏蔽异构硬件差异,减少用户跨架构编 程的重编译和迁移代价,提供统一异构硬件开发工具,并提供便捷 化业务开发和部署方式,实现算力的优化配置和高效利用。

平台工程和无服务是帮助简化产品开发,实现算力资源高效利 用的架构模式。平台工程(Platform Engineering)主要指应用与 系统软件协同设计、透明研发、部署解耦,系统软件以模块化方式 交付,从而提升产研效率,加快业务迭代速度。平台工程是一门设 计和构建工具链与工作流的学科,可以为云原生时代的软件工程组 织提供自助服务能力,平台工程的目的正是让应用研发者尽可能简 单、无痛地参与到规模化的 DevOps 工作中,是让开发人员自助服务 从而达到降本增效的目的。无服务(Serverless)是一种新型的计算架构,它是一种基于事件驱动的计算模型,可以自动扩展和缩减 计算资源,而无需用户管理服务器。使开发人员能够专注于编写和 部署代码,而无需管理底层基础设施。无服务架构广泛服务于智能 科学模拟、数字化政府治理、平台型算力共享等场景,提供安全可 信的服务保障。无服务对开发人员透明地处理资源分配和管理。它 抽象了底层基础架构的细节,如服务器配置、网络和操作系统管理, 允许开发人员只需专注于编写和部署他们的功能即可。例如,AWS Lambda 和 Microsoft Azure 可以允许企业在不提供或管理服务器的 情况下运行代码及使用计算资源。这种方法支持根据需求进行自动 伸缩,通过仅在需要时动态分配资源来确保高效的 CPU 利用率。国 内使用无服务架构的企业有腾讯的云函数(Serverless Cloud Function,SCF)。云函数是腾讯云为企业和开发者们提供的无服务 器执行环境,帮助在无需购买和管理服务器的情况下运行代码。只 需使用平台支持的语言编写核心代码并设置代码运行的条件,即可 在腾讯云基础设施上弹性、安全地运行代码。

在人工智能应用开发中,人工智能应用框架可以作为平台架构 的一部分,提供机器学习模型的开发、训练和部署服务。平台工程 可以提供统一的开发平台和工具链,包括人工智能应用框架的集成 和支持,以简化人工智能应用的开发过程,提高开发效率和质量。 而无服务架构可以提供计算资源的管理和扩展服务,为人工智能应 用框架和平台工程提供支持。PyTorch 和 TensorFlow 是目前最流行 的深度学习框架,通过计算效率优化、资源优化和压缩、硬件优化和兼容性以及社区合作和共享等方面的努力,为绿色低碳化发展做 出了积极贡献。计算效率优化上,PyTorch 和 TensorFlow 等框架提 供了自动微分功能,能够自动计算导数。这样可以优化和训练模型, 减少手动计算导数的复杂性,提高计算效率。同时,框架支持异步 计算,能够同时进行计算和数据传输,最大程度地减少计算等待时 间,提高计算效率,降低能源消耗。此外,模型并行和数据并行, 框架支持将大型模型拆分为多个部分,并在多个设备上并行计算, 以加速模型训练和推理,降低整体能耗。资源优化和压缩技术上, 通过模型压缩和量化,框架提供了模型压缩和量化的技术,通过减 少模型参数的数量、使用低精度数据表示和优化存储格式等方法, 降低模型的能耗和计算复杂度。同时通过图优化和计算图分析,框 架通过计算图优化和分析技术,可以对计算图中的操作进行重排、 合并和优化,以提高计算效率和降低能耗。此外,通过内存管理和 数据重用,框架提供内存管理机制和数据重用策略,避免不必要的 内存分配和数据复制,减少能源消耗。硬件优化和兼容性上,通过 硬件加速器支持,这些框架与硬件供应商合作,支持各种硬件加速 器,如图形处理器(GPU)和神经网络处理器(NPU),充分利用硬 件加速器的优势,提高计算效率,降低功耗。同时,通过模型库和 算法优化,框架提供了丰富的模型库和算法优化,针对不同硬件平 台进行优化,使得模型在特定硬件上运行更高效,提高能源利用率。 此外,丰富跨平台兼容性,框架在不同操作系统和硬件平台上都具 备较好的兼容性,使得开发者可以在各种设备上灵活使用,从而降低硬件升级的需求,减少资源消耗。社区合作和共享上,PyTorch和 TensorFlow 等框架拥有庞大的开源社区,开发者可以共享经验、优 化代码和模型,减少重复劳动,提高能效。同时,框架提供了丰富 的教程和文档,帮助用户理解和使用高效能的模型开发和训练方法, 提高用户的技术水平,进而在实践中促进绿色低碳化发展。除 PyTorch、TensorFlow 等人工智能框架外,还有些平台软件也针对大 型 AI 模型的开发、训练进行了优化,例如开源软件 DLRover 可以帮 助 AI 模型开发人员更专注模型架构设计,而无需关心工程实现方面 的问题如硬件加速、分布式运行等,可以让大型 AI 模型的分布式训 练变得简单、稳定、快速且绿色。

在应用产品设计和优化上,还需要考虑发展绿色算法,优化策 略和参数设置,降低代码运行能耗。在算力设备上运行的应用程序, 其架构和设计可以影响服务器的利用率。没有设计成利用并行处理 或分布式计算能力的应用程序可能无法有效利用算力资源。高效的 软件设计和优化在最小化 CPU 利用率方面起着至关重要的作用。编 写良好的代码可以消除冗余计算,减少不必要的循环。同时使用高 效的算法,利用提供更快访问和处理的数据结构,可以提高应用程 序的整体性能,减少不必要的计算。同时,高效的内存管理和缓存 技术对于优化也至关重要。内存池、缓存和最小化内存碎片等技术 可以帮助减少内存开销并提高应用程序性能。在内存管理方面,当 前使用了各种技术来优化应用程序的性能,如内存映射文件、虚拟 内存和物理内存等技术。在缓存技术方面,使用了 CPU 缓存、磁盘缓存和网络缓存等。以 OceanBase 为例,基于 LSM Tree 的高级压缩 技术可以大幅降低存储成本,支付宝某核心业务从 Oracle 迁移到 OceanBase 后,数据压缩了三分之二,由 100TB 压缩到33TB。此外, 通过自研的高性能分布式事务处理引擎、SQL引擎以及负载均衡等机 制,提升数据库的运行效率,在同等算力水平上可以承载更多的业 务负载,提升资源使用效率。

3.能效监控指标多元化,深度融合人工智能技术

算力平台的能效监测和评估功能用于监测和管理能源消耗和碳 排放,结合数据分析和人工智能技术实现工作负载的优化,旨在确 保数据中心及算力设备的能源效率,同时降低碳排放,实现绿色、 低碳、可持续的运营效果。 资源和碳排放监测是实现低碳运营的基础。资源监测是指对数 据中心和算力设备的资源消耗进行实时监测和记录,包括电力系统、 制冷系统、环境温湿度、IT 资源、IT 负载、PUE 等方面的运行概况, 通过实时监控系统的关键指标了解数据中心的资源消耗情况,发现 任何异常或潜在的能源浪费,并及时采取措施应对。随着业务发展 中的低能耗要求提升,针对硬件算力资源,常见的监测指标从 CPU 利用率、内存使用情况、网络流量、磁盘 I/O 等延伸至面向业务的 综合算力效用指标。实时监控利用如剖析器和跟踪工具,可以帮助 确定 CPU 高使用率的区域,并优化相应的软件组件。碳排放监测是对数据中心和算力设备的碳排放进行监测和记录。通过了解碳排放 情况,可以采取措施减少碳排放,实现低碳运营。

能效分析和人工智能调优是实现低碳运营的关键。能效分析是 对数据中心的能源效率和性能进行综合分析。通过分析历史数据和 当前数据,进行资源分配决策、容量规划和确定性能瓶颈。针对硬 件算力资源,通过收集系统日志以及关键的性能指标,如响应时间、 吞吐量、并发连接数等,可以深入了解系统的运行情况和潜在问题, 日志分析可以帮助定位故障、发现异常行为,并为性能优化提供有 价值的线索。然后,对数据进行分析可以得出资源的利用率等情况, 包括CPU、内存、存储和网络等方面。随后通过监测资源利用率,可 以确定系统是否存在资源瓶颈,并优化资源分配以提高整体性能。 人工智能调优是指在数据中心环境中,结合大数据处理、机器学习、 AI 算法等人工智能手段分析系统及各个节点的负载情况,然后根据 这些信息自动调整任务的分配,使负载达到平衡。这使得系统能够 及时响应工作负载变化和需求波动,帮助组织提前做出资源分配和 调度的决策,从而减少资源浪费和缩短响应时间,更有效地管理和 优化其 IT 资源,提高性能并确保系统的稳定性,提供更好的用户体 验。

英国的 Deep Mind 公司用数据中心的历史数据训练神经网络系 统,预测未来数小时的温度和工作负荷,实时推送出节能方案,削 减了谷歌数据中心制冷能源费用达40%。蚂蚁集团结合人工智能和大数据资源画像能力,对上层业务应用未来 24 小时资源的使用需求进 行智能预测,并综合异构算力归一、工作负载 Serverless 化、实践 平台工程和配置代码化等技术,实现业务所需计算资源的快速扩缩 容和统一调度,目前的预测准确度超过 90%,并结合性能持续优化 (Continuous Profiling)的能力动态监测分析和实时优化,已节 约数十万核资源。