算力平台绿色技术发展是怎样的态势？ - 问答集锦

最佳答案由匿名用户编辑于2023/12/15 14:34

随着算力产业链条脉络逐渐明晰，利用平台能力汇聚算力资源，以场景化、智能化实现算力供需精准匹配，逐渐成为产业关注的重点和绿色化发展的关键。

1.算力资源调度全局化，促进低碳算力选择应用

算力资源调度是根据不同的任务和计算需求，在算力平台合理分配和利用算力资源的过程，是提高算力利用效率，减少资源浪费，保证任务高效执行的重要环节。当前，我国算力产业已经开始探索跨区域及跨集群的算力资源调度平台建设，根据规模大小及覆盖范围，可分为全国性算力调度平台和企业级调度平台。

虚拟化、云原生技术通过软件能力优化平台性能，是提高服务器利用率，减少能源消耗和碳排放的关键技术要素。算力由芯片、服务器等 IT 设备生产出来后，在用户实际使用算力之前，还需通过算力平台发挥衔接算力供需双方的桥梁作用，如何高效地将硬件算力转化为软件算力，汇集和统一硬件算力是首要和关键，相关技术突破经历了算力虚拟化和算力池化两个阶段。算力虚拟化，是在物理服务器硬件或主机操作系统上插入精简的软件层，该软件层包含一个以动态和透明方式分配硬件资源的虚拟机监视器。多个操作系统可以同时在单台物理服务器上运行，彼此之间共享硬件资源。该技术能够将服务器 CPU 的平均占用率提高 10％～30％，实现服务器硬件资源整合，有效节能 20％～50％。当前，算力逐渐由串行走向并行、单核走向双核、同构走向异构，异构计算已经成为计算架构的主流，算力池化技术从虚拟化发展而来，是云原生技术的一种，资源管纳的范围从单个节点扩展到由算力网络互联起来的全部算力节点，将多个计算资源汇聚到一个池中，通过调度算法，按需灵活调用任意程序，从而提高计算资源的利用率。算力平台会集中管理多个计算资源，并维护一个资源池，这些资源可以是物理服务器、虚拟机实例、容器等。资源管理系统负责对资源进行监控、分配、回收和维护，确保资源的可靠性和可用性。算力池化的一个重要特性是弹性伸缩。根据用户需求的变化，算力平台能够自动调整资源池的规模，增加或减少计算资源的数量，以满足用户的实时需求。这种能力可以提高资源利用率，并降低用户的成本。同时算力平台可以做到有效地按需来针对用户的计算任务进行调度，将任务分配给合适的计算资源。调度算法通常考虑任务的优先级、资源的可用性、任务的依赖关系等因素，以实现公平、高效的资源分配。此外，容器化、容器编排、微服务化等云原生技术使得应用程序更加轻量级、可移植和高弹性，从而实现了应用程序的快速部署、扩展和缩减，进一步减少了能源消耗和碳排放。谷歌开发的开源 Kubernetes 平台，通过有效管理容器和根据需求扩展资源来优化资源利用，可以防止过度配置，并允许更好地利用基础设施资源，从而实现节省成本的作用。

企业自用算力平台可以利用先进的资源调度技术更好地管理和使用计算资源，提高计算任务的效率和可靠性。对于覆盖用户范围更广的全国性或地区性算力平台，资源调度能力可以帮助用户以较低成本灵活地获取和管理低碳绿色计算资源，降低资源的浪费。这对于需要大量计算资源的应用场景，如人工智能、大数据分析等，具有重要意义。2023 年 6 月，中国信通院联合中国电信共同发布我国首个实现多元异构算力调度的全国性平台——“全国一体化算力算网调度平台（1.0版）”。该平台汇聚通用算力、智能算力、高性能算力、边缘算力等多元算力资源，实现不同厂商的异构资源池的算力动态感知与作业智能分发调度。特别在 AI 训练作业调度流程中，可实现跨资源池/跨架构/跨厂商的异构算力资源调度。云厂商以及算力设备商等依据各自的算力资源优势也纷纷布局建设企业算力平台生态。新华三发布了支持 AIGC 大算力调度的“傲飞算力平台”，可与业务深度结合提升工作效率，持续优化算法和积累公域数据，为用户提供最新知识能力。阿里云推出智能计算解决方案“飞天智算平台”，适配多种芯片架构，支持 X86、ARM、GPU、NPU 等多种处理器混合部署和统一调度，可以适配多种国内自研芯片，并进行应用优化。

2.平台产品开发智能化，实现算力资源高效利用

算力在经过虚拟化和池化后，根据负载调用任意大小的算力成为可能，计算架构提供了一种可扩展和适应不断变化的硬件和软件环境的方案。计算架构可以屏蔽异构硬件差异，减少用户跨架构编程的重编译和迁移代价，提供统一异构硬件开发工具，并提供便捷化业务开发和部署方式，实现算力的优化配置和高效利用。

平台工程和无服务是帮助简化产品开发，实现算力资源高效利用的架构模式。平台工程（Platform Engineering）主要指应用与系统软件协同设计、透明研发、部署解耦，系统软件以模块化方式交付，从而提升产研效率，加快业务迭代速度。平台工程是一门设计和构建工具链与工作流的学科，可以为云原生时代的软件工程组织提供自助服务能力，平台工程的目的正是让应用研发者尽可能简单、无痛地参与到规模化的 DevOps 工作中，是让开发人员自助服务从而达到降本增效的目的。无服务（Serverless）是一种新型的计算架构，它是一种基于事件驱动的计算模型，可以自动扩展和缩减计算资源，而无需用户管理服务器。使开发人员能够专注于编写和部署代码，而无需管理底层基础设施。无服务架构广泛服务于智能科学模拟、数字化政府治理、平台型算力共享等场景，提供安全可信的服务保障。无服务对开发人员透明地处理资源分配和管理。它抽象了底层基础架构的细节，如服务器配置、网络和操作系统管理，允许开发人员只需专注于编写和部署他们的功能即可。例如，AWS Lambda 和 Microsoft Azure 可以允许企业在不提供或管理服务器的情况下运行代码及使用计算资源。这种方法支持根据需求进行自动伸缩，通过仅在需要时动态分配资源来确保高效的 CPU 利用率。国内使用无服务架构的企业有腾讯的云函数（Serverless Cloud Function，SCF）。云函数是腾讯云为企业和开发者们提供的无服务器执行环境，帮助在无需购买和管理服务器的情况下运行代码。只需使用平台支持的语言编写核心代码并设置代码运行的条件，即可在腾讯云基础设施上弹性、安全地运行代码。

在人工智能应用开发中，人工智能应用框架可以作为平台架构的一部分，提供机器学习模型的开发、训练和部署服务。平台工程可以提供统一的开发平台和工具链，包括人工智能应用框架的集成和支持，以简化人工智能应用的开发过程，提高开发效率和质量。而无服务架构可以提供计算资源的管理和扩展服务，为人工智能应用框架和平台工程提供支持。PyTorch 和 TensorFlow 是目前最流行的深度学习框架，通过计算效率优化、资源优化和压缩、硬件优化和兼容性以及社区合作和共享等方面的努力，为绿色低碳化发展做出了积极贡献。计算效率优化上，PyTorch 和 TensorFlow 等框架提供了自动微分功能，能够自动计算导数。这样可以优化和训练模型，减少手动计算导数的复杂性，提高计算效率。同时，框架支持异步计算，能够同时进行计算和数据传输，最大程度地减少计算等待时间，提高计算效率，降低能源消耗。此外，模型并行和数据并行，框架支持将大型模型拆分为多个部分，并在多个设备上并行计算，以加速模型训练和推理，降低整体能耗。资源优化和压缩技术上，通过模型压缩和量化，框架提供了模型压缩和量化的技术，通过减少模型参数的数量、使用低精度数据表示和优化存储格式等方法，降低模型的能耗和计算复杂度。同时通过图优化和计算图分析，框架通过计算图优化和分析技术，可以对计算图中的操作进行重排、合并和优化，以提高计算效率和降低能耗。此外，通过内存管理和数据重用，框架提供内存管理机制和数据重用策略，避免不必要的内存分配和数据复制，减少能源消耗。硬件优化和兼容性上，通过硬件加速器支持，这些框架与硬件供应商合作，支持各种硬件加速器，如图形处理器（GPU）和神经网络处理器（NPU），充分利用硬件加速器的优势，提高计算效率，降低功耗。同时，通过模型库和算法优化，框架提供了丰富的模型库和算法优化，针对不同硬件平台进行优化，使得模型在特定硬件上运行更高效，提高能源利用率。此外，丰富跨平台兼容性，框架在不同操作系统和硬件平台上都具备较好的兼容性，使得开发者可以在各种设备上灵活使用，从而降低硬件升级的需求，减少资源消耗。社区合作和共享上，PyTorch和 TensorFlow 等框架拥有庞大的开源社区，开发者可以共享经验、优化代码和模型，减少重复劳动，提高能效。同时，框架提供了丰富的教程和文档，帮助用户理解和使用高效能的模型开发和训练方法，提高用户的技术水平，进而在实践中促进绿色低碳化发展。除 PyTorch、TensorFlow 等人工智能框架外，还有些平台软件也针对大型 AI 模型的开发、训练进行了优化，例如开源软件 DLRover 可以帮助 AI 模型开发人员更专注模型架构设计，而无需关心工程实现方面的问题如硬件加速、分布式运行等，可以让大型 AI 模型的分布式训练变得简单、稳定、快速且绿色。

在应用产品设计和优化上，还需要考虑发展绿色算法，优化策略和参数设置，降低代码运行能耗。在算力设备上运行的应用程序，其架构和设计可以影响服务器的利用率。没有设计成利用并行处理或分布式计算能力的应用程序可能无法有效利用算力资源。高效的软件设计和优化在最小化 CPU 利用率方面起着至关重要的作用。编写良好的代码可以消除冗余计算，减少不必要的循环。同时使用高效的算法，利用提供更快访问和处理的数据结构，可以提高应用程序的整体性能，减少不必要的计算。同时，高效的内存管理和缓存技术对于优化也至关重要。内存池、缓存和最小化内存碎片等技术可以帮助减少内存开销并提高应用程序性能。在内存管理方面，当前使用了各种技术来优化应用程序的性能，如内存映射文件、虚拟内存和物理内存等技术。在缓存技术方面，使用了 CPU 缓存、磁盘缓存和网络缓存等。以 OceanBase 为例，基于 LSM Tree 的高级压缩技术可以大幅降低存储成本，支付宝某核心业务从 Oracle 迁移到 OceanBase 后，数据压缩了三分之二，由 100TB 压缩到33TB。此外，通过自研的高性能分布式事务处理引擎、SQL引擎以及负载均衡等机制，提升数据库的运行效率，在同等算力水平上可以承载更多的业务负载，提升资源使用效率。

3.能效监控指标多元化，深度融合人工智能技术

算力平台的能效监测和评估功能用于监测和管理能源消耗和碳排放，结合数据分析和人工智能技术实现工作负载的优化，旨在确保数据中心及算力设备的能源效率，同时降低碳排放，实现绿色、低碳、可持续的运营效果。资源和碳排放监测是实现低碳运营的基础。资源监测是指对数据中心和算力设备的资源消耗进行实时监测和记录，包括电力系统、制冷系统、环境温湿度、IT 资源、IT 负载、PUE 等方面的运行概况，通过实时监控系统的关键指标了解数据中心的资源消耗情况，发现任何异常或潜在的能源浪费，并及时采取措施应对。随着业务发展中的低能耗要求提升，针对硬件算力资源，常见的监测指标从 CPU 利用率、内存使用情况、网络流量、磁盘 I/O 等延伸至面向业务的综合算力效用指标。实时监控利用如剖析器和跟踪工具，可以帮助确定 CPU 高使用率的区域，并优化相应的软件组件。碳排放监测是对数据中心和算力设备的碳排放进行监测和记录。通过了解碳排放情况，可以采取措施减少碳排放，实现低碳运营。

能效分析和人工智能调优是实现低碳运营的关键。能效分析是对数据中心的能源效率和性能进行综合分析。通过分析历史数据和当前数据，进行资源分配决策、容量规划和确定性能瓶颈。针对硬件算力资源，通过收集系统日志以及关键的性能指标，如响应时间、吞吐量、并发连接数等，可以深入了解系统的运行情况和潜在问题，日志分析可以帮助定位故障、发现异常行为，并为性能优化提供有价值的线索。然后，对数据进行分析可以得出资源的利用率等情况，包括CPU、内存、存储和网络等方面。随后通过监测资源利用率，可以确定系统是否存在资源瓶颈，并优化资源分配以提高整体性能。人工智能调优是指在数据中心环境中，结合大数据处理、机器学习、 AI 算法等人工智能手段分析系统及各个节点的负载情况，然后根据这些信息自动调整任务的分配，使负载达到平衡。这使得系统能够及时响应工作负载变化和需求波动，帮助组织提前做出资源分配和调度的决策，从而减少资源浪费和缩短响应时间，更有效地管理和优化其 IT 资源，提高性能并确保系统的稳定性，提供更好的用户体验。

英国的 Deep Mind 公司用数据中心的历史数据训练神经网络系统，预测未来数小时的温度和工作负荷，实时推送出节能方案，削减了谷歌数据中心制冷能源费用达40%。蚂蚁集团结合人工智能和大数据资源画像能力，对上层业务应用未来 24 小时资源的使用需求进行智能预测，并综合异构算力归一、工作负载 Serverless 化、实践平台工程和配置代码化等技术，实现业务所需计算资源的快速扩缩容和统一调度，目前的预测准确度超过 90%，并结合性能持续优化（Continuous Profiling）的能力动态监测分析和实时优化，已节约数十万核资源。

参考报告

绿色算力技术白皮书.pdf
- 查看报告