算力是数据中心服务器对数据处理并实现结果输出的一种能力,是集信息计算力、网络 运载力、数据存储力于一体的新质生产力。随着全球产业数字化、智能化转型升级,算力已 经成为全球最受重视的战略性生产力,对其需求也在快速攀升。IDC 数据显示,2024 年人 工智能数据中心 IT 能耗(含服务器、存储系统和网络)达到 55.1TWh,2025 年将增至 77.7TWh, 2027 年将增长至 146.2TWh;2022-2027 年五年年复合增长率为 44.8%。因此,研究与创新 绿色算力相关技术、推进和发展绿色算力相关产业成为算力可持续发展至关重要的命题。 绿色算力包括能源侧、算力侧(软硬件)、应用侧三大方向。算力产业链包括了上游基 础软硬件,中游为算力网络及平台以及下游为各类应用场景。从算力到绿色算力,基于算力 设备高效(Efficient)、算力载体节能(Conservation)、算能协同清洁(Clean)、算用协同普 惠(Inclusive)发展的绿色算力 ECCI 框架,我们构建了绿色算力的研究框架。除了上游能 源侧、下游应用侧以及中游数据中心的设备和载体,我们在研究同时加入算法软件层面的绿 色优化。能源侧分聚焦发电、储能、供配电和调度平台,为算力提供电力支持;算力侧(这 里更多聚焦 AI 算力,所以专门加入绿色算法的维度)由数据中心承载,通过算法训练和推 理对算力进行高效利用、完成核心生产,数据中心硬件涉及芯片、服务器、存储、网络等设 备与液冷、回收、运维、建筑等载体;应用侧通过优化生成的 AI 模型与大数据的算力支持 来满足边缘计算、产业转型、智慧城市、社会环境绿色发展等多维度需求。

落实到数据中心的具体节能降碳路径,主要从载体设施节能、IT 设备与软件系统节能 及可再生能源应用三方面入手。首先,除 IT 设备以外的建筑设施节能措施既包括围护结构 优化、自然冷却等提高建筑本体能效的措施,也包括提高制冷系统、配电系统等辅助设备能 效的措施。其次,IT 设备与软件系统节能着重于硬件与软件两个层面。硬件包括更换高能效 的 IT 设备;软件则主要是通过算法优化和提高服务器利用率来提高整体能效。最后,通过 选择多元化绿色电力供应方式并在运行中增加算电协同,数据中心能够进一步减少对化石能源的依赖,提高可再生能源的利用率。更为直观的技术层面,包括低碳建材、高效冷却技术 产品、智能化运维管理、高效系统集成技术产品、余热利用技术、信息设备节能、可再生能 源利用技术等。
从软件、硬件、跨领域的前沿技术利用视角看,目前采用规模较大的在于虚拟化,也就 是在单个物理服务器上运行多个虚拟机,以提高利用率并减少所需的物理服务器数量。未来 前景,更为看好人工智能加速器、能源高效的内存和储存、创新冷却技术、能源高效算法、 特定任务模型、边缘计算、虚拟化、智能能源管理。总体未来节能潜力规模来看,低功耗处 理器、能源高效算法、特定任务模型、边缘计算、类脑计算。
2.1 绿色算法构成 AI 算力能效优化的底层逻辑
算法优化已成为 AI 厂商应对能耗约束的重要手段,其首要目标是在压降整体能耗的同 时,实现性能与成本的双重优化。当前智能计算面临着大场景、大数据、大问题和泛在需求 的挑战,算法模型越来越复杂,需要超级计算能力来支持越来越庞大的模型训练,计算资源 已成为提高计算机智能研究水平的障碍。面对不断扩大的参数规模与能耗压力,厂商普遍不 再依赖单纯的硬件堆叠,而是转向系统性的算法层级改造。算法优化的本质,在于在不牺牲 模型能力的前提下,通过结构设计、训练策略与执行逻辑的协同调整,提升单位能耗下的计 算产出效率,从而降低整体碳排与资源开销。当前主流 AI 厂商普遍将“每千瓦时能支撑的 训练吞吐与推理调用”作为评估标准,逐步构建以算法为牵引的能效/性能双平衡体系。从形 式上讲,绿色深度学习,或绿色人工智能,倡导研究人员在不增加,甚至降低计算成本的前 提下,取得创新性成果。与不惜代价追求最优性能的“红色人工智能”不同,绿色深度学习 鼓励人工智能研究者以尽可能少的计算资源,实现可比拟甚至更优异的结果。 实现大模型的高效能效依赖于从算法到硬件的跨层次协同优化,包括提高工艺精度 (scaling down)、软硬件协同深度学习加速器以及“新器件+新模型”的高能效存内计算新 架构。第一条途径是芯片工艺进步,它使得晶体管越做越小,电容就会变小,每一次充电的 能量就会变小,每一次的翻转的速度会变快,从而推动能量效率提高;第二条途径是加速器, 通过多核甚至异构多核带来有计算性能与能效的线性提升;第三条途径则是新器件,包括量 子计算、光计算、存内计算等,有希望突破现有的计算范式,以获得更高的能量效率。

AI 大模型的算法优化主要包括紧凑型网络架构、高效训练、高效推理与高效数据使用 四个维度。高效的紧凑型架构包括组件设计、组件组装与网络搜索构建,其中组件设计指手 动设计低计算量的架构;组件组装通过削减参数从大模型中提取紧凑结构;网络搜索则自动 化探索最优架构。高效训练聚焦降低训练全过程(含权重与超参数调整)的计算成本,方法 包括初始化、标准化、渐进式训练与高效自动化机器学习,旨在减少迭代次数以加速优化过 程。高效推理主要包括剪枝、低秩分解、量化与知识蒸馏,这些技术通过简化模型结构或参 数表示,提升部署效率。高效数据使用探索以更少数据资源获取竞争力的结果,主要途径包 括主动学习与预训练,尽管预训练阶段计算开销大,但其被广泛视为降低下游任务数据需求 的有效方案。
对于训练和推理这两个核心阶段的对比来看,推理工作负载的占比正在进一步上升,能 耗也相应不断提升。随着模型的成熟以及生成式人工智能应用的不断拓展,推理场景的需求 日益增加,因此推理服务器负载与能耗占比预计都将不断提升。IDC 数据显示,2024 年推 理工作负载占比为 65%,而预计到 2028 年,占比将达到 73%。根据 Wells Fargo 的预测,到 2030 年美国的训练与推理的电力能源需求比例将会来到 8:5,推理能耗处于从接近 0 开始 的快速增长阶段。
2.1.1 紧凑型网络架构
紧凑型网络架构的核心在于通过精心设计的组件与组装策略,显著降低模型的计算与 存储开销,而不显著牺牲性能。该维度主要包括三方面:一是组件设计,如采用深度可分离 卷积、高效注意力机制(如稀疏注意力、局部敏感哈希近似)、轻量级Softmax(如分层Softmax、 采样 Softmax)和紧凑词嵌入(如基于组合、量化或低秩的方法),从底层算子层面减少参数 量和计算量;二是组件组装,通过内存共享(如激活值复用、可逆网络)、静态权重共享(如 跨层、跨任务参数共享)、动态权重共享(如级联式网络、早退机制、跳过机制和混合专家 模型)以及部署时共享(如弹性宽度和深度调整),在架构层面实现高效推理;三是架构搜 索,利用神经架构搜索(NAS)技术自动寻找在特定资源约束下的最优网络结构。这些方法 共同推动了轻量级、高能效的神经网络设计,适用于边缘设备和实时应用场景。

2.1.2 高效训练策略
人工智能模型训练成本以及碳排放量显著增加。训练成本方面,在 2017 年,原始的 Transformer 模型引入了几乎支撑每一个现代大型语言模型(LLM)的架构,训练成本约为 67 万美元。2019 年发布的 RoBERTa Large 在许多经典理解基准测试(如 SQuAD 和 GLUE) 上取得了最先进的结果,训练成本约为 16 万美元。快进到 2023 年,OpenAI 的 GPT-4 的训 练成本估计约为 7900 万美元。在少数几个 2024 年的模型中,Epoch 能够估计训练成本的是 Llama 3.1-405B,估计成本为 1.7 亿美元。训练碳排放量方面,AlexNet 的碳排放几乎可以忽 略不计,而 GPT-3(2020 年发布)在训练期间 reportedly 排放了约 588 吨碳,GPT-4(2023 年)排放了 5,184 吨,Llama 3.1405B(2024 年)排放了 8,930 吨。DeepSeek V3 于 2024 年 发布,其性能与 OpenAI 的 o1 相当,估计其排放量与五年前发布的 GPT-3 相近。作为对比, 美国人平均每人每年碳排放量为 18.08 吨。
在训练阶段,模型规模所带来的浮点运算密度与显存压力是能耗上升的主要来源。因 此,除了整体训练策略之外,优化策略还可以从精度、存储、精度等方面展开。首先是计算 压缩,包括混合精度(BF16/FP8)与低秩梯度估计(如 GaLore),通过减少每轮计算所需的 乘加操作量与优化器状态大小,有效降低核心计算功耗。例如,Claude 3.5 Sonnet 在训练中 引入分层注意力机制与优化器压缩技术,实现了参数状态压缩与梯度计算效率的显著提升。其次是存储减负,如 Flash Attention、梯度检查点与激活重计算,重点解决 HBM 访问频率过 高问题,这是 GPU 总能耗中最敏感的一环。Flash Attention 通过重构 softmax 路径,将 O(n²) 的注意力机制重写为更符合显存带宽特性的操作,显著降低了单位序列长度下的能耗密度。 第三是通信协同,借助 ZeRO、FSDP 等框架实现跨 GPU 负载均衡与数据切分,将大量无效 跨卡传输转化为可重叠处理,进一步降低能耗冗余。
高效训练策略旨在降低深度学习模型训练过程中的计算成本和时间开销,主要通过优 化训练流程和减少迭代次数实现。该维度涵盖四大方向:一是初始化策略,包括基于随机分 布的高效初始化(如 Kaiming、Xavier 初始化)和基于预训练模型的初始化(如监督预训练、 自监督预训练),以加速收敛并提升泛化能力;二是归一化技术,如批归一化(BatchNorm)、 层归一化(LayerNorm)等,通过稳定激活分布和梯度流动,显著减少训练步数;三是渐进 式训练,采用逐层训练或逐步堆叠的方式,避免全网络同时训练的高成本,尤其适用于大规 模模型;四是高效的超参数优化与 NAS,通过随机搜索、强化学习、进化算法或可微分搜索 等方法,减少超参数调优和结构搜索的代价。这些策略共同使得模型在更少的训练资源和时 间内达到优异性能,提升了训练效率与可重复性。 混合专家模型(MoE)以稀疏激活实现低成本高效率。根据《2025 年中国人工智能计 算力发展评估报告》的信息,以浪潮信息源 2.0-M32 为例,其创新性地提出和采用了“基于 注意力机制的门控网络”技术,构建包含 32 个专家(Expert)的混合专家模型(MoE),大 幅提升模型算力效率,显著降低在模型训练、微调和推理所需的算力开销,单 Token 下训练 和推理所需的算力资源仅为 Llama-70B 的 1/19,显著提升效率。2024 年 12 月,DeepSeek 发 布了拥有 6710 亿参数的 DeepSeek-V3 模型,不到一个月后,发布了通过强化学习优化的 DeepSeek-R1 推理模型,在英语、代码、数学等多个基准测试中表现优异,迅速登上 HuggingFace 排行榜榜首。DeepSeek 模型采用专家混合(MoE)架构,允许模型在保持高表 达能力的前提下,大幅减少计算量和内存占用,提高训练效率和推理速度,使人工智能技术 更加经济高效,便于广泛应用,公开信息显示 DeepSeek-V3 模型的开发时间仅为两个月,开 发成本不到 600 万美元。DeepSeek-R1API 服务定价为每百万输入 tokens1 元(缓存命中)/4 元(缓存未命中),每百万输出 tokens16 元,大约是 OpenAIo1 运行成本的 3%。
2.1.3 高效推理策略
推理成本指的是查询一个训练好的模型的费用,通常以每百万 tokens 的美元来衡量。 AI token 定价的数据来自人工分析和 Epoch AI 的专有数据库对 API 定价。报告的价格是输 入和输出 token 价格的 3:1 加权平均值。虽然更新的模型可能成本更高,但它们也往往表现 显著更好——因此,直接与旧的、能力较差的模型比较可能会掩盖真实趋势:即每美元的 AI 性能已显著提高。例如,一个在 MMLU(一个流行的评估语言模型性能的基准)上得分相 当于 GPT-3.5(64.8)的 AI 模型的推理成本,从 2022 年 11 月的每百万 token 20 美元下降到 2024 年 10 月的每百万 token 0.07 美元(Gemini-1.5-Flash-8B)——在大约 1.5 年内减少了 280 多倍。在 GPQA 上得分超过 50%的模型成本也显示出类似的趋势,这是一个比 MMLU 更具挑战性的基准。在那里,推理成本从 2024 年 5 月的每百万 token 15 美元下降到 2024 年 12 月的每百万 token 0.12 美元(Phi 4)。Epoch AI 估计,根据任务的不同,LLM 推理成本每 年下降 9 到 900 倍。

进入推理阶段,能耗优化转向部署弹性与运行时效率的结合。一方面,模型量化 (INT4/FP8)通过降低精度以减少每次推理所需的显存调度与张量计算资源,达成显著的能 耗下降;量化后模型不仅体积更小,还更易部署于边缘端与消费级硬件,如手机或本地服务 器。另一方面,缓存压缩与调度重构(如 PagedAttention、KV 裁剪)则避免了长文本生成中 大段无用历史被重复计算,特别适用于多轮对话、文档生成等任务,极大改善了 token 级能 耗结构。此外,推测解码已成为降低平均响应功耗的关键创新路径——通过草稿生成与快速 验证组合,有效减少了 token 级推理的能量投入。这些技术在 GPT-4、Claude 3.5 和 o1-mini 等模型中均已规模化部署,成为默认推理策略。同时,结合 token 级动态调度与多桶批处理 系统,还可进一步提升推理吞吐效率,压缩无效能耗时段,为大模型在生产级环境下的绿色 部署提供系统解法。 高效推理方法专注于在模型部署阶段降低计算延迟和资源消耗,尤其适用于资源受限 的终端设备。该维度主要包括四类技术:一是模型剪枝,通过移除冗余参数(非结构化剪枝) 或整体结构(结构化剪枝),并结合重要性评分和微调策略,实现模型压缩与加速;二是低 秩分解,利用矩阵或张量分解(如 SVD、CP 分解)近似原始权重矩阵,大幅减少参数数量; 三是量化技术,将浮点权重和激活转换为低精度表示(如 8 位整型、二值化),包括确定性 量化和随机量化,并结合量化感知训练以保持性能;四是知识蒸馏,通过让轻量级学生模型模仿大型教师模型的输出(logits)、特征或关系,实现模型压缩与性能迁移。这些方法在保 持模型准确性的同时,显著提升了推理速度与能效比,推动了模型在实际应用中的广泛部署。
2.1.4 高效数据使用
高效数据使用的目标是在减少数据依赖的前提下仍能实现强泛化性能,尤其适用于标 注成本高或数据稀缺的场景。该维度主要包括两大方向:一是主动学习,通过不确定性采样、 多样性采样或期望模型变化等策略,智能选择最具信息量的样本进行标注,最大化数据利用 效率;二是预训练模型作为少样本学习器,借助自监督学习(如掩码语言建模、对比学习)、 提示学习(Prompt Learning)和多任务预训练(如多语言、多模态预训练),将大规模无标注 数据中学习到的知识迁移到下游任务,显著降低对标注数据的需求。这些方法不仅提升了数 据效率,还增强了对低资源任务的适应能力,推动了绿色深度学习在真实场景中的实用性与 包容性。
从数据存储视角出发,数据融合技术、软件编码技术、数据重删技术和探索系统协同节 能是业界研究的热点。根据《绿色算力创新技术研究报告(2024)》的总结,数据融合技术, 允许多云多业务共享存储系统的文件资源,减少数据搬迁和重复存储,提升 30%的数据处理 效率,降低约 20%能耗。软件编码技术,在大数据分析场景,采用存算分离架构后,利用数 据纠删码(EC)技术替代传统三副本数据冗余,可以把磁盘利用率从 30%提升到 90%,降 低能耗 40%。数据重删技术,利用定长重删、变长重删、相似重删算法把相同数据删除,通 过数据压缩、压紧算法把定长的数据块优化数据存储布局,节约存储空间。借助闪存介质带 来的 100 倍性能提升,目前业界已经能够在数据库、桌面云、虚拟机等业务场景实现 2-3.6 倍的数据缩减率(重删压缩前数据总量/重删压缩后数据总量),耗能节约 50%以上。探索存 储系统协同节能方式,可通过感知存储中不同控制器中 CPU 的业务压力,动态实现 CPU 降 频,甚至可以根据大量业务运行数据对存储不同时期的全局负载进行建模,实现预测式的精 准降频、动态节能。 整体来看,算法优化已从提升性能的传统命题,系统性转向为控制能耗、释放效率的绿 色升级逻辑。其最终目的是打破模型能力提升与能耗同步增长之间的因果关系,让 AI 系统 的发展在碳排、安全与资源压力中找到新的均衡点。这不仅是效率问题,更是未来 AI 规模 化部署能否可持续的结构性命题。在这一转变中,优化策略不再是附属设计,而是 AI 系统 核心能力之一,决定了模型是否具备跨场景迁移、边缘适配与低碳部署的战略潜力。未来, 算法优化将继续在结构稀疏化、自适应推理路径、分布式并行调度等方向演化,成为绿色 AI 基础设施的技术基座。
2.2 数据中心硬件设备是能耗产生的核心
算力设备是能耗与碳排放的主要来源,而 AI 服务器正迅速成为算力设备能耗增长的核 心驱动力。服务器、存储和网络通信设备等所构成的 IT 设备系统所产生的功耗约占算力中 心总功耗的 45%。其中,服务器系统能耗占比为 50%,存储系统约占 35%,网络通信设备 约占 15%。国际能源署数据显示,截至 2024 年底,全球数据中心累计 IT 设备负载(包括服 务器、网络及存储等)约 68GW,是 2010 年的 12 倍,预计到 2030 年全球数据中心 IT 负载 将激增至 174GW,2025-2030 年间新增 106GW,年均增长 17.7GW。AI 算力需求快速增长 带动了数据中心耗电量的增长,而 AI 服务器作为关键设备,成为全球算力设备能耗的主力。 虽然 DeepSeek 等高效能模型通过算法优化降低了单次计算成本,但这一技术进步反而刺激 了更大规模模型的研发投入。从长期来看,算力设备的能耗仍将保持强劲上升态势。

因此,在算力基础设施的绿色化转型中,硬件设备是关键的技术突破口。从设备层面实 现绿色算力,主要可通过三大核心组件的技术创新和能效优化来达成:芯片作为算力基石, 其能效提升是绿色化的基础;服务器系统通过架构创新实现整体能效突破;存储设备则通过 智能管理降低数据存取能耗。三者形成有机整体,共同推动算力基础设施向低碳高效方向发 展。实际上,IT 设备层面的能效提高会在整个数据中心产生“级联效应”,减少配电和制冷 系统的能耗。例如,在一个 PUE 值为 1.9 的数据中心中,服务器层面每节省 1W 能源,整体 可节省约 2.84W。
2.2.1 芯片:先进制程与架构优化
芯片作为算力产业的关键基础设施要素,其能效表现影响了绿色算力的发展水平。训练 人工智能系统需要大量的能量,使得机器学习的芯片能效成为一个关键因素。人工智能芯片 作为算力产业的关键基础设施要素,呈现多元化发展趋势。多元化的人工智能芯片可针对不 同的应用场景进行优化设计,例如,针对深度学习训练的 GPU 和 TPU,能够提供大规模矩 阵运算的高效支持;而针对推理任务的 ASIC,则在功耗和延迟方面表现出色,适合部署在 边缘计算设备中。 算力是衡量芯片计算能力最核心的指标。FLOPS(每秒浮点运算次数)主要用于衡量科 学计算、图形渲染等需要高精度浮点数计算的场景。单位通常是 GFLOPS(10^9)、TFLOPS (10^12)或 PFLOPS(10^15)。TOPS(每秒万亿次操作)主要用于衡量 AI 芯片的性能,特 别是处理低精度整数(如 INT8,INT4)的推理能力。由于 AI 推理任务对精度的要求不高, 使用 TOPS 能更准确地反映其处理神经网络运算的效率。功耗,通常以瓦特(W)为单位, 是评估芯片能源消耗和发热的关键。热设计功耗(TDP)是一个常见的参考值,它表示在典 型高负载下,散热系统需要带走的热量。实际功耗则会随工作负载动态变化。能效比,是衡 量芯片设计水平的黄金标准,代表每消耗一瓦特电力能提供多少性能。其计算公式为性能/ 功耗,单位可以是 GFLOPS/W 或 TOPS/W。在能源成本和数据中心散热限制日益严峻的今 天,高能效比是所有芯片设计的终极目标之一。 英伟达芯片能效比领先显著;国内壁仞科技 BR100 能效比 1.86,处于前列。英伟达 Blackwell 的能效比在所有架构里面最高,尽管 GB200 的功耗达到了 2700W,但能效比仍能达到 1.85,在业内处于领先地位。多数海外科技公司自研 ASIC 的功耗在 700W 以下,达到 降本目的。但能效比仍低于英伟达的 GPGPU。国产芯片的功耗绝大多数都在 500W 以下, 能效比低于 1。壁仞科技的 BR104 与 BR100、沐曦科技的邃思 N100 以及昆仑芯的 P800 的 能效比高于 1 的相对更高性能、更具绿色优势的国产芯片。
用于机器学习的芯片随着时间的推移变得越来越节能,每年大约提高 40%。例如,Nvidia B100 于 2024 年 3 月发布,实现了 2.5 万亿 FLOP 每瓦特的能效,而 Nvidia P100 于 2016 年 4 月发布,实现了 740 亿 FLOP 每瓦特。这意味着 B100 比 P100 节能 33.8 倍。

头部科技公司依托先进工艺与架构优化创新驱动芯片实现高效节能目标。根据中国信 通院的《绿色算力发展研究报告(2025)》对于芯片产品的分析,工艺创新通过缩小制程、 优化晶体管结构与互连技术等降低功耗;架构创新则提高并行性、优化设计和采用动态电源 管理等,两者协同实现芯片高效降耗。在先进制程工艺方面,英伟达投产 Blackwell 芯片, 相比八年前的 Pascal 芯片,其 AI 算力提升了 1000 倍,能耗下降了 350 倍。而 Blackwell Ultra GPU 相比于上一代 B200 GPU 性能提升了 50%,通过 NVLink72 互联技术和动态电源管理, 单位功耗下的性能效率显著提高。小米发布玄戒 O1 芯片,采用台积电第二代 3nm(N3E) 制程,相比第一代 3nm 功耗降低 15%。其晶体管密度较 7nm 工艺提升约 70%,能效比优化 18%,支持动态性能调度技术,可根据负载情况动态切换四种不同模式,以优化性能和功耗。 在架构优化方面,英特尔发布 Lunar Lake 处理器,其综合 AI 算力达到 120TOPS,相比上一 代的 Meteor Lake 能耗大幅降低 40%。微软发布 Copilot + PC,通过在 ARM 架构中引入 NPU, 能够高效处理大量并行计算任务,显著提高 AI 应用的性能,同时与通用处理器相比,在执 行特定 AI 任务时具有更高的能效比。
虽然人工智能硬件制造阶段的能源消耗少于运营阶段,但依然不可忽视。最耗能的部分 是制造用于 GPU 和服务器存储的芯片。2021 年 Garcia B.等的学术研究显示,制造最新的 3 纳米(nm)芯片每片大约需要 2.3 兆瓦时(MWh)的能量。对于典型的高性能服务器配置, 制造所需的能源超过 10 兆瓦时,而在五年使用寿命内,运营所需的能源超过 80 兆瓦时。在 制造所需的能源中,估计有 60%用于晶圆和半导体的生产,其中沉积、光刻和刻蚀消耗了大 部分能源。剩余的 40%用于设施中的辅助过程,例如水处理或冷却。制造所需的能源还取决 于产品的计算能力。特别是,最新一代芯片中金属层的复杂性增加,尽管制造过程的整体效 率提升,但仍导致制造电力需求增加。相反,芯片计算能力的持续提升增加了单个单位执行 的操作数量,从而使每次操作所需的隐含能源减少。芯片的生产在地理上高度集中。根据 BCG 和 SIA 的数据,2021 年超过 70%的生产位于东亚。大多数半导体用于其他用途,但预 计数据中心,尤其是人工智能,将成为未来几年半导体需求的主要驱动因素。
2.2.2 服务器:精简指令集与高密度化
服务器,作为一个完整的计算平台或系统,为芯片提供稳定的电力(供电系统)、合适 的温度(散热系统)、高速的内部连接(主板和总线)以及对外的网络通道(网卡)。当前, 智算中心的机柜功率密度正以远超摩尔定律的速度快速提升。一方面,芯片架构的迭代推动 单芯片功耗大幅跃升,例如英伟达 GPU 从 A100 的 400W 增至 GB200 的 2700W,华为昇腾 910B 单机柜功耗达 11.2kW;另一方面,千卡级 GPU 集群为实现低通信延迟而采取紧凑化 布局,如 NVLink 带宽达 3.6TB/s,设备需控制在 30 米内,促使机柜向高密度堆叠演进;不 过,智算负载的动态特性带来供电与散热挑战,例如负载波动可导致电压频率偏移达±2Hz, 远超传统数据中心的±0.5Hz 容限。

数据中心电力消费增长的主要驱动因素是服务器数量和功率的增加,而服务器电力需 求增长的约 70%来自加速服务器。国际能源署预计到 2030 年,服务器的总库存将增加超过 60%,其中约三分之一的增长归因于服务器的使用寿命延长。加速服务器的总库存增长更为 显著,但加速服务器在总库存中的比例仍低于 10%。持续的硬件开发推动了能源效率的持续 提升,这一趋势预计将持续。然而,由于高利用率和进一步减少待机功率的空间有限,加速 服务器的运营效率提升可能已接近极限。相比之下,传统服务器预计在未来十年将显著提高 效率,特别是在减少待机功率消耗方面。尽管如此,基准案例考虑了传统和加速服务器硬件 效率的持续改善。
服务器的高效节能除了本身芯片性能以外,主要从指令集架构、计算密度、智能调控等 维度出发: 1)基于精简指令集(RISC)架构的处理器以其低功耗、高效能、成本低、高可靠的优 势正在成为让信息计算更绿色的主力。《绿色算力技术白皮书》将 CPU 的指令集分成两种主 要类型,即复杂指令集(CISC)和精简指令集(RISC)。复杂指令集的代表是 X86,由英特 尔和 AMD 主导;精简指令集包括 ARM 架构、RISC-V 架 18 绿色算力技术白皮书 ODCC2023-0500K 构、MIPS 架构等,以 ARM 架构为主流代表。随着产业智能算力需求的不断增 长,以及生成式 AI 对于异构算力的庞大需求,ARM 架构服务器在云游戏、数字人等新兴应 用市场展现出独特优势。 2)建设高密度服务器成为提升计算效率的重要举措。高密度服务器内,电源和风扇以 共享方式进行设计,位于同一机箱内的多台服务器节点可以共享电源和风扇,一方面降低了 机体的重量和空间占用,提升单位面积算力,另一方面能够提升电源和散热系统的使用效率, 降低运营成本,能够进一步增加数据中心功率密度和数据中心“每平方米”的计算能力。刀 片服务器是高密度服务器的一种,主要应用在商业智能分析及数据挖掘等大规模计算场景, 具有耗电量低、可靠性高等优点。整机柜服务器是提升计算密度的另一种形式,依据模块化 设计思路优化服务器内部架构,采用工厂预制的设计大幅缩短工期。 高密度服务器通过硬件集成创新和资源共享机制,在提升计算性能的同时显著降低能 耗。具体表现为采用模块化设计集成更多计算单元,如浪潮服务器支持 X86/ARM 平台,性 能可提升 60-107%;通过共享电源和散热系统提高能效,如 HPE 服务器在 2U 空间实现 4 路 计算密度,性能提升 68%;结合 CXL 等新技术优化内存带宽,实现性能提升 87-125%。这 种"高密度集成+资源共享"的模式,使单位算力的空间占用和能耗同步降低,成为绿色数据 中心建设的关键技术路径。 3)服务器整机节能技术通过智能调控与架构优化双管齐下实现显著能耗节约。动态节 能管理采用功耗封顶、主备供电、智能风扇调速和部件休眠等技术,实时优化服务器运行状 态,如浪潮 M6 服务器通过 PID 智能温控实现风扇按负载精准调速。此外,AI 驱动的电源 管理技术通过全局池化和超融合调节,确保电源始终工作在最佳效率区间,能效将提升 6%。 这些技术创新结合低风阻硬件设计,如防回流导风罩、T 型散热器等,形成了从芯片级到系 统级的完整节能方案,在保障性能的同时达成可量化的能效提升。
目前国内服务器整机市场中浪潮信息、超聚变、新华三等头部厂商竞争激烈,市场份额 变动迅速。根据 IDC 发布的《2025H1 中国服务器市场跟踪报告》,浪潮信息以约 576 亿人 民币的销售额位居第一,2025 年上半年市场份额为 30%,同比增加 1.3%,尽管今年被美国 列入实体清单,但并未对其市场地位造成实质性影响,依然保持着领先地位。超聚变以 268 亿人民币的销售额位列第二,市场份额 14.3%,同比增加 4.3%,其在通用市场和 JDM 市场 进攻性较强,且代理的 ST 和 KP 产品销售情况良好,市场份额有望继续增长。新华三位列 第三,2025 年上半年销售额约 240 亿人民币,市场份额 12.8%,同比减少 2.2%,此前曾因 华为退出 x86 服务器市场而填补空白,市占率上升至第二,但随着超聚变的崛起又回到原 位。联想销售额约 234 亿人民币,市场份额 12.5%,同比增加 1.1%,其此前在海外市场发 力,近几年又打通了中国市场的任督二脉,在国内市场持续扩张,凭借大集团支持和资金优 势,成为行业里的重要变数之一。中兴在 x86 服务器市场策略激进,2025 年上半年销售额 约 159 亿人民币,市场份额 8.5%,同比增加 1.9%,其在运营商市场凭借 CT 客户资源优势 占据较大份额,在互联网市场也有较大斩获,若持续投入,市场份额有望进一步增长。宁畅 销售额约 69.5 亿人民币,市场份额 3.7%,同比减少 4.8%,市场份额降低更多是因互联网市 场竞争激烈,若不能拓展新市场,市占率可能继续降低。

服务器机柜,是承载数据中心或算力中心服务器设备的重要载体,其规格尺寸与额定功 率直接影响数据中心的建设密度、冷却方式、电力配套和运行能效。目前常见的单个 AI 服 务器规格从 2U-10U 不等,额定功率从 0.5-11kw。额定功率≠实际功率:额定功率为最大负 载下的设计值,通常实际运行在 60-80%负载下。机柜额定功率=所安装设备总功耗+电源损 耗+电缆损耗(约 5–10%冗余)。根据数据中心的业务量不同,服务器有效负荷一般在 60- 80%,因此实际能耗总量=标准机柜×有效负荷×运行时长×有效运行比×PUE。
2023 年出台、2025 年开始实施的《塔式和机架式服务器服务器能效限定值及能效等级》, 在规定的测试条件下,服务器性能标准分与能源消耗的比值(BenchSEE)。考虑制程,目前 中央处理器(CPU)的工艺制程对于服务器能效影响较大,而当前国产 CPU 与国际主流 CPU 技术存在代差。3 级指代基本的入门等级,而 2 级是国内政府采购的基础要求。
2.2.3 存储:高带宽内存与冷热数据分治
存储系统不仅承担着海量数据持久化的职责,更是影响整体计算效率与能耗的关键环节。 面对大模型训练与推理所带来的数据洪流,传统存储技术在性能、容量和能效上已面临瓶颈。 存储节能增效通过“高密度存储介质+先进制程工艺”双轨并进,可实现性能与能效的同步 跃升。通过制程微缩、架构优化与材料革新来提升存储密度是降低单位容量功耗的关键路径。
1)易失性内存方面,也就是在动态随机存取存储器(DRAM)领域,技术迭代是降低 能耗的核心。中国信通院《绿色算力发展研究报告》指出,国际龙头厂商如三星、海力士和 美光通过推动制程进步来实现这一目标。三星是首家商用 1znm 工艺的 DRAM 厂商,并积 极研发更先进的 1α和 1βnm 工艺。海力士同样布局 1α和 1βnm 工艺,其采用 HKMG(高 K 金属栅)技术的第 5 代 10nm 工艺(1βnm)LPDDR5 移动 DRAM,与 1anmDDR5DRAM 相比功耗减少了 20%以上。从标准演进看,新一代 DDR5 内存技术实现了精确的电压调节, 将工作电压降至 1.1V,并在保持同频的基础上进一步提升传输速率,显著改善了能源效率。 国内的长鑫存储也已推出 LPDDR5 系列产品,与上一代 LPDDR4X 相比,其单一颗粒的容 量和速率均提升 50%,功耗降低 30%。 高带宽内存(HBM)是专为高性能计算设计的、紧挨着处理器的超高速内存。作为一 种革命性的 DRAM,是应对 AI 等高算力需求的关键节能技术。它通过硅通孔(TSV)和微 凸块等先进封装技术垂直堆叠多颗 DRAM 芯片,并与 GPU 在中介层上紧密集成,有效解决 了“内存墙”问题,在提供超高带宽的同时显著降低了能耗。相较于传统存储方案,HBM 提 供了远超 GDDRx 的能效优势。行业领军企业如 SK 海力士通过其 1β制程配合 MR-MUF 封 装技术,使 HBM3E 传输速率提升 50%至 9.6GB/s,同时散热效率提高了 10%。NVIDIA 发 布的新一代 H200 Tensor Core GPU 就搭载了 HBM3e 技术,相较于前代产品,其能耗比优化 达 19%。光存储技术也取得了革命性突破,我国超级光盘达到 26TB/平方英寸的存储密度, 开创 PB 级光存储新纪元。

3)非易失性闪存方面,在 NAND 闪存领域,主要通过垂直堆叠降耗和水平技术演进两 个方向来实现。在垂直方向,堆叠层数不断增加,目前已达 200 层以上。SK 海力士和海力 士的 238 层 NAND 闪存相比前一代产品,数据读取功耗降低了 21%;美光 232 层 NAND 闪 存的数据存储功耗降低了 28%。在水平层面,通过从 SLC、MLC、TLC 向 QLC 技术演进, 增加每个存储单元存储的数据量来提升存储密度。华为 7nm 控制器将 SSD 功耗降至 6.5W, 此功耗仅为行业标准的 50%,长江存储第四代 3D 堆叠技术实现 2400MT/s 速率且功耗降低 25%。 4)而在数据长期存储方面,数据分级、冷热数据分治成为降低单位容量数据成本和功 耗、提升数据存储效率和密度的有效方式。热存储是指将数据存储在经常访问的存储介质上, 具有访问速度快的优点,适合频繁访问的数据。热数据存储通常采用固态硬盘(SSD)。固态 硬盘存储介质有 FLASH 闪存芯片和 DRAM 存储芯片,闪存介质具有高密度、高可靠、低延迟、低能耗等优势。目前,SSD 单盘容量已超过 30TB,在同等应用场景下,其数据访问 速度比机械硬盘(HDD)快约 100 倍,吞吐量大 100 倍,同时功耗更低。企业级 SSD 因此 更适合 AI 训练和推理中频繁访问的温、热数据,其在数据中心的比例正逐渐提高。
随着大模型训练和推理所需的大量数据处理能力推动了对高性能存储的需求,服务器 存储从 HDD 向 SSD 转化,从 DDR4 向 DDR5 转化,同时 HBM 出货显著增长。AI 服务器 的 DRAM 单机价值量显著提升,HBM 市场规模快速增长。AI 大模型的兴起催生了海量的 算力需求,而数据处理量和传输速率的提升使得 AI 服务器对芯片内存容量和传输带宽提出 更高的要求,根据 YOLE 的数据,AI 服务器的 DRAM 容量是传统服务器的约 3 倍,AI 服 务器的 DRAM 价值量是传统服务器的约 6 倍。AI 服务器也推升了 HBM 需求,与传统的 DDR 存储器不同,HBM 使用 TSV 和微凸块垂直堆叠多个 DRAM 芯片,并通过封装基板内 的硅中介层与 GPU 相连,从而具备高带宽、高容量、低功耗、低延时等优势,成为目前 AIGPU 存储单元中比较重要的部件,根据 Yole 的预测,HBM 的出货容量有望从 2024 年的 10Eb 提 升至 2029 年的 44Eb。 目前存储芯片几乎集中在韩国三家企业,国内厂商尾部追赶存在差距。2025 年一季度, 在 DRAM 领域,SK 海力士(36.7%)、三星(35.6%)、美光(22.9%)三巨头垄断 95.2%的 市场。全球 NANDFlash 市场中,三星(31.9%)、SK 海力士(16.6%)、美光(15.4%)合计 占据 63.9%的份额。这种“头部集中、尾部追赶”的格局,揭示了我国存储产业在核心技术、 产业链协同及资本投入等方面的显著差距。其他本土厂商如江波龙、佰维存储等通过大容量 产品和主控芯片创新,在 SATA 等中低端市场快速成长,但高端替代空间仍广阔。
2.2.4 网络:数据中心交换机与超节点方案
为支撑十万卡乃至百万卡智算集群的高效运行,并应对全球数据流量的指数级增长,数 据中心的网络设施在追求极致性能的同时,必须将绿色节能作为核心设计目标。当前,通过 构建全光底座、引入智能弹性网络技术以及采纳新型存储网络协议,正在系统化地降低网络 整体能耗。 1)物理传输层面,构建全光网络是实现绿色节能的基石。中国电信等运营商正积极推 动光纤技术的升级,例如加快部署超低损耗的 G.654E 光纤。相较于传统 G.652 光纤,G.654E 在 1.55μm 窗口的损耗极低,可有效延长无中继传输距离,减少长途干线网络中光放大站和再生站的数量,直接降低了网络部署成本和运营能耗。在全光交换方面,ROADM(可重构 光分插复用器)技术的应用实现了光层的灵活调度,避免了传统电层交换频繁的光电转换所 带来的高昂能耗。根据中国电信的实际网络统计,与传统的链状 DWDM 系统相比,ROADM 全光交换网可显著降低约 50%的能耗和机房空间占用,同时节约大约 30%的成本。 2)资源调度与网络协议层面,网络动态适配技术和网络弹性智能技术可通过优化网络 资源利用减少能源消耗。主流网络设备厂商,如思科、华为、瞻博网络等,其设备普遍支持 基于网络负载的动态节能功能。例如,网络接口可以根据流量大小动态调整速率,在网络闲 时降低速率以节省功耗;设备内部的处理器也能根据负载动态调整电压与频率,提升能效。 在协议层面,SRv6(基于 IPv6 的段路由)技术简化了网络协议栈,并通过源路由能力实现 了流量的精准控制和路径优化,避免了不必要的网络绕行,从而在整体上减少了网络资源消 耗。同时,FlexE(灵活以太)技术提供了严格的硬管道隔离和灵活的带宽绑定能力,支持 网络切片,使得网络资源能够按需分配,大大提升了带宽利用效率,避免了资源的空置浪费, 从全局视角实现了节能。基于远程直接内存访问(RDMA)技术的数据传输方式避免了数据 在内核与用户态间的多次拷贝,提升了传输效率,间接降低了单位计算任务的整体能耗。 3)存储网络层面,高效协议的应用直接提升了数据存取能效。NVMe over Fabric(NVMeoF)技术作为下一代存储网络技术,允许服务器通过网络直接、高效地访问 NVMe 固态硬 盘(SSD),极大地降低了访问延迟。这不仅充分发挥了全闪存阵列的性能优势,也使得数据 中心能够利用更高密度、更低功耗的 QLC SSD 来构建以读取为中心的存储资源池,例如用 于 AI 训练中的检查点读取和数据集加载。这种高效的存储网络架构,减少了服务器等待数 据的时间,提升了整个计算集群的利用率,从而实现了更优的整体能效。
数据中心交换机是专为大规模数据中心环境设计的高性能网络设备,用于服务器、存储 设备和其他网络节点之间的高速数据交换。与普通企业交换机相比,其核心特点是高带宽、 低延迟、高可靠性和可扩展性,支持虚拟化、自动化及大规模流量调度,以满足云计算、AI 训练、分布式存储等场景的需求。数据中心交换机可按网络层级分为核心层、汇聚层和接入 层交换机;按架构分为盒式(固定端口)和框式(模块化)交换机;按协议支持分为传统以 太网和无损以太网(如支持 RDMA)交换机;按功能分为传统交换机和 SDN(软件定义网 络)交换机。不同类别适用于不同规模和数据中心场景,如核心层侧重高带宽,SDN 交换机 适合云化灵活管控。 当前,我国数据中心市场格局呈现“双超多强”的竞争态势。华为与新华三作为国内龙 头企业,合计占据中国数据中心交换机市场近 70%的份额。根据智研咨询的报告,华为以 35.8%的市场占有率位居第一,新华三以 32.4%紧随其后。这两大厂商凭借强大的自主研发 能力和完善的产品矩阵,在高端市场与国际巨头思科、Arista 展开直接竞争。锐捷网络、中 兴通讯等构成第二阵营,锐捷通过 CPO 技术突破(25.6Tbps 商用交换机)和白盒创新,在 字节跳动等互联网客户中占比超 30%,而中兴则聚焦全光网络技术中标运营商集采项目。此 外,盛科通信等芯片厂商推动 5nm 以太网交换芯片国产化,菲菱科思等 ODM 厂商占据全 球 800G 交换机 40%份额,形成产业链协同优势。当前竞争焦点已从传统端口速率升级转向 AI 优化、绿色节能(液冷 PUE<1.15)和开放解耦(白盒生态)三大维度,国产厂商在技术 标准和场景化方案上逐步掌握话语权。
智算网络集群的扩展可以分为 Scale Out 和 Scale Up 两种模式。在超十万卡规模的智算 集群中,由 Scale-up 网络构成的高带宽域(即超节点域)将扮演着重要的角色。超节点通过 高速互联技术整合多块算力芯片形成的规模化计算单元,核心目的是解决 AI 大模型中的算 力协同和效率问题。目前最为熟知的超节点,就是英伟达的 Blackwell NVL 72 和华为昇腾的 384 节点。从 AI 模型训练的角度,超节点降低训练周期,容纳更大的参数模型。降低训练 周期:超节点方案 Scale Up 网络规模更大,有效转移 Scale Out 网络的通信负载,由于 Scale Up 网络的通信时间远低于 Scale Out 网络,模型训练时间显著降低。容纳更大的模型参数: 由于单节点内容纳卡的数量更多,单一 MoE 模型能容纳的参数规模提升,从而提升模型整 体的训练效果。英伟达 GB200NVL72 的单卡算力是 H100 的 2.5 倍,训练效率是 H100 的 4 倍。从 AI 模型推理的角度,超节点是 AI 大模型推理最经济的选择。AI 推理重视每秒 Tokens 输出量,而 Tokens 输出量取决于 GPU 的算力大小和 GPU 的算力利用率。超节点方案能更 大限度提升 GPU 算力利用率,从而提升 Tokens 输出效率。以英伟达 GB200NVL72 为例, GB200 单卡的算力规模为 H100 的 2.5 倍,而每秒 Tokens 输出量为 H100 的 30 倍。
2.3 数据中心运营载体是能耗管控的核心
在算力密度攀升与“双碳”目标驱动下,数据中心呈现三大核心趋势:高热密度场景催 生极端散热技术突破,传统风冷面临能效瓶颈;业务动态扩容推动模块化弹性部署;复杂负 载场景倒逼智能运维与全生命周期管控升级。因此如何实现绿色控温与回收、高效部署建设、 智能管理调优成为诸多数据中心发挥算力载体作用的关键问题。中兴通讯提出“三位一体” 的制冷协同架构:以模块化风墙适配中低密中高温冷冻水冷源场景需求,以间接蒸发冷却空 调覆盖中低密纯风冷场景,以液冷系统突破高密场景散热瓶颈。三大技术路径既可独立部署, 亦可形成“风冷液冷协同”的混合架构,全面覆盖数据中心从边缘节点到核心枢纽的多样化 需求。通过模块化预制理念实现即插即用与弹性扩容,结合 AI 算法驱动能效管控与智能运 维,最终达成绿色低碳、高效部署与全生命周期智能化管理的目标。
2.3.1 液冷:冷板式与浸没式技术演进,关注 WUE 优化
液冷系统是决定算力能效表现的关键环节,液冷技术正在成为高密度部署的主流选择。 随着 AI 大模型训练任务驱动下的数据中心功耗快速上升,传统风冷系统在能耗控制、空间 利用及散热效率等方面面临瓶颈,受数据中心建筑面积与单位运营成本等因素的影响散热上 限一般为 20kW/柜,液冷系统采用液体替代空气作为冷却介质,将液体直接或间接接触发热 器件,可使散热效率大幅提升,能够有效满足单点、整机柜、机房的高散热需求。正在凭借 其单位面积更强的冷却能力和更低的 PUE 值加速替代传统方案。IDC 数据显示,中国液冷 服务器市场在 2024 年继续保持快速增长,市场规模达到 23.7 亿美元,与 2023 年相比增长 67.0%。其中,冷板式解决方案市场占有率进一步提高。IDC 预计,2024-2029 年,中国液冷 服务器市场年复合增长率将达到 46.8%,2029 年市场规模将达到 162 亿美元。 在全球算力基础设施智能化升级的背景下,液冷服务器市场正经历多重变革驱动的结 构性增长。随着大模型训练、AIGC 推理等 AI 算力需求爆发式增长,传统风冷系统在应对 40kW/机柜以上高密度算力集群时已显现能效瓶颈。而在国内高端芯片供应受限背景下,未 来一段时间,中国液冷服务器市场将呈现“政策牵引+场景分化+技术融合”的发展特征。在 政策端,中国政府对未来高质量数据中心的建设提出更高要求,并作为长期目标进行落实; 应用场景将向定制化、场景化加速渗透,催生液冷模块化部署的创新形态;技术层面,以相 变冷板式液冷技术为代表的新技术得到应用,结合大模型通过算法优化降低对用户算力的需求,不同规模的应用将更加合理的选择冷板式、浸没式或者风液混合的冷却方式,推动冷却 技术向模块化、智能化、场景适配性方向演进,形成灵活高效的散热解决方案体系。

液冷技术路径正加速多元演进,冷板式与浸没式液冷成为推动节能与高密算力协同发 展的关键选项。相较传统风冷系统(PUE 均值约为 1.6),冷板式液冷平均 PUE 已可降至 1.3 以下,具备更优的热传导效率和设备适配性。该方案通过液冷板贴合芯片区域实现定向散热, 兼顾部署灵活与能效控制,在当前高性能服务器中已得到广泛部署。相比之下,浸没式液冷 在节能效果与冷却密度上更进一步,其 PUE 可控制在 1.2 以下,单位机柜功率密度可达 200kW 以上,极大提升了空间利用率与 CPU 热稳定性,尤其适用于 AI 芯片负载密集型算 力场景。但其也存在对机房密封性、液体稳定性等更高要求。液冷技术分为接触式及非接触 式两种,接触式液冷是指将冷却液体与发热器件直接接触的一种液冷实现方式,包括浸没式 和喷淋式液冷等具体方案。非接触式液冷是指冷却液体与发热器件不直接接触的一种液冷实 现方式,包括冷板式等具体方案。其中,冷板式液冷采用微通道强化换热技术具有极高的散 热性能,目前行业成熟度最高;而浸没式和喷淋式液冷实现了 100%液体冷却,具有更优的 节能效果。
尽管液冷技术在能效方面表现突出,尤其是在高功率密度场景中能显著降低 PUE,但 其运行过程中产生的水耗问题也日益受到关注。在液冷等先进技术推动下,数据中心单位算 力的制冷效率显著提升,尤其在高密度场景中具备明显优势。然而,冷却系统的水消耗问题 同样不容忽视。财新援引联合国教科文组织与伦敦大学学院(UCL)最新报告指出,大模型 的能源消耗已达到“不可持续”水平。报告估算,每天超 10 亿用户使用生成式 AI 工具,平 均每次交互耗电 0.34 瓦时,年均累计高达 310 太瓦时(TWh),相当于一个低收入国家 300 多万人一年的用电量。冷却环节的能耗与水耗将直接影响数据中心的运营边界与绿色转型成 本。因此,进一步提升制冷系统能效、降低冷却水蒸发损耗,不仅是技术进步的方向,更是 实现绿色算力可持续演进的底层保障。 当前主流液冷系统通过两级冷却过程实现服务器散热,带来显著能效优势的同时,也加 剧了水资源消耗问题。液冷系统通常采用一级液冷将服务器热量传输至热交换器,再通过二 级冷却方式将热量排出至环境中。其中最常见的方案是使用冷却塔和空气辅助冷却装置进行 蒸发式散热,该过程会大量蒸发淡水,成为 WUE(水使用效率)指标的核心影响源。液冷 系统通用架构在室外侧包含冷却塔、一次侧管网、一次侧冷却液;室内侧包含 CDU、液冷 机柜、ICT 设备、二次侧管网和二次侧冷却液。此外,电力来源本身亦消耗大量冷却水用于发电,进一步放大了整体制冷水足迹。因此,液冷技术虽在 PUE(能源使用效率)控制上表 现优异,却对数据中心选址、水资源配给和可持续能力提出更高要求。
采用水冷空调系统的数据中心,其耗水主要来源可概括为以下几个方面:1)冷却水蒸 发。采用冷却塔制取低温冷却水时,数据中心的热量主要靠冷却水的蒸发散发到大气环境中 (但是采用干式冷却器的系统主要依靠空气与冷却水的对流换热,但其效率低,占地面积较 大,且对气候条件的要求较为苛刻,在水冷离心系统中很少采用干式冷却器设备),因此水 蒸发损失为数据中心水资源消耗的主要部分。2)冷却水排水。通常,数据中心冷却水系统 的运行水温为 32℃/37℃,该温度较容易滋生细菌,适宜藻类和污垢的生长及在管壁上的附 着,并且需要通过冷却水排污来配合控制加药浓度,这一过程也会产生水的消耗。3)IT 房 间加湿用水。冬季,尤其是我国北方地区,室外环境相对湿度较低,机房内湿度受此影响需 通过加湿系统维持机房内的湿度要求,需要消耗加湿用水。4)软化水设备用水。冷冻水及 加湿水等水系统在运行过程中由于泄漏、排水会造成一定的损失,为保证运行安全及系统压 力,需要及时补充软化水,通过软化水设备对市政补水处理后补充到系统中。5)设备维护 用水。系统运行过程中,冲洗、管道压力测试等需要的用水。6)柴发系统运行及维护用水。 为柴发机组排烟净化及机组冷却用水,这部分水资源消耗所占比例较小。 水资源利用效率(WUE)是数据中心系统(水循环系统、绝热冷却塔、加湿装置等) 用水量与 IT 设备能耗的比值,是用于衡量数据中心在水资源消耗方面及其与能耗关系的可 持续性的常用关键指标。水资源利用效率=数据中心总耗水量(升)/IT 设备能耗(千瓦时), 简言之即每消耗 1 千瓦时电能所需的水量。数据中心的 WUE 比值越低,表明其水资源利用 效率越高。湿式冷却塔的核心挑战在于高耗水量,这一特性常导致项目在水资源受限区域或 数据中心密集区推进受阻。

作为衡量设施综合能效与可持续性的关键指标,优化 WUE 至关重要。 1)调整温湿度设定值。通过适当提高数据中心环境的温度与湿度阈值,可减少冷却塔 蒸发散热过程所需处理的热负荷。当前普遍存在的现象是:数据中心温度设定远低于推荐值, 而湿度过度调控。这种模式会导致制冷机组需求激增,冷却塔系统耗水量异常偏高。更严重 的是,相邻系统可能相互冲突——一个系统在除湿而另一个却在加湿,造成能源浪费。通过 提高温度设定点并扩大湿度允许波动范围,设施可更多利用水侧自然冷却等免费制冷策略, 减少对传统制冷机组与冷却塔的依赖。 2)实施水资源循环利用。水循环利用能显著降低外部供水需求。但需注意相关权衡: 为确保水质达标,需增置水处理设备,而设备运行会增加能耗,可能抵消节水收益。若采用 硫酸、盐酸或抗坏血酸等酸性处理工艺,可使水重复利用多个循环,大幅减少补充水量。 3)提高浓缩倍率。浓缩倍率指冷却塔补水量与系统排水量的比值。常规系统运行值为 2-4 个循环。通过提升至 6 个循环以实现最佳浓度,可使冷却塔补水量减少 20%,排水量降 低 50%。4)应用数据中心基础设施管理软件(DCIM)。DCIM 软件能帮助管理者降低碳足迹并 落实可持续战略。该工具可实现:精确测量能耗数据以支持智能决策、实时生成 PUE 等能 效指标图表、通过费用分摊机制引导节能行为、避免过度制冷造成的能源浪费、识别高耗能 设备并实施替换、实现资源的智能整合与虚拟化。通过 DCIM 软件全面提升能效管理,将同 步改善水资源利用效率。 国内头部数据中心运营商确实越来越重视并开始公布其水资源利用效率(WUE)数据, 但这方面的公开透明度相较于电源使用效率(PUE)来说还处于早期阶段。以阿里巴巴为例, 在数据中心设计阶段,结合当地水资源状况,综合考虑 WUE 和 PUE 的平衡尽可能提供水 资源风险管理的最佳解决方案。在识别出的水资源风险较高地区(例如水资源匮乏地区), 我们会牺牲部分 PUE 表现并采用 WUE 更低的风冷模式,尽可能减少对当地水资源的负面 影响;而在识别出的水资源风险较低地区(例如水资源充沛地区),会追求更好的 PUE 表现, 采用水冷模式,WUE 也会相对偏高。2025 财年,阿里云自建数据中心年均 WUE 为 1.144, 其中,主要采用水冷模式的数据中心年均 WUE 为 1.800,主要采用风冷模式的数据中心年 均 WUE 为 0.329。
液冷数据中心产业链主要包括上游零部件、中游液冷数据中心和下游应用领域。上游零 部件主要包括:冷却液、CDU、接头、电磁阀、TANK、maniflod 等,主要公司有科华数据、 同飞股份、英维克、中科曙光、曙光数创等;中游液冷数据中心主要包括:芯片端、液冷服 务器、液冷模块机柜等基础设施及解决方案、液冷数据中心集成方等,主要公司有英伟达、 华为、英特尔、浪潮信息、施耐德、数据港等。下游应用领域主要包括:电信运营商和互联 网,主要公司有电信、移动、联通、百度、阿里巴巴、腾讯等公司。
2.3.2 运维:以数字孪生与 3D 可视化为基础的 DCIM 管理系统
随着数据中心向高功率密度和高负载方向快速发展,传统人工运维模式已难以应对复 杂环境,智能化、自动化的运维体系成为主流选择。通过 AI 算法驱动的实时监控与能效调 优系统,运维人员可全面掌握运行状态,快速识别能源浪费与潜在风险,并覆盖能源使用全 生命周期进行精准调控,从而提升效率、降低人力成本,并减少碳排放。随着 AI 技术的发 展,通过深度学习构建预测模型,结合专家经验优化策略,系统可自动推理出暖通系统在不 同负载和环境下的最优运行参数,从而实现高效、精准的能源调度。 政策层面也进一步确立了智能运维在绿色低碳发展中的核心地位。根据工信部《绿色数 据中心评价指标体系》,能源智能化运维能力已被纳入评估指标,成为绿色等级评定的重要 依据。文件特别强调在碳排放双控向资源综合利用转型过程中,应推动数据中心实现系统级 能效感知与智能化控制。而在《全国一体化大数据中心协同创新体系实施方案》中,国家明 确提出“在满足安全运维前提下”推动绿色集约化建设,鼓励采用液冷、模块化空调、余热 回收等节能方案,全面构建绿色智能运维机制。
智能运维不仅优化运行参数,还在设备管理层面实现跨系统融合。以 3D 可视化、数字 孪生等新技术为基础,智能运维平台可集中管理 IT 设备、基础设施及能耗数据,通过实时 感知与边缘计算手段,全面掌控冷却系统、网络、电力及存储等多环节资源的动态变化,避 免资源闲置与浪费。同时,系统还可输出节能预测模型,不断反哺策略,驱动运维从被动响 应转向主动优化。具体来说包括以下几方面: 1)设备资产管理。主要包括基于物联网的接触式 U 位级定位技术、RFID 技术、图像 处理技术等的实物设备资产定位方法、配件管理方法等。在架设备 U 位级位置信息、塔式 设备区域级信息、设备配件在库房的位置信息等是数据中心智能化运维的基础之一。 2)AI 能效调优。由于 IT 负载的能耗与制冷系统的能耗相互关联,需要统一进行跨层 优化。在 IT 负载层与基础设施层的跨层统一能效优化方面,常用的方法是利用当前/历史信 息(包括负载、空调参数、外界环境参数等)借助人工神经网络深度学习算法对 IT 系统与 制冷系统温度或者能耗进行预测。通过建立包括 IT 负载在内的多个因素与数据中心总能耗或者数据中心 PUE 之间的人工神经网络模型,对数据中心的总能耗或者 PUE 进行预测,从 而对输入的控制因素进行优化。 3)负载智能调度。包括时间和空间的负载智能调度。在时间上,通过重新定义非实时 计算任务的运行时间,使得数据中心的负载充分匹配可再生能源的发电量,从而加大对可再 生能源的使用,减少碳排放;在空间上,通过调度一个机房模块内不同服务器上运行的负载, 调整 IT 负载在机房模块的空间分布,消除局部热点,实现节能的目的。
DCIM,即数据中心基础设施管理,是一种综合性的管理策略,旨在整合设备运行监控、 资产管理、能耗分析、运维管理等功能,提升能效和可持续性,预测和防止故障。数据中心 已经是一个高能耗的行业,电费的支出在运维费用中占用了相当大的比例。因此 DCIM 系统 必须能够监控数据中心的 PUE 等关键能耗指标,同时能够实时的查看 IT 设备和基础设施设 备的能耗。未来 DCIM 还应该能够对水使用效率 WUE 和碳使用效率 CUE 等进行监控。其 次,DCIM 系统能够通过对服务器的有功功率和 CPU 占用等信息采集来发现在数据中心空 载和低负载的服务器,从而对这部分服务器进行整合或者下架,提高设备利用率,降低数据 中心功耗。同时通过结合 IT 设备的生命周期和服务器的能耗信息,可以淘汰一些老旧的, 计算能力弱却又能耗较高的服务器,进一步节能增效。并且,DCIM 解决方案继承并增强了 传统动力环境监控系统的功能,通过实时监控 IT 设备和基础设施设备,当在夜晚或者虚拟化迁移的过程中,对一些能耗降低的区域,可以考虑对该区域的模块化 UPS 进行休眠,以 及对空调系统的风机进行调速,甚至关闭部分空调终端,来节约能源。

国内 DCIM 系统市场主要由几家主导厂商和众多新兴厂商构成。当前市场主要由华为、 阿里巴巴、腾讯等头部科技企业主导,其在市场份额方面具有显著优势;与此同时,易华录、 科华数据等新兴厂商也展现出强劲的市场竞争力。此外,达梦数据、易云科技等公司同样在 市场中占据一席之地。尽管各厂商的数据中心基础设施管理(DCIM)产品在功能模块上大 体相仿——通常涵盖监控、告警、可视化、资产管理、容量规划、能效管理、巡检以及相应 的运维服务与分析报告,但各家产品在具体实现上仍各具特色。例如,华为的 Fusion DCIM 凭借完整的解决方案和深厚的行业经验脱颖而出;中兴的 Golden Gate 则突出其高效的数据 处理能力;而浪潮的 InCloud-DCIM 则聚焦于企业级云数据中心的基础设施管理。在智能巡 检功能方面,多数厂商均提供相关支持,其中高端方案通常采用智能机器人执行,而中级方 案则多基于数字链路可视化,并通过系统模拟实现巡检流程。 目前,各厂商的 DCIM 产品均提供了 3D 可视化功能,其差异主要体现在实现深度与 集成程度上。以华为为代表的领先厂商能够提供涵盖完整展示、管理与组态配置的全流程 3D 可视化方案,并深度融合数字孪生技术以呈现精细化的交互体验;而其他厂商的 3D 功能则 多以基础展示和组态配置为核心。在人工智能应用层面,华为等大型厂商已引入 AI 算法, 实现智能推荐、预测及自动化控制等高级能力。此外,在生态构建与系统集成方面,华为通 过率先推出开发者社区,积极推动 DCIM 平台南北向接口的开放,致力于打造协同发展的产 品生态。另一方面,随着业务系统上线提速、弹性扩展需求增强以及服务等级协议(SLA) 要求不断提高,银信科技等行业实践者正推动运维模式从“被动响应”向“主动管理”转型。 这一转变的核心是建设统一、可视化的 DCIM 平台,通过整合软件、硬件与传感器,将 IT 管理与物理设施监控相结合,实现对数据中心关键设备的集中监测、容量规划、资源调度与 运维跟踪。该平台旨在支持数据中心从设计、建设到投产、运维的全生命周期管理,以提升 整体运营效率与可靠性。
2.3.3 回收:余热回收已具备运营经济性,水回收处于发展初期
资源回收技术正成为绿色数据中心硬件升级的关键支撑手段。一方面,数据中心可以通 过安装空气与水余热回收装置,将设备运行中产生的热能转化为可再利用能源,不仅提升能 效,也有效降低冷却系统负担。例如,热交换后的热水可用于园区供暖、工业生产或住宅热 水系统,提高能效并实现回收闭环。数据中心的废热通过热泵或热交换装置提升温度,然后 注入城市/区域供热网络,已在瑞典斯德哥尔摩、丹麦欧登赛等地实现规模化应用。 数据中心余热供热技术成熟度高,应用实例较多,具有良好的节能减排效果,投资回收 期普遍较短。对外区域供热是余热供热的应用方向。瞬时热负荷响应、供热半径探讨及余热 季节迁移是目前的研究热点。随着服务器性能的进一步提升,数据中心余热品位的逐渐提高, 同时在国家及各级地方政府相关利好政策的支持下,数据中心余热回收必将取得长足发展, 为数据中心的碳中和及绿色发展贡献更大力量。 根据数据中心冷却系统的不同,数据中心余热回收系统可采用风侧热回收系统、热泵热 回收系统以及水侧热回收系统。更具体的技术来说,吸收式制冷及吸附式制冷技术成熟可靠, 理论上均可以用于数据中心余热回收;余热制冷消耗数据中心废热同时提供冷量,可以显著 降低数据中心 PUE,投资回收期短。相对于吸收式制冷,吸附式制冷要求的热源驱动温度更 低,具有更优的实践操作性及推广前景,但传统风冷服务器数据中心的余热品位与其要求的 热源温度仍有一定差距,与液冷服务器数据中心的结合应用是其发展方向。ORC 余热发电 技术成熟,但驱动热源温度接近数据中心的余热品位临界值,发电效率有待提升;热电发电 技术是数据中心余热发电的潜在技术,处于实验台性能试验阶段。
液冷服务器数据中心的 PUE 仍普遍低于风冷服务器数据中心,采用热回收后,数据中 心的这一趋势没有发生变化。采用热回收后,并没有改变 PUE 值随着数据中心项目地点气 候条件的变化趋势:严寒地区<寒冷地区<温和地区<夏热冬冷地区<夏热冬暖地区。热回收 用于制冷可进一步降低数据中心 PUE,热回收发电理论上可以突破 PUE 大于 1 的限制,甚 至可以达到 0.977。不少应用场合,热泵机组不仅可以提供热量,同时可以提供冷量,且机 组效率优于对比系统,此时 PUE 值呈下降趋势。所以即便是产销者数据中心,PUE 仍是可 用的评价指标,但宜将对外提供热量(冷量或者电力)的相关功耗从数据中心的功耗中剔除。
热泵在取暖运行阶段只需要提取 1/10-1/5 的热量即可满足就近的居民和办公采暖需求, 余热回收在部分北方寒冷且电费较低地区具备运营经济性,5-6 年可回收投资,同时打破用 能体系边界,实现多领域能源耦合梯次利用,发挥能效潜力,多方利用余热,将余热转换为 可再生能源。余热回收制冷,可以消纳热量同时产生数据中心常年需要的冷量,投资回收期 用途更短;余热发电投资回收期相对较长。余热回收供热的回收期与参照系统的初投资及供暖时长密切相关;与参照系统投资差异越大,回收期越长;所处位置越北,供暖期越长,回 收期越短。
此外,水资源的回收利用也在变得越来越重要。为应对水资源短缺的挑战,绝大多数数 据中心采取了从用水端到回收端的系统优化,从而实现节水减排。回收端节水,主要是通过 引入废水回收技术,数据中心可以循环使用相当比例的水资源,显著减少对新鲜水资源的依 赖。Uptime Institute 数据显示,单座大型数据中心年均用水量高达 675 万加仑(约 2,560 立 方米)。通过部署雨水收集、空调冷凝水回收和中水处理技术,回收后的水不仅可用于冷却 系统,还能用于设备清洁、补给市政水源等用途,减少对新鲜水资源的依赖。例如,微软在 瑞典数据中心部署雨水收集系统,用于加湿和日常维护,已取得显著成效。还有一些数据中 心在设计中引入雨水收集系统,将收集到的雨水用于冷却或灌溉。
许多大型科技公司都涉足数据中心领域,各自制定了包含节水措施的可持续发展框架、 目标及指标。亚马逊、谷歌、Meta 和微软均对数据中心用水进行监测,致力于提升用水效 率,同时在周边区域推行节水举措。例如,实施雨水收集与循环利用,并在运营所在流域开 展水资源管理项目。在数据中心内部,闭环系统的应用消除了对冷却塔的需求——传统冷却 塔会因蒸发导致水资源流失。通过使同一水体在系统内循环使用长达 15 年以上,彻底摆脱 了对新鲜水源的持续消耗。然而,Black & Veatch 2025 水资源报告揭示,美国水务公司尚未 充分准备应对人工智能数据中心行业可能带来的需求。报告指出超过半数(54%)的受访者 在被问及其组织是否将数据中心和技术制造商用水需求增长纳入短期及长期资源规划时,给 出了“否”的回答。 人工智能与水资源消耗的未来发展方向之一:将人工智能数据中心迁至海洋或构建浮 动数据中心。《科学美国人》报道称,中国正在试点将数据中心安置于海底的项目,在上海 海岸 9.65 km 外建造一座风力驱动的水下数据中心。微软表示虽暂无计划建造水下数据中心, 但正将项目数据与发现应用于未来潜在方案的研发。韩国正在推进一项项目,旨在开发环保 技术建造水下数据中心群,该设施可在海底容纳多达 10 万台服务器。日本横滨市正计划采 用绿色能源驱动的浮动数据中心来满足其数据中心需求。多家企业与横滨市政府将合作推进 该项目,在御山桥码头附近建造一座长 25 m、宽 80 m 的浮动数据中心。未来规划包括在近 海风电场附近部署此类浮动数据中心以满足能源需求。美国 Nautilus 公司早在 2015 年便启 动浮动数据中心试点项目,该项目采用驳船下方的海水作为冷却介质,利用热交换技术为服 务器机柜降温,再将换热后的水排回海洋。
2.3.4 建筑:预制模块化与绿色环保材料
在数据中心领域,“白色空间”是指建筑物内专门用于放置 IT 硬件的区域,如服务器、 存储和网络组件。这是一个高度受控的环境,需要严格监控温度、湿度等关键因素,以保障 IT 系统的稳定运行。随着对更高性能和容量的需求不断增长,数据中心面临着在控制成本 的同时最大化“白色空间”效率的挑战。而从“白色空间”向“绿色建筑”的转变,将为数 据中心带来诸多益处。 数据中心节能改造需有效应对数据泄露风险、停运风险及跨专业协调挑战,以确保项目 成功并降低对运营的影响。为减少数据泄露和停运风险,改造方案对生产过程的干扰程度越 低,其市场接受度越高。顺应此市场趋势,模块化数据中心成为首选解决方案。以高效智能 微模块数据中心为例,该技术整合 IT 机柜、制冷、不间断电源、消防、照明、监控、布线、 安防等模块,通过简易拼装与连接,实现快速整体交付,显著缩短施工周期,最大程度减少 对运营的干扰。此外,应充分利用现有冗余资源,实施分阶段改造。为提升跨专业工作效率, 建议建立跨专业沟通协调机制,并遵循以下步骤:首先,与所有利益相关者密切沟通,确保 需求与顾虑得到妥善处理;其次,明确关键绩效指标(KPI),确保改造目标清晰且获得共识; 再次,设计改造方案,执行节能改造,并安装或采购绿色电力设备;最后,通过数据收集与 结果测量,验证改造措施是否达到预期效果。

从数据中心的生命周期维度分析碳排放,基本可以划分为两个阶段:第一是建设阶段, 在数据中心正式投入运营之前,需要进行大量的土地作业、建筑工程以及设备调试等工作, 这个阶段将会产生一部分的碳排放,而且建筑材料和相关设备在生产和回收时产生的碳排也 会对总体碳排产生影响;第二是运营阶段,这一阶段产生的碳排放包括由 ICT 设备工作消耗 电能所产生的间接碳排放,以及备用柴油发电机等基础设施产生的直接碳排放,这一阶段碳 排放的总量取决于各类设备的耗电量、可再生能源的利用比例,以及数据中心整个运行生命 周期的时长。以一个 1500 柜,每柜 8kW,负载率 75%,PUE 设计值为 1.5 的数据中心为例, 其 10 年生命周期碳排放约 76.3 万吨,其中包含建设阶段排放约 10%,相关减碳技术主要体 现在数据中心设计和建设模式上。
AI 大模型的快速变化带来智能算力需求增长和算力载体交付周期缩短。传统数据中心 需要经过设计、土建、机电安装、调试等多个阶段,从土建开始算起,一切顺利的情况下, 至少需要 12 个月的交付周期,对于北方存在“冻土期”影响土建施工,交付周期会更长。 这个交付周期与 AI 大模型等 IT 技术日新月异的演进明显不匹配。 模块化与预制化的建设方式成为缩短交付周期的重要抓手。预制化数据中心是装配式 建筑与模块化数据中心的深度融合,融合数据中心土建工程及机电工程,以集装箱为载体, 集成机柜、配电、制冷、监控、消防、照明、防雷接地、综合布线等系统于一体,具备快速 部署、柔性扩容、高效节能等特点。以全栈化的思维融合数据中心土建工程(L0)及机电工 程(L1),功能区域采用全模块化设计,将结构系统、供配电系统、暖通系统、管理系统、 消防系统、照明系统、防雷接地、综合布线等子系统预集成于预制模块内,所有预制模块在 工厂预制、预调测,并在现场同步进行地基土建建设作业。交付过程中,预制功能模块从工 厂运输到站点现场,无需进行大规模土建,只需要进行简单吊装及乐高式搭建,即可完成数 据中心快速建设部署,相比传统方式上线时间提前 50%,有效降低建设过程中的建筑垃圾、 施工用水产生,同时在生命周期结束后材料回收率高于 80%,具有全生命周期低碳的优势。 根据中国信通院《绿色算力发展研究报告(2025)》的案例分析,浪潮信息的预制化 AIDC 解决方案,预制装配率可达 90%,且集成工作与现场土建工作并行,相比传统土建机房工期 可缩短 60%以上,可实现 3 个月建成,17 天交装完毕,解决了传统数据中心建设周期长, 无法满足业务快速上线的问题。华为、普洛斯、浩云长盛等 IDC 服务商在预制化、模块化数 据中心建设方面均有所布局。中兴通讯装配式智算数据中心解决方案采用建筑和机电一体化 预制模块化技术,将机电集成在模块箱内部,模块箱组成建筑。这种设计使得项目最小颗粒 度为模块箱,从而实现快速部署,交付周期缩短 40%,降至 7 个月以内。数据中心设计层高 达 5.75m,突破市面集装箱预制数据中心 4.15m 的高度限制。这一设计可以满足高密风冷机 柜、液冷机柜等智算需求,为数据中心提供了更大的空间灵活性和更高的散热效率。
建筑使用绿色环保材料自然也是重要一环。数据中心、硬件生产和办公设施对钢铁和水 泥的消耗巨大,而这两类材料正是全球碳排放最难减的环节。本身采用模块化的集装箱数据 中心设计,就可以减少建筑废料、冷却需求和混凝土的使用。而进一步选择可持续的建筑材 料并在可能的情况下回收或再利用材料,可以减少数据中心建设过程中的温室气体排放。 EcoDataCenter 在其位于瑞典富伦的第一个数据中心的框架结构中使用了可再生的交叉层压 木材,这是一种可持续的工程木材,与传统建筑材料如混凝土和钢材相比,具有显著更低的 碳足迹。中兴通讯装配式框架箱模块主体材料采用钢材和铝材,代替传统建筑的水泥和砂, 材料可回收率超过 60%,实现了数据中心生命周期的绿色节能。 设计建设阶段还可以采用数据中心 PUE 仿真设计技术。PUE 仿真设计源于创新数字孪 生理念,在设计阶段,基于方案构建设备模型、系统模型,并且基于导入的运行参数和外部 数据(如负载率、气候数据)来模拟系统和设备运行状态,输出重点特征值状态 PUE。采用 一维热流体仿真技术对数据中心制冷系统进行物理建模,结合控制仿真技术模拟系统的控制 过程,最终获取 AHU(空气处理单元)、冷机、冷塔、水泵等制冷设备的动态和稳态状态, 实现复杂热流系统的状态重现和预测。PUE 仿真设计也可以用于数据中心运营过程中系统 智能 PUE 调优时的 PUE 预测仿真。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)