液冷产业渗透率驱动因素有哪些？

最佳答案由匿名用户编辑于2024/06/14 14:53

当前国内外 AI 逻辑不断强化，AI 基础设施投资已逐渐步入正循环，在三大核心因素驱动下，我认为今年有望成为液冷产业渗透率大幅提升之年：

1、主流芯片加速迭代，芯片侧和机柜侧功耗大幅提升

GB200 功耗最高可达 2700W，计算芯片功耗持续增长。后摩尔定律时代，芯片制程技术发展趋缓，计算芯片多以提高核心数量或小芯片聚合互连等方式提高算力，更高的芯片集成度导致芯片如 CPU 和 GPU 的功耗不断攀升。AI 服务器作为人工智能发展的重要算力底座，CPU 和 GPU（或其他 ASIC 计算芯片）的整体功耗在 AI 服务器总功耗中占比达到 80%左右。（1）对于数据中心 CPU 方面，CPU TDP 从早期 150W 逐渐提升至 400W 左右，未来随着 CPU 侧算力增长，功耗或将进一步提升至 500W；（2）对于数据中心 GPU 方面，用于人工智能计算的 GPU TDP（热设计功耗）从早期 V100 的 300W 功耗提升至 B200 的 1000W，功耗是 V100 的 3 倍以上；（3）对于 Grace Superchips 方面，GB200 相比上一代 GH200，从原有的一颗 CPU+ 一颗 GPU 升级为两颗 GPU+一颗 CPU，TDP 从最高 1000W 提升至最高 2700W；（4）对于国产算力芯片方面，华为海思、寒武纪、地平线、昆仑芯等厂商的计算芯片功耗也随着产品迭代功耗不断增长，峰值功耗提升至 550W 甚至更高。在芯片制程突破放缓的趋势下，我们认为未来计算芯片功耗或将持续增长。

服务器设备是提供算力资源的主要载体，IDC（数据中心）则是给集中放置的 ICT 设备（服务器设备、网络设备、存储设备）提供运行环境的场所（数据中心=ICT+ 电力+制冷），需要对 ICT 设备进行持续的供电和制冷散热。（1）芯片侧：AI 芯片发热量已达风冷单点散热极限，液冷或成为必选方案。传统风冷技术以空气为介质进行散热，存在散热密度低、散热能力差、易形成局部热点等缺陷。AI 高算力需求下，芯片发热量和热流密度不断增长，如若芯片长时间高温运行，则会影响芯片性能并提升芯片故障率、减低其使用寿命。液冷散热以液体为介质进行散热，由于液体的体积比热容是空气的 1000-3500 倍，液体的对流换热系数是空气的 10-40 倍，同等空间情况下，液冷的冷却能力远高于空气。从芯片单点散热来看：芯片的散热方式取决于芯片的热流量密度(/ ), 由于 CPU 芯片总体大小规格较为固定，我们认为可简单通过 CPU 额定热功率判断散热方式，而各算力芯片厂商之间 XPU 芯片大小规格之间差别较大，还需通过热流量密度判断散热方式。我们认为：当 CPU 芯片≥350W 或 GPU 芯片功耗≥400W 时，液冷成为“待选”方案。随着芯片功率提升，液冷散热优势逐渐凸显，风冷散热性价比持续降低，采用液冷散热方案的比例不断增长。当 GPU 芯片功耗≥800-1000W 时，液冷成为必选方案。此时已逼近风冷散热极限 800W 左右，液冷将从可选改为必选，目前英伟达 B200 计算芯片 TDP 为 1000W，GB200 计算芯片 TDP 最高为 2700W，已采用单相冷板式液冷替代原有风冷方案，若芯片功耗持续上升，单相冷板式液冷或达到散热瓶颈逐渐开始向相变冷板式或浸没式液冷转变。

（2）机柜侧：算力网络整体向集成化发展，单机柜功率密度持续增长，由风冷转向风液混合或全液冷方案。芯片功率的增加也导致整机柜功率的增长，采用传统风冷的数据中心通常可以解决 12kW 以内的机柜制冷。随着服务器单位功耗增大，同样尺寸的普通服务器机柜可容纳的服务器功率往往超过 15kW，相对于现有的风冷数据中心，已逼近空气对流散热能力天花板。

从机柜测散热来看：当机柜功耗≥12KW 时，随着机柜功率密度不断增长，风冷性价比持续下降，液冷优势显著。在传统风冷机房微模块中，随着通用服务器或 GPU 服务器上架率的提升，单机柜功率密度不断增长，迫使列间空调数量大增，导致机柜数量减少，出现风冷制冷技术成本高、难度大的问题，性价比较低。当机柜功耗≥20KW 时，此时已超过风冷散热极限，液冷或成为必选方案。通用服务器功率平均在 0.5KW 左右，对于 6KW、8KW 的高功率机柜可以放置 10 台服务器以上。 AI 服务器功率可达 6KW 以上，以 NVIDIA DGX A100 服务器为例，额定功率约为 4KW，单机峰值功率约为 6.5KW。一个标准 42U 高度的机柜中，假设放置 5 个 5U 高度的 AI 服务器，单机柜功率有望超过 30KW，此时需从风冷散热转变为风液混合散热或全液冷散热方案，以满足机柜测散热需求。

目前，英伟达 GB200 NVL72 单机柜功率已高达 120KW，从原有风冷散热方案改为风液混合散热方案；华为 Atlas 900 AI 集群单柜功率高达 50KW，采用风液混合散热方案，单机柜功率持续增长，2024 年或为液冷渗透率大幅提升元年。

2、运营商助推液冷解耦式交付，生态逐渐完善

液冷技术规范化程度较低，产品形态各异。我国液冷技术起步稍晚于国外，起步后发展迅速，目前与国外发展进程基本同步，但当前液冷生态尚不完善，机柜与服务器深度耦合，各家服务器设备、冷却液、制冷管路、供配电等产品形态各异，不同厂家产品接口不同，尚无统一接口标准，难以标准化、规模化推广应用。电信运营商提出三年愿景，液冷发展按下“加速键”。据三大电信运营商联合发布的《电信运营商液冷技术白皮书》，电信运营商提出三年愿景：构筑开放生态，降低 PUE 与 TCO；发挥规模优势，大力拓展应用。冷板式液冷方面，推进形成拥有原创技术、接口标准统一、产业生态完善、应用规模最大的发展态势；浸没式液冷方面，推进形成标准统一化、产品国产化、实施工程化、推广规模化的发展格局。《电信运营商液冷技术白皮书》提出：2023 年开展技术验证，充分验证液冷技术性能，降低 PUE，储备规划、建设与维护等技术能力；2024 年开展规模测试，推进液冷机柜与服务器解耦，促进竞争，推进产业生态成熟，降低全生命周期成本；至 2025 年，开展规模应用，共同推进形成标准统一、生态完善、成本最优、规模应用的高质量发展格局，电信行业力争成为液冷技术的引领者、产业链的领航者、推广应用的领先者。运营商近年来对算力基础设施的资本开支增长较快，我们认为运营商大力开展液冷技术验证，有望加速液冷数据中心的标准化，完善液冷生态。

运营商液冷试点有序推进，万卡液冷集群已投入使用。截至 2024 年 5 月，液冷技术已在多个运营商机房进行试点，2023 年 5 月，中国移动呼和浩特智算中心项目开建，项目部署机架总规模 799 架，其中 40KW 液冷整机柜 411 架；2024 年 1 月，中国移动智算中心（武汉）将持续扩容至 6800PFLOPS，采用液冷高功率机柜； 2024 年 3 月，中国电信天翼云上海临港 15000 国产卡液冷智算集群已正式投入使用，全面采用融合液冷服务和 IDC 基础设施的新一代智算液冷 DC 舱，是目前国内最大的运营商级智算中心。

3、多个液冷智算中心持续落地，2024 年液冷渗透率或将大幅提升

人工智能迎来新变革，带来大量算力和机柜需求。2022 年底生成式 AI 大模型 ChatGPT 横空出世，掀起新的 AI 浪潮，海内外互联网巨头、科技企业及研究机构等陆续投入到大模型研发当中，拉开“百模大战”的序幕。AIGC 的兴起引发数据量和计算量快速增长，在一线城市数据中心资源日趋紧张的情况下， AI 的高算力需求或将持续带动 IDC 的建设和机架数量的增长。据工信部、信通院数据，截至 2023 年 6 月底，我国在用数据中心机架规模达到 760 万架，同比增速达到 28.8%，2022 年底总机架规模达到 650 万架，2018-2022 年复合增速超过 30%。

国内多个液冷智算中心已投产，国内外计算芯片双线并行。AI 算力需求持续拉动 IDC 机柜需求，早前智算中心建设多采用海外英伟达、AMD 等算力卡作为底层算力池资源，随着国内算力芯片性能的持续优化以及海外贸易政策摩擦加剧，国产算力集群规模亦持续增长，多个国产算力中心持续落地。据 IDC 圈不完全统计，截至 2023 年底，全国智算中心项目已达 129 个，最大算力规模超过 12000P。

参考报告

英维克研究报告：AI高密度时代的液冷全链条自研龙头.pdf
- 查看报告

1、 主流芯片加速迭代，芯片侧和机柜侧功耗大幅提升

2、 运营商助推液冷解耦式交付，生态逐渐完善

3、 多个液冷智算中心持续落地，2024 年液冷渗透率或将大幅提升

1、主流芯片加速迭代，芯片侧和机柜侧功耗大幅提升

2、运营商助推液冷解耦式交付，生态逐渐完善

3、多个液冷智算中心持续落地，2024 年液冷渗透率或将大幅提升