液冷产业渗透率驱动因素有哪些?

最佳答案 匿名用户编辑于2024/06/14 14:53

当前国内外 AI 逻辑不断强化,AI 基础设施投资已逐渐步入正循环,在三大核 心因素驱动下,我认为今年有望成为液冷产业渗透率大幅提升之年: 

1、 主流芯片加速迭代,芯片侧和机柜侧功耗大幅提升

GB200 功耗最高可达 2700W,计算芯片功耗持续增长。后摩尔定律时代,芯片 制程技术发展趋缓,计算芯片多以提高核心数量或小芯片聚合互连等方式提高算力, 更高的芯片集成度导致芯片如 CPU 和 GPU 的功耗不断攀升。AI 服务器作为人工智 能发展的重要算力底座,CPU 和 GPU(或其他 ASIC 计算芯片)的整体功耗在 AI 服务器总功耗中占比达到 80%左右。 (1)对于数据中心 CPU 方面,CPU TDP 从早期 150W 逐渐提升至 400W 左右, 未来随着 CPU 侧算力增长,功耗或将进一步提升至 500W; (2)对于数据中心 GPU 方面,用于人工智能计算的 GPU TDP(热设计功耗) 从早期 V100 的 300W 功耗提升至 B200 的 1000W,功耗是 V100 的 3 倍以上; (3)对于 Grace Superchips 方面,GB200 相比上一代 GH200,从原有的一颗 CPU+ 一颗 GPU 升级为两颗 GPU+一颗 CPU,TDP 从最高 1000W 提升至最高 2700W; (4)对于国产算力芯片方面,华为海思、寒武纪、地平线、昆仑芯等厂商的计 算芯片功耗也随着产品迭代功耗不断增长,峰值功耗提升至 550W 甚至更高。在芯 片制程突破放缓的趋势下,我们认为未来计算芯片功耗或将持续增长。

服务器设备是提供算力资源的主要载体,IDC(数据中心)则是给集中放置的 ICT 设备(服务器设备、网络设备、存储设备)提供运行环境的场所(数据中心=ICT+ 电力+制冷),需要对 ICT 设备进行持续的供电和制冷散热。 (1)芯片侧:AI 芯片发热量已达风冷单点散热极限,液冷或成为必选方案。 传统风冷技术以空气为介质进行散热,存在散热密度低、散热能力差、易形成局部 热点等缺陷。AI 高算力需求下,芯片发热量和热流密度不断增长,如若芯片长时间 高温运行,则会影响芯片性能并提升芯片故障率、减低其使用寿命。液冷散热以液 体为介质进行散热,由于液体的体积比热容是空气的 1000-3500 倍,液体的对流换 热系数是空气的 10-40 倍,同等空间情况下,液冷的冷却能力远高于空气。 从芯片单点散热来看:芯片的散热方式取决于芯片的热流量密度(/ ), 由 于 CPU 芯片总体大小规格较为固定,我们认为可简单通过 CPU 额定热功率判断散 热方式,而各算力芯片厂商之间 XPU 芯片大小规格之间差别较大,还需通过热流量 密度判断散热方式。我们认为:当 CPU 芯片≥350W 或 GPU 芯片功耗≥400W 时, 液冷成为“待选”方案。随着芯片功率提升,液冷散热优势逐渐凸显,风冷散热性 价比持续降低,采用液冷散热方案的比例不断增长。当 GPU 芯片功耗≥800-1000W 时,液冷成为必选方案。此时已逼近风冷散热极限 800W 左右,液冷将从可选改为 必选,目前英伟达 B200 计算芯片 TDP 为 1000W,GB200 计算芯片 TDP 最高为 2700W, 已采用单相冷板式液冷替代原有风冷方案,若芯片功耗持续上升,单相冷板式液冷 或达到散热瓶颈逐渐开始向相变冷板式或浸没式液冷转变。

(2)机柜侧:算力网络整体向集成化发展,单机柜功率密度持续增长,由风冷 转向风液混合或全液冷方案。芯片功率的增加也导致整机柜功率的增长,采用传统 风冷的数据中心通常可以解决 12kW 以内的机柜制冷。随着服务器单位功耗增大, 同样尺寸的普通服务器机柜可容纳的服务器功率往往超过 15kW,相对于现有的风冷 数据中心,已逼近空气对流散热能力天花板。

从机柜测散热来看:当机柜功耗≥12KW 时,随着机柜功率密度不断增长,风 冷性价比持续下降,液冷优势显著。在传统风冷机房微模块中,随着通用服务器或 GPU 服务器上架率的提升,单机柜功率密度不断增长,迫使列间空调数量大增,导 致机柜数量减少,出现风冷制冷技术成本高、难度大的问题,性价比较低。当机柜 功耗≥20KW 时,此时已超过风冷散热极限,液冷或成为必选方案。通用服务器功 率平均在 0.5KW 左右,对于 6KW、8KW 的高功率机柜可以放置 10 台服务器以上。 AI 服务器功率可达 6KW 以上,以 NVIDIA DGX A100 服务器为例,额定功率约为 4KW, 单机峰值功率约为 6.5KW。一个标准 42U 高度的机柜中,假设放置 5 个 5U 高度 的 AI 服务器,单机柜功率有望超过 30KW,此时需从风冷散热转变为风液混合散热 或全液冷散热方案,以满足机柜测散热需求。

目前,英伟达 GB200 NVL72 单机柜功率已高达 120KW,从原有风冷散热方案 改为风液混合散热方案;华为 Atlas 900 AI 集群单柜功率高达 50KW,采用风液混合 散热方案,单机柜功率持续增长,2024 年或为液冷渗透率大幅提升元年。

2、 运营商助推液冷解耦式交付,生态逐渐完善

液冷技术规范化程度较低,产品形态各异。我国液冷技术起步稍晚于国外,起 步后发展迅速,目前与国外发展进程基本同步,但当前液冷生态尚不完善,机柜与 服务器深度耦合,各家服务器设备、冷却液、制冷管路、供配电等产品形态各异, 不同厂家产品接口不同,尚无统一接口标准,难以标准化、规模化推广应用。 电信运营商提出三年愿景,液冷发展按下“加速键”。据三大电信运营商联合发 布的《电信运营商液冷技术白皮书》,电信运营商提出三年愿景:构筑开放生态,降 低 PUE 与 TCO;发挥规模优势,大力拓展应用。冷板式液冷方面,推进形成拥有原 创技术、接口标准统一、产业生态完善、应用规模最大的发展态势;浸没式液冷方 面,推进形成标准统一化、产品国产化、实施工程化、推广规模化的发展格局。 《电信运营商液冷技术白皮书》提出:2023 年开展技术验证,充分验证液冷技 术性能,降低 PUE,储备规划、建设与维护等技术能力;2024 年开展规模测试,推 进液冷机柜与服务器解耦,促进竞争,推进产业生态成熟,降低全生命周期成本; 至 2025 年,开展规模应用,共同推进形成标准统一、生态完善、成本最优、规模应 用的高质量发展格局,电信行业力争成为液冷技术的引领者、产业链的领航者、推 广应用的领先者。运营商近年来对算力基础设施的资本开支增长较快,我们认为运 营商大力开展液冷技术验证,有望加速液冷数据中心的标准化,完善液冷生态。

运营商液冷试点有序推进,万卡液冷集群已投入使用。截至 2024 年 5 月,液冷 技术已在多个运营商机房进行试点,2023 年 5 月,中国移动呼和浩特智算中心项目 开建,项目部署机架总规模 799 架,其中 40KW 液冷整机柜 411 架;2024 年 1 月, 中国移动智算中心(武汉)将持续扩容至 6800PFLOPS,采用液冷高功率机柜; 2024 年 3 月,中国电信天翼云上海临港 15000 国产卡液冷智算集群已正式投入使用,全 面采用融合液冷服务和 IDC 基础设施的新一代智算液冷 DC 舱,是目前国内最大的 运营商级智算中心。

3、 多个液冷智算中心持续落地,2024 年液冷渗透率或将大幅提升

人工智能迎来新变革,带来大量算力和机柜需求。2022 年底生成式 AI 大模型 ChatGPT 横空出世,掀起新的 AI 浪潮,海内外互联网巨头、科技企业及研究机构等 陆续投入到大模型研发当中,拉开“百模大战”的序幕。AIGC 的兴起引发数据量和 计算量快速增长,在一线城市数据中心资源日趋紧张的情况下, AI 的高算力需求或 将持续带动 IDC 的建设和机架数量的增长。据工信部、信通院数据,截至 2023 年 6 月底,我国在用数据中心机架规模达到 760 万架,同比增速达到 28.8%,2022 年底 总机架规模达到 650 万架,2018-2022 年复合增速超过 30%。

国内多个液冷智算中心已投产,国内外计算芯片双线并行。AI 算力需求持续拉 动 IDC 机柜需求,早前智算中心建设多采用海外英伟达、AMD 等算力卡作为底层算 力池资源,随着国内算力芯片性能的持续优化以及海外贸易政策摩擦加剧,国产算 力集群规模亦持续增长,多个国产算力中心持续落地。据 IDC 圈不完全统计,截至 2023 年底,全国智算中心项目已达 129 个,最大算力规模超过 12000P。