正如 AI 大模型的训练需要 AI 芯片算力与光模块、PCB 等环节的运力同步提升一样,存 储作为存放数据并与 CPU、GPU 等芯片实现数据交互的重要一环,其容量和传输速率 的性能表现直接影响 CPU 和 GPU 的计算效率。但根据 Synopsys 研究,过去较长时间 CPU 性能的发展速度远高于存储,由此造成的存算不匹配很大程度制约处理器的计算 能力。尤其在 AI 时代,当数据吞吐量呈现指数级攀升的趋势时,存储芯片的容量和带 宽升级的迫切程度达到前所未有的高度。

内存带宽:通道数增长逐步放缓,PCIe 另辟蹊径
CPU 的通道数量是扩展内存容量及带宽的重要指标。衡量内存性能的两大重要参数即 为容量与带宽: 1) 容量:直观上受插槽数量与单根内存条的容量影响,但每个内存通道最多有两个插 槽,因此实际上的制约为内存通道数; 2) 带宽:主要由内存通道数、有效频率以及位宽决定,其中位宽为固定值,有效频率 随 DRAM 的代际迭代而提升。
复盘历史,CPU 通道数发展渐趋迟缓。从 2010 至 2023 年的演进数据看,CPU 内存通 道数量的发展节奏逐步放缓:2011、2017、2021、2023 年虽实现通道扩容,但后续新增通道的频次与幅度显著收窄,未来规划中通道数已无进一步提升。与此同时,单 CPU 核心分配的内存带宽呈现波动下行态势,2020 年后长期维持在 3.2~3.3GB/s 的低位, 即便 2023 年通道扩容,单核心带宽也仅短暂回升,未来预计再度回落。
PCIe 插槽应用场景已发生显著迭代,传统阶段该接口多用于网卡、声卡等外设,当前 则广泛兼容存储类设备,实现了内存通道的变相扩容。作为双向串行总线,PCIe 虽传 输效率不及 CPU 与内存的直连通道,但技术升级持续推进,PCIe6.0 传输速率已达 64GT/s,成为内存扩展体系的关键补充。

异构计算背景下,内存共享的重要性凸显。传统 PCIe 总线架构下,GPU 仅可直接访问 本地显存资源,若需访问系统主存,必须经由 CPU 中转调度与协议转换,该机制带来 显著的数据拷贝开销与传输延迟,直接降低数据交互效率。在 AI 训练推理、高性能计 算等异构计算场景快速普及的背景下,PCIe 总线的带宽瓶颈与 CPU 中转损耗被进一步 放大,成为制约算力调度效率与资源利用率的核心瓶颈。从架构优化方向看,实现 CPU、 GPU 及各类异构计算终端的内存资源共享,构建统一寻址、直接访问的内存空间,是破 解该瓶颈的理想解决方案,CXL 应运而生。
CXL:以 PCIe 总线为物理基础,实现内存共享
CXL 协议与 PCIe 物理层架构完全一致,可直接复用现有硬件链路,具备良好生态兼容 性。其在物理层之上定义三大核心子协议: 1)CXL.io:继承 PCIe 基础 I/O 功能,保障设备互联互通; 2)CXL.cache:允许设备缓存主机内存的数据,且各设备与主机缓存是一致的; 3)CXL.mem:支持内存资源直接共享与统一寻址,即要求 CXL 连接设备对主机开放 内存空间。
基于三个子协议,CXL 下游的应用场景主要包含三大方向: 1)适用于自身不包含内存的专用加速卡,例如 NIC。加速卡可通过 CXL.io 和 CXL.cache 协议实现对主机内存的访问并计算; 2)适用于含有本地内存的加速卡,例如 GPU。通过 CXL.io、CXL.cache 和 CXL.mem, GPU 可实现与 CPU 之间内存的双向访问,极大提高内存传输效率; 3)适用于内存扩展卡,此时 CXL 所连的设备通常为大容量存储,且允许主机以及其他 通过 CXL 相连的设备访问扩展内存,由此形成“共享内存池”。 基于三大应用场景,CXL 是 PCIe 物理层基础上的全新升级,不仅可较大扩展主机设备 的内存容量,还支持不同计算设备,如 CPU、GPU、FPGA 等,互相访问内存。此时内 存不再与单个设备绑定,而是供所有计算卡共享,存算解耦推进数据传输速率与效率实 现巨大提升。
整体来看,由于 CXL 与 PCIe 共用同一物理层,其传输速率随 PCIe 技术的迭代实现同 步升级。在此基础上,CXL 代际升级呈现“速率提升与协议能力并重”的核心特点:早 期版本聚焦基础互联与生态完善,中期版本推动内存解耦与资源池化,后期版本则向大 规模 Fabric 扩展与安全合规演进,逐步构建覆盖单节点到数据中心级的统一互联架构。

从生态角度来看,CXL 联盟由 CPU、GPU、互联网及服务器领域多家龙头企业联合发 起,核心成员覆盖英特尔、AMD、英伟达等算力芯片巨头,谷歌、Meta 等云厂商以及 戴尔、HPE 等服务器整机厂,实现了异构计算产业链全环节核心玩家的深度绑定,生态 根基极为稳固。依托联盟的产业协同优势,CXL 技术推进速度迅猛,自 2019 年首版规 范发布以来,已快速迭代至 3.1 版本,2025 年 4.0 版本亦进入规划落地阶段,代际更新 周期短,商业化落地节奏显著领先于传统互联协议。在目前数据爆炸+异构计算的时代 背景下,CXL 既是现在,亦是未来。
用途:KV Cache 拉动存储需求,CXL 兼顾扩容与分层
KV Cache(键值缓存)是 Transformer 自注意力机制的关键优化手段,通过缓存历史 Token 对应的 Key 与 Value 矩阵,避免推理阶段的重复计算。在 LLM 生成文本时,每 步需与前文所有 Token 做注意力交互,若每次重算 Key/Value,会浪费较多算力开销; KV Cache 将推理复杂度从 O(N2)下降至 O(N),显著降低延迟与算力消耗,是支撑 大模型高效实时交互、规模化部署的核心技术之一。
尽管简化了推理复杂度,但 KV Cache 是大模型推理中内存占用的核心增量来源。首 Token 生成阶段需初始化缓存,使内存从模型权重水平跳升至峰值;后续生成阶段,缓 存随上下文长度线性扩张,持续推高内存需求;生成结束后缓存释放,内存快速回落。 KV Cache 占用空间随上下文长度线性扩张,同时在批处理场景下会被进一步放大,从 而显著拉高了 LLM 推理时的存储需求。
随着大模型对算力与存储需求的持续攀升,AI 服务器的内存容量正呈现远超传统服务 器的扩张态势。2020 至 2025 年,虚拟化、数据库等传统服务器的典型内存容量仅实现 约 1 倍增长(虚拟化从 128-256GB 提升至 256-512GB,数据库从 256-512GB 提升至 512GB-1TB);而 AI 训练节点的典型内存从 512GB 跃升至 1-4TB,人工智能推理集群 从 256GB 提升至 512GB-2TB,增长幅度达 2-8 倍。未来伴随 AI 模型规模的提升,对 数据吞吐量的需求会进一步扩张,单服务器存储规模持续攀升。
在 AI 大模型推理与训练对内存容量的需求持续攀升的背景下,以戴尔代表性 AI 服务 器产品线为例,其内存硬件规格呈现出 “速率迭代、插槽恒定” 的显著特征。从 2021 年发布的 15 代 XE8545、R750xa,到 2025 年推出的 17 代 R770xa、XE9780,戴尔 服务器内存规格已完成从 DDR4 3200MT/s 到 DDR5 6400MT/s 的多轮迭代升级,但内 存插槽数量始终固定为 32 个。这一现象核心受制于 CPU 内存通道数的硬件瓶颈,也印 证了在传统 DDR 架构下,单纯依靠自有插槽越来越难以匹配 AI 场景的容量需求,这成 为推动 CXL 等内存扩展技术加速落地的核心产业动因。
此外,受限于 HBM 高成本与容量约束,大模型推理阶段的 KV Cache 无法全部存储在 HBM 中,部分冷数据需向低速存储卸载。英伟达通过构建 “GPU HBM-主机内存-存 储”的 分层体系,将 KV Cache 冷数据从 HBM 逐级卸载至低速存储,实现推理上下文 的分级管理;而更通用的 CXL 方案则在 DDR 内存热数据与 SSD 冷数据间增设温数据 层,凭借缓存一致性与低延迟优势,以及内存池化和共享能力,未来 CXL 方案或成为 KV Cache 卸载的更优解。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)