2026年电子设备、仪器和元件行业“智存新纪元”系列之一：CXL，互联筑池化，破局内存墙

长江证券2026/03/13
举报

CXL：互联新协议，池化技术实现存算解耦

正如 AI 大模型的训练需要 AI 芯片算力与光模块、PCB 等环节的运力同步提升一样，存储作为存放数据并与 CPU、GPU 等芯片实现数据交互的重要一环，其容量和传输速率的性能表现直接影响 CPU 和 GPU 的计算效率。但根据 Synopsys 研究，过去较长时间 CPU 性能的发展速度远高于存储，由此造成的存算不匹配很大程度制约处理器的计算能力。尤其在 AI 时代，当数据吞吐量呈现指数级攀升的趋势时，存储芯片的容量和带宽升级的迫切程度达到前所未有的高度。

内存带宽：通道数增长逐步放缓，PCIe 另辟蹊径

CPU 的通道数量是扩展内存容量及带宽的重要指标。衡量内存性能的两大重要参数即为容量与带宽： 1）容量：直观上受插槽数量与单根内存条的容量影响，但每个内存通道最多有两个插槽，因此实际上的制约为内存通道数； 2）带宽：主要由内存通道数、有效频率以及位宽决定，其中位宽为固定值，有效频率随 DRAM 的代际迭代而提升。

复盘历史，CPU 通道数发展渐趋迟缓。从 2010 至 2023 年的演进数据看，CPU 内存通道数量的发展节奏逐步放缓：2011、2017、2021、2023 年虽实现通道扩容，但后续新增通道的频次与幅度显著收窄，未来规划中通道数已无进一步提升。与此同时，单 CPU 核心分配的内存带宽呈现波动下行态势，2020 年后长期维持在 3.2~3.3GB/s 的低位，即便 2023 年通道扩容，单核心带宽也仅短暂回升，未来预计再度回落。

PCIe 插槽应用场景已发生显著迭代，传统阶段该接口多用于网卡、声卡等外设，当前则广泛兼容存储类设备，实现了内存通道的变相扩容。作为双向串行总线，PCIe 虽传输效率不及 CPU 与内存的直连通道，但技术升级持续推进，PCIe6.0 传输速率已达 64GT/s，成为内存扩展体系的关键补充。

异构计算背景下，内存共享的重要性凸显。传统 PCIe 总线架构下，GPU 仅可直接访问本地显存资源，若需访问系统主存，必须经由 CPU 中转调度与协议转换，该机制带来显著的数据拷贝开销与传输延迟，直接降低数据交互效率。在 AI 训练推理、高性能计算等异构计算场景快速普及的背景下，PCIe 总线的带宽瓶颈与 CPU 中转损耗被进一步放大，成为制约算力调度效率与资源利用率的核心瓶颈。从架构优化方向看，实现 CPU、 GPU 及各类异构计算终端的内存资源共享，构建统一寻址、直接访问的内存空间，是破解该瓶颈的理想解决方案，CXL 应运而生。

CXL：以 PCIe 总线为物理基础，实现内存共享

CXL 协议与 PCIe 物理层架构完全一致，可直接复用现有硬件链路，具备良好生态兼容性。其在物理层之上定义三大核心子协议： 1）CXL.io：继承 PCIe 基础 I/O 功能，保障设备互联互通； 2）CXL.cache：允许设备缓存主机内存的数据，且各设备与主机缓存是一致的； 3）CXL.mem：支持内存资源直接共享与统一寻址，即要求 CXL 连接设备对主机开放内存空间。

基于三个子协议，CXL 下游的应用场景主要包含三大方向： 1）适用于自身不包含内存的专用加速卡，例如 NIC。加速卡可通过 CXL.io 和 CXL.cache 协议实现对主机内存的访问并计算； 2）适用于含有本地内存的加速卡，例如 GPU。通过 CXL.io、CXL.cache 和 CXL.mem， GPU 可实现与 CPU 之间内存的双向访问，极大提高内存传输效率； 3）适用于内存扩展卡，此时 CXL 所连的设备通常为大容量存储，且允许主机以及其他通过 CXL 相连的设备访问扩展内存，由此形成“共享内存池”。基于三大应用场景，CXL 是 PCIe 物理层基础上的全新升级，不仅可较大扩展主机设备的内存容量，还支持不同计算设备，如 CPU、GPU、FPGA 等，互相访问内存。此时内存不再与单个设备绑定，而是供所有计算卡共享，存算解耦推进数据传输速率与效率实现巨大提升。

整体来看，由于 CXL 与 PCIe 共用同一物理层，其传输速率随 PCIe 技术的迭代实现同步升级。在此基础上，CXL 代际升级呈现“速率提升与协议能力并重”的核心特点：早期版本聚焦基础互联与生态完善，中期版本推动内存解耦与资源池化，后期版本则向大规模 Fabric 扩展与安全合规演进，逐步构建覆盖单节点到数据中心级的统一互联架构。

从生态角度来看，CXL 联盟由 CPU、GPU、互联网及服务器领域多家龙头企业联合发起，核心成员覆盖英特尔、AMD、英伟达等算力芯片巨头，谷歌、Meta 等云厂商以及戴尔、HPE 等服务器整机厂，实现了异构计算产业链全环节核心玩家的深度绑定，生态根基极为稳固。依托联盟的产业协同优势，CXL 技术推进速度迅猛，自 2019 年首版规范发布以来，已快速迭代至 3.1 版本，2025 年 4.0 版本亦进入规划落地阶段，代际更新周期短，商业化落地节奏显著领先于传统互联协议。在目前数据爆炸+异构计算的时代背景下，CXL 既是现在，亦是未来。

AI 时代的 CXL：容量扩展与存储分级

用途：KV Cache 拉动存储需求，CXL 兼顾扩容与分层

KV Cache（键值缓存）是 Transformer 自注意力机制的关键优化手段，通过缓存历史 Token 对应的 Key 与 Value 矩阵，避免推理阶段的重复计算。在 LLM 生成文本时，每步需与前文所有 Token 做注意力交互，若每次重算 Key/Value，会浪费较多算力开销； KV Cache 将推理复杂度从 O（N2）下降至 O（N），显著降低延迟与算力消耗，是支撑大模型高效实时交互、规模化部署的核心技术之一。

尽管简化了推理复杂度，但 KV Cache 是大模型推理中内存占用的核心增量来源。首 Token 生成阶段需初始化缓存，使内存从模型权重水平跳升至峰值；后续生成阶段，缓存随上下文长度线性扩张，持续推高内存需求；生成结束后缓存释放，内存快速回落。 KV Cache 占用空间随上下文长度线性扩张，同时在批处理场景下会被进一步放大，从而显著拉高了 LLM 推理时的存储需求。

随着大模型对算力与存储需求的持续攀升，AI 服务器的内存容量正呈现远超传统服务器的扩张态势。2020 至 2025 年，虚拟化、数据库等传统服务器的典型内存容量仅实现约 1 倍增长（虚拟化从 128-256GB 提升至 256-512GB，数据库从 256-512GB 提升至 512GB-1TB）；而 AI 训练节点的典型内存从 512GB 跃升至 1-4TB，人工智能推理集群从 256GB 提升至 512GB-2TB，增长幅度达 2-8 倍。未来伴随 AI 模型规模的提升，对数据吞吐量的需求会进一步扩张，单服务器存储规模持续攀升。

在 AI 大模型推理与训练对内存容量的需求持续攀升的背景下，以戴尔代表性 AI 服务器产品线为例，其内存硬件规格呈现出 “速率迭代、插槽恒定” 的显著特征。从 2021 年发布的 15 代 XE8545、R750xa，到 2025 年推出的 17 代 R770xa、XE9780，戴尔服务器内存规格已完成从 DDR4 3200MT/s 到 DDR5 6400MT/s 的多轮迭代升级，但内存插槽数量始终固定为 32 个。这一现象核心受制于 CPU 内存通道数的硬件瓶颈，也印证了在传统 DDR 架构下，单纯依靠自有插槽越来越难以匹配 AI 场景的容量需求，这成为推动 CXL 等内存扩展技术加速落地的核心产业动因。

此外，受限于 HBM 高成本与容量约束，大模型推理阶段的 KV Cache 无法全部存储在 HBM 中，部分冷数据需向低速存储卸载。英伟达通过构建 “GPU HBM-主机内存-存储”的分层体系，将 KV Cache 冷数据从 HBM 逐级卸载至低速存储，实现推理上下文的分级管理；而更通用的 CXL 方案则在 DDR 内存热数据与 SSD 冷数据间增设温数据层，凭借缓存一致性与低延迟优势，以及内存池化和共享能力，未来 CXL 方案或成为 KV Cache 卸载的更优解。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）