1.1 AI 时代全球数据总量快速攀升
受 AI 技术应用驱动,全球数据总量高速增长。随着 AI 技术持续得到广泛应用,数据正逐步成为 核心生产要素,个人和企业应用的数据量有望持续高速成长。根据华为发布的《数据存储 2030》 数据,2030 年全球年产生数据将达 1003ZB,较 2020 年增长 23 倍。

1.2 AI 大模型的应用推动活跃数据占比提升
AI 大模型的应用有望推动活跃数据占比提升。在传统数据存储内容中,大量数据访问频数低、应 用不足。一方面,传统上众多数据仅被用于归档,在归档后便鲜有应用需要访问它们;另一方面, 难以被充分利用的数据通常是非结构化或半结构化数据,因其处理难度高、价值密度低而长期被 边缘化。而 AI 大模型的应用则有望使得活跃数据占比提升。一方面,AI 大模型的推理过程中需要 应用大量存量数据,通过高频次地访问存量数据,来实现内容生成。另一方面,AI 模型的应用可 以有效降低数据利用的门槛,例如从非结构化数据中挖掘数据洞察。整体来看,AI 大模型的应用 有望推动活跃数据占比提升,大量沉睡的数据有望被唤醒。 RAG 助力 AI 生产内容质量提升,有望进一步提升活跃数据占比。大型语言模型在虚拟助手、聊 天机器人和对话系统等应用中发挥着重要作用,但其可能会生成虚假或误导性的信息。为了解决 这一问题,检索增强生成(RAG)技术有望获得广泛应用。RAG 技术允许 LLM 从知识库提取相 关信息,以验证和支撑其输出内容的真实性,提高模型生成文本的事实准确性和时效性。构建 RAG 数据库需要企业将大量数据转化至向量数据库,向量数据库的规模通常会变为原始数据的数 倍甚至十倍以上,且针对于该类数据的近似性查询属于极为密集的随机读操作,有望提升对活跃 数据存储的需求。目前,恺侠等领先的存储厂商正在加速推动 RAG 强化性能,提高应用能力。
AI 推理过程中的 KV 缓存带来对活跃数据存储的需求。大语言模型推理过程中会使用 KV 缓存来 加速推理过程,其本质是缓存中间计算结果,避免重复计算,从而降低推理的计算量和延迟。随 着 AI 应用中对话或生成文本变长,KV 缓存会急剧增大从而大幅消耗 HBM 或 DRAM 容量,此时 可能需要采用分层缓存机制,将 KV 缓存卸载到 SSD 上进行存储。而需要访问被卸载的 KV 缓存 时,需要从 SSD 将其重新加载到 DRAM 或 HBM,带来较为频繁的读写流程。未来,随着 AI 应 用不断拓展,KV 缓存的数据量持续增大,活跃数据的存储需求将进一步扩大。

RAG 和 KV 缓存均有望分别带来百 EB 级别的存储需求增量。(1)KV 缓存:根据 Memblaze 官 网的测算,以 LLaMA2-70B 模型为例,有 80 个 Transformer 层,每个层有 64 个注意力中心,每 个 128 维。按照 FP16精度,每个 tokens 的 KV缓存大约占用 2.6MB。如果按模型需要应用 8,192tokens 以及各模型应用合计需服务 60 亿用户计算,对存储容量的需求可能达到 120EB。(2) RAG:若按照各类知识库应用月活 10 亿人,单用户每月上传 1GB 数据,同时考虑数据上传后需 要进行的向量化操作以及容灾备份等数据中心运营操作带来的数据增量,RAG 对存储容量的需求 也可能达到 100EB 以上。 展望未来,若用户交互形式从文字进一步向语音、视频等多模态方向升级,与之配套的 RAG、 KV 缓存均有望带来更为庞大的存储需求。
AI 大模型的应用推动温、热数据占比提升。按照数据访问频率来分类,数据可以被划分为访问频 率依次递减的热、温、冷三类。根据华为发布的《数据存储 2030》白皮书,随着 AI 大模型应用 激活大量冷数据,使其转化为“活跃数据”,到 2030 年热数据容量较 2020 年增长 35 倍以上, 占总存储量的 30%。过去热、温、冷三层数据 20%:30%:50%的比例有望演化为热、温冷两层数 据 30%:70%的比例,迎来“数据觉醒”。
2.1 SSD 读写速度快、适应高工作负载,满足活跃数据读写 需求
数据中心使用的硬盘包括 HDD 和 SSD,目前 HDD 是冷数据存储的主要介质。在大型数据中心部 署中,AI 相关数据在使用和创建的循环中流动,工作流程的每个阶段都需要不同组合的存储设备。 在传统数据中心储存分层架构中,HDD(机械硬盘)能够长期保存原始数据并提供数据保护,凭 借每单位储存容量的极低成本优势,稳居冷数据主流储存方案。而读写效率更高的企业级 SSD (企业级固态硬盘)则充当可即时访问的数据层。
HDD 数据读写依赖机械运动,SSD 则基于 NAND 闪存芯片存储数据。HDD 依赖磁头在高速旋转 的盘片(通常为 5400/7200 RPM)上进行数据读写,核心组件包括盘片、磁头、电机和轴承。其 工作原理类似黑胶唱片,通过电磁流改变盘片磁性表面极性存储数据,物理结构复杂,存在机械 运动部件。而 SSD 基于闪存芯片(如 NAND)存储数据,通过电荷控制实现电子信号读写,无机 械部件,完全电子化,抗震性强,体积更小。

与 HDD 相比,SSD 读写速度优势明显。传统机械硬盘运行较为稳定,但因其机械结构存在性能 瓶颈,导致现阶段机械硬盘的读取速度大多数处于 100MB/S-300MB/S 之间,提速空间小。而固 态硬盘的数据直接存储在闪存颗粒中,在读写速度上有着明显的优势。 以 Seagate 的 Exos X18 企业级硬盘为例:该系列产品涵盖了 14TB、16TB 和 18TB 三种容量, 并提供了 SATA 6Gb/秒和 12Gb/秒 SAS 两种接口选项。性能数据显示,其最大持续数据传输率约 为每秒 270MB。
SSD 的读写速度显著更高。以 Kingston 两款企业级 SSD 为例,SATA SSD 连续读写速度最高约 为 560MB/s,随机 4K 读写速度在数万 IOPS 量级。而 NVMe SSD 连续读取速度可高达 14,000MB/s,连续写入速度可达 10,000MB/s,随机 4K 读写速度则达到百万 IOPS。
在较高的工作负载中,SSD 的耐久性远超 HDD。驱动器耐久性通常以驱动器每天写入次数 (DWPD)或写入的总字节数(如写入的 PB(PBW))来衡量。根据 Solidigm 基于 PBW 的研究,将大容量 QLC NAND SSD 与更广泛的 SSD 和 HDD 进行比较, Solidigm SSD D5-P5316 和 D5-P5336 为 QLC NAND SSD 提供了行业领先的耐用性水平,同时远远超过了 HDD 的耐用性水 平,体现出 SSD 在可靠性级别方面的巨大优势。
SSD 存储密度呈不断上升趋势,有望更加适应 AI 数据中心对存储容量的需求。相比 SSD,HDD 最大的优势在于单位储存容量的成本较低。而未来,NAND 有望随技术升级实现更高的单位存储 容量,其技术发展方向包括增加堆叠层数和每单元存储更多位数等。NAND 的存储密度提升将带 动 SSD 存储密度呈上升趋势,单位储存容量的成本降低,更加适应 AI 数据中心对存储容量的需 求。
2.2 SSD 在功耗上优势明显,适应数据中心功耗需求
从通算到智算,高压、高效成为重要趋势。根据华为 AI DC 白皮书,通算中心的单机柜功率从之 前 5~8kW 区间增加至智算中心(AIDC)的 20-50kW 甚至 100kW 以上。而根据英伟达的技术路线 图,随着 GPU 的迭代升级,英伟达 GPU 机柜功率持续提升,预期到 2027 年 Kyber 代单机柜功 率将达到 1MW 以上。随着机柜功耗及用电量提升的同时,AIDC 能量密度也需要持续提升,高压、 高效成为重要趋势。
在构建数据中心时,SSD 的功耗表现优于 HDD。从工作原理上看,相对 HDD 使用机械运动作为 存储的方式,SSD 通过电荷控制实现电子信号读写,在相同工况下功耗具有先天优势。Solidigm 研究团队对一个总功率为 100 兆瓦的数据中心内所支持的全部基础设施进行了测算,并重点对数 据存储设备在总功耗中所占比例进行了详细拆解分析。研究结果表明 QLC 固态硬盘在每级容量 点均展现出较 TLC 固态硬盘和机械硬盘配置更优的能效表现。此外,随着存储容量的提升,QLC 的能效优势呈现扩大趋势。相较于 TLC 固态硬盘,当容量从 1PB 扩展至 10PB 时,QLC 的能效 优势区间从 3.3% 逐步提升至 19.5%。而与机械硬盘混合存储环境相比,其优势更为显著:在低 容量层级可实现 32.9% 的能效提升,至高容量层级时优势幅度进一步扩大至 79.5%。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)