颠覆CPU主导时代,GPU全面接管存储IO
AI推理与训练的IO需求差距很大。 AI训练:依赖海量数据的批量传输,单轮数据块尺寸通常在MB级以上,控制路径的延迟占比极低。 AI推理:LLM推理的KV缓存访问粒度仅8KB-4MB,向量数据库检索、推荐系统的特征读取低至64B-8KB,但需要支持数千条并行线程的并发请求。LLM推理的存储需求已突破10TB级,向量数据库和推荐系统的存储规模达到1TB-1PB,这种“小块高频大容量”的访问模式,让传统存储架构不堪重负。
以CPU为中心的数据加载架构已成为GenAI工作负载的瓶颈
AI工作负载的极端并行需求: 为了充分利用现代硬件(如PCIe Gen6)来处理AI(如RAG)的512B小I/O,系统必须维持一个高达20,000+的队列深度(Qd)。 GPU并非瓶颈: GPU的并行架构有能力发出如此海量的并发I/O请求。 真正的瓶颈是CPU软件栈: 问题的根源在于传统的、由CPU驱动的软件栈。这个软件栈习惯于"串行化" (serialize) 或"批处理"(batch) I/O,这会人为地压低系统实际的队列深度 (Qd)。
GPU地位提升,实现控制权的反转
GPU成为“编排器”,取代CPU成为数据访问的控制中心。CPU被“降级”,仅负责辅助性的“内务管理”(house keeping)。 数据访问模式从CPU“推送” (push) 数据块,转变为GPU“拉取” (pull) 数据。GPU只在计算需要时才“按需”(on-demand)从一个统一的分层存储池中抓取它需要的数据。
关键技术实现
通过硬件GPU直连SSD和SCADA软件架构实现GPU地位的提升:GPU直连SSD允许GPU绕过CPU和系统内存,直接、高效地从固态硬盘读取和写入数据,是通过NVMe-of、RDMA、GPUDirect Storage等技术协议实现的一条优化的直接数据通路。 SCADA是一个用于解决AI I/O瓶颈的、可扩展的、生产级的软件架构。通过两个关键技术解决了“CPU软件栈”瓶颈: 1)服务器端:使用 uNVMe (用户态驱动) 绕过内核,实现极致的IOPS。 2)客户端:GPU应用线程成为数据请求的发起者。传输中:“数据路径"协议(可能基于RDMA和GPUDirect)允许数据从服务器存储直接流向GPU显存,最小化CPU负载和延迟。 GPU地位的提升。这个架构实现了“GPU作为I/O编排器”的愿景。GPU应用线程(通过SCADA Client)发起请求,数据(通过DataPath)直接流入GPU,CPU在数据流中被彻底旁路。
硬件方面产业进展
HBF新型存储是未来。2025年8月,被业界誉为"HBM之父"的韩国科学技术院(KAIST)教授金正浩提出“AI时代的力量平衡正从GPU向存储领域转移。在人工智能时代存储器件将扮演日益关键的角色,甚至英伟达未来可能收购存储企业。高带宽闪存(HBF)预计将在2026年初取得突破,并于2027至2028年间正式亮相。”
2025年8月,闪迪与SK海力士签署谅解备忘录,共同制定HBF技术规范并推动标准化进程。双方目标在2026下半年发布HBF样品,首批搭载HBF的AI推理系统预计于2027年初面世。在10月中旬举办的2025 OCP全球峰会上,SK海力士首次展示了搭载HBF技术的"AINB系列"存储产品。
铠侠将与英伟达合作,推出直连 GPU 进行数据交换的SSD 。2025年9月2日铠侠SSD应用技术部门首席工程师福田浩一表示,“将按照英伟达的建议和要求进行开发”。 迄今为止,SSD一般通过CPU(中央处理器)与GPU连接。铠侠将与英伟达合作,开发可直接连接到GPU并进行数据交换的SSD。英伟达表示,与GPU连接的SSD需要达到2亿IOPS,将以2个SSD应对这一需求。计划支持被称为PCIe(PCIExpress)的SSD接口的下下代标准“PCIe 7.0”。
核心组件层面升级改造
存储引擎的革新。传统的、基于系统内存(DRAM)的缓冲池(Buffer Pool)管理机制效率降低。新的缓存管理器需要直接管理GPU显存和直连 SSD 之间的数据流动。
数据布局优化。为匹配GPU的SIMD(单指令多数据)架构,数据在SSD上可能更倾向采用纯列式或混合式存储格式,并原生支持ApacheArrow等零拷贝内存格式,方便GPU直接消费。
查询执行引擎的重构。 1) 算子的GPU原生实现:扫描(Scan)、连接(Join)、聚合(Aggregation)、排序(Sort)等核心算子需要深度重写为GPU内核,并能直接从SSD流式消费数据。 2)异步、流水线执行:查询计划被组织成高效的GPU内核流水线,当前步骤在GPU计算时,下一步所需的数据已通过直连路径在后台从SSD预取,实现计算与/O的完全重叠。
查询优化器的挑战。成本模型剧变:传统的基于CPU周期和磁盘寻址的代价模型失效。新模型需纳入 GPU计算核心占用率、HBM与SSD间的带宽、PCle传输延迟等新因素。
数据本地性优化。优化器在生成执行计划时,必须优先考虑数据在 GPU显存、直连SSD、网络存储中的位置,尽量将计算调度到离数据最近的处理器上。
软件方面
Hammerspace已经通过更快更可扩展的元数据读取功能以及在GPU服务器直连存储驱动器中的更优数据放置策略,加速了其数据编排平台软件的性能表现。
Cloudian HyperStore:通过RDMA over S3技术,实现对象存储与GPU内存的直接数据传输,使基于S3接口的向量数据库性能提升8倍。
Databricks有跳过CPU,直接让GPU访问普通SSD的产品Delta Cache,收费高达0.55美元/分钟/GB,7%的使用时间,1年1T收费2000万美元。价格是传统数据库的4倍,AI推理效率也是4倍。



(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)