2026年计算机行业：NV Rubin新架构&Agent存储最强方向，GPU Native数据库

东吴证券2026/01/19
举报

硬件变化：GPU成为存储架构的主宰

颠覆CPU主导时代，GPU全面接管存储IO

AI推理与训练的IO需求差距很大。 AI训练：依赖海量数据的批量传输，单轮数据块尺寸通常在MB级以上，控制路径的延迟占比极低。 AI推理：LLM推理的KV缓存访问粒度仅8KB-4MB，向量数据库检索、推荐系统的特征读取低至64B-8KB，但需要支持数千条并行线程的并发请求。LLM推理的存储需求已突破10TB级，向量数据库和推荐系统的存储规模达到1TB-1PB，这种“小块高频大容量”的访问模式，让传统存储架构不堪重负。

以CPU为中心的数据加载架构已成为GenAI工作负载的瓶颈

AI工作负载的极端并行需求：为了充分利用现代硬件（如PCIe Gen6）来处理AI（如RAG）的512B小I/O，系统必须维持一个高达20,000+的队列深度(Qd)。 GPU并非瓶颈： GPU的并行架构有能力发出如此海量的并发I/O请求。真正的瓶颈是CPU软件栈：问题的根源在于传统的、由CPU驱动的软件栈。这个软件栈习惯于"串行化" (serialize) 或"批处理"(batch) I/O，这会人为地压低系统实际的队列深度 (Qd)。

GPU地位提升，实现控制权的反转

GPU成为“编排器”，取代CPU成为数据访问的控制中心。CPU被“降级”，仅负责辅助性的“内务管理”(house keeping)。数据访问模式从CPU“推送” (push) 数据块，转变为GPU“拉取” (pull) 数据。GPU只在计算需要时才“按需”(on-demand)从一个统一的分层存储池中抓取它需要的数据。

关键技术实现

通过硬件GPU直连SSD和SCADA软件架构实现GPU地位的提升：GPU直连SSD允许GPU绕过CPU和系统内存，直接、高效地从固态硬盘读取和写入数据，是通过NVMe-of、RDMA、GPUDirect Storage等技术协议实现的一条优化的直接数据通路。 SCADA是一个用于解决AI I/O瓶颈的、可扩展的、生产级的软件架构。通过两个关键技术解决了“CPU软件栈”瓶颈： 1）服务器端：使用 uNVMe (用户态驱动) 绕过内核，实现极致的IOPS。 2）客户端：GPU应用线程成为数据请求的发起者。传输中：“数据路径"协议（可能基于RDMA和GPUDirect）允许数据从服务器存储直接流向GPU显存，最小化CPU负载和延迟。 GPU地位的提升。这个架构实现了“GPU作为I/O编排器”的愿景。GPU应用线程（通过SCADA Client）发起请求，数据（通过DataPath）直接流入GPU，CPU在数据流中被彻底旁路。

硬件方面产业进展

HBF新型存储是未来。2025年8月，被业界誉为"HBM之父"的韩国科学技术院（KAIST）教授金正浩提出“AI时代的力量平衡正从GPU向存储领域转移。在人工智能时代存储器件将扮演日益关键的角色，甚至英伟达未来可能收购存储企业。高带宽闪存（HBF）预计将在2026年初取得突破，并于2027至2028年间正式亮相。”

2025年8月，闪迪与SK海力士签署谅解备忘录，共同制定HBF技术规范并推动标准化进程。双方目标在2026下半年发布HBF样品，首批搭载HBF的AI推理系统预计于2027年初面世。在10月中旬举办的2025 OCP全球峰会上，SK海力士首次展示了搭载HBF技术的"AINB系列"存储产品。

铠侠将与英伟达合作，推出直连 GPU 进行数据交换的SSD 。2025年9月2日铠侠SSD应用技术部门首席工程师福田浩一表示，“将按照英伟达的建议和要求进行开发”。迄今为止，SSD一般通过CPU（中央处理器）与GPU连接。铠侠将与英伟达合作，开发可直接连接到GPU并进行数据交换的SSD。英伟达表示，与GPU连接的SSD需要达到2亿IOPS，将以2个SSD应对这一需求。计划支持被称为PCIe（PCIExpress）的SSD接口的下下代标准“PCIe 7.0”。

软件变化：GPU-Native的数据库

核心组件层面升级改造

存储引擎的革新。传统的、基于系统内存(DRAM)的缓冲池(Buffer Pool)管理机制效率降低。新的缓存管理器需要直接管理GPU显存和直连 SSD 之间的数据流动。

数据布局优化。为匹配GPU的SIMD(单指令多数据)架构，数据在SSD上可能更倾向采用纯列式或混合式存储格式，并原生支持ApacheArrow等零拷贝内存格式，方便GPU直接消费。

查询执行引擎的重构。 1) 算子的GPU原生实现:扫描(Scan)、连接(Join)、聚合(Aggregation)、排序(Sort)等核心算子需要深度重写为GPU内核，并能直接从SSD流式消费数据。 2)异步、流水线执行:查询计划被组织成高效的GPU内核流水线，当前步骤在GPU计算时，下一步所需的数据已通过直连路径在后台从SSD预取，实现计算与/O的完全重叠。

查询优化器的挑战。成本模型剧变:传统的基于CPU周期和磁盘寻址的代价模型失效。新模型需纳入 GPU计算核心占用率、HBM与SSD间的带宽、PCle传输延迟等新因素。

数据本地性优化。优化器在生成执行计划时，必须优先考虑数据在 GPU显存、直连SSD、网络存储中的位置，尽量将计算调度到离数据最近的处理器上。

软件方面

Hammerspace已经通过更快更可扩展的元数据读取功能以及在GPU服务器直连存储驱动器中的更优数据放置策略，加速了其数据编排平台软件的性能表现。

Cloudian HyperStore：通过RDMA over S3技术，实现对象存储与GPU内存的直接数据传输，使基于S3接口的向量数据库性能提升8倍。

Databricks有跳过CPU，直接让GPU访问普通SSD的产品Delta Cache，收费高达0.55美元/分钟/GB，7%的使用时间，1年1T收费2000万美元。价格是传统数据库的4倍，AI推理效率也是4倍。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）