对于满足AIGC高性能需求的同时提升存储系统的能效比并降低能耗成本这一问题,各存储厂商纷纷出台了 相应的解决方案。
1.1 数据绿色存储愈发成为关注的焦点
随着AIGC产业的大力发展,各地方政府也在积极推进大型智算中心的构建,例如北京、深圳、上海等地已 经出台了多种布局算力基础设施的实施方案。目前,国内单个智算中心的存储规模均在EB级,智算中心的规模 和数量不断扩大,带来了存储的能耗的快速上升。相关数据显示,2023年,全国数据中心耗电量达到2700亿千 瓦时,占社会总用电量的3%。而智算中心引入了更多的算力相关设备,其耗电量将远高于同等规模的数据中 心。根据斯坦福人工智能研究院发布的《2023年人工智能指数报告》显示,GPT-3单次训练耗电量就已高达 1287兆瓦时,智算中心内绿色能源使用占比超过 20%,液冷机柜数量占比超过 50%,存储能耗中80%以上来自 于存储介质。目前主流的存储介质主要包括HDD磁盘和SSD磁盘。其中HDD磁盘功耗大约在6W以上,而SSD磁 盘在静态无负荷条件下,功耗仅大约在0.05W到1.2W之间。然而,由于SSD单盘价格相对较高,且在相同容量 下,需要更多数量的HDD,直接导致存储的总能耗大幅上升,严重阻碍国内“碳达峰&碳中和”的进展。
对于满足AIGC高性能需求的同时提升存储系统的能效比并降低能耗成本这一问题,各存储厂商纷纷出台了 相应的解决方案。比较典型的有以下几种,一是采用能耗更低的全闪存存储(All-Flash Storage, AFS)和混闪 存存储方案。全闪存存储利用固态硬盘(SSD)的高速读写能力,提供极低的延迟和高吞吐量,非常适合AIGC 应用中的实时数据处理需求。混闪存存储则结合了SSD和传统硬盘驱动器(HDD),通过智能数据分层技术, 将最活跃的数据存储在SSD上,而将较少访问的数据存储在HDD上,从而在性能和成本之间取得平衡。二是智 能数据管理策略。这些策略包括自动数据分层,它根据数据访问的频率和模式,动态地将数据在不同存储层之 间迁移。通过冷数据归档技术将不常访问的数据移动到更节能的存储介质上,减少对高性能存储资源的需求, 减少不必要的数据存储和访问。此外,还有在数据中心的存储中实施数据去重和压缩技术,减少存储需求以及 利用软件定义存储和存储虚拟化技术提高资源利用率等技术。这些绿色存储技术的实施有助于提高存储系统的 能效,降低企业存储成本,为未来存储技术的发展提供了新的思路。
1.2 数据安全存储的重要性日益凸显
随着AIGC在各领域的广泛应用,数据已成为越来越重要的资产。目前来看,AIGC场景下性能成为厂商和用 户关注的焦点,严重缺乏对数据的严格监管和风险识别,尤其是在医疗、金融、法律等非公开的数据方面,由 于缺乏数据安全防护,在各类恶意攻击下,数据信息被严重泄露,制约AIGC应用的发展。
在模型攻击中,攻击者可通过逆向工程或者对抗攻击,窃取模型训练采用的隐私数据。在数据迁移或数据 处理中,攻击者篡改训练数据内个人原始信息,操控模型生成意向。例如,攻击者可在金融大模型中篡改贷款 用户的贷款历史和信誉度信息,从而降低各类人群的贷款信誉度。 存储作为数据的载体,除了考虑性能和管理,也需要制定安全等级,全方位识别数据风险和数据安全问 题,从数据移动过程中涉及的存储区域、存储介质、软件栈进行全面数据加密和权限认证,防止AIGC各个阶段 的数据篡改和恶意提取。
2.1 AIGC催生新一代数据存储架构
就目前现有的存储架构来看,主要有集中式存储、分布式存储、超融合存储及云存储四类。由于都是面向 特定场景的专有设计,各类存储架构都有其独特的特点。相比之下,分布式存储展现出来的大容量、可扩展、 高性能及高可靠等特点极大地满足了AIGC场景中对数据存储的复杂需求。未来随着存储技术的不断进步,分布 式存储将展现出强大的生命力,并在原有架构基础上向新的存储架构持续演进。
新的存储架构总体设计思路是面向综合负载场景,基于模块化、服务化、平台化的分布式设计理念,构建 超大规模分布式融合智能存储平台,提供均衡存储能力。新型存储架构可以概括为三层空间视图、三面功能视 图、两体逻辑视图的可组合架构。其中,三面功能视图主要是用来强化功能的分类,包括控制面、数据面和智 能面;三层空间视图是新存储架构的逻辑视图,包含开放使能层、微服务化功能层和硬件资源层;两体逻辑视 图是新存储架构的空间试图,描述存储的构成和布局,包括存储平台本体和管理编排体。在三层空间视图中, 开放使能层实现数据与存储系统解耦,建立数据流通技术规范,驱动数据跨应用、跨系统、跨云共享;在微服 务化功能层实现软件解耦,使能按需融合资源、组合多样存储服务;在硬件资源层使设备解耦硬件模块化,基 于新型互联网络与协议定义节点,实现存算资源按需弹性组合。
分布式融合智能存储平台实现了以数据为中心,围绕数据容纳、处理、安全、流动、共享和管理构筑多维 均衡能力,按需组合硬件与软件,定义多样形态存储平台服务,提供数据访问与管理调度的一体化视图,满足 AIGC全场景综合负载需求。另外,存储介质方面,闪存将从三位存储TLC,过渡到四位存储QLC,每单位GB的 成本在逐渐降低,容量大幅提升。QLC SSD凭借高性能、低功耗、高密度等优势,将在读密集型场景中成为主流 存储介质。同时,高带宽内存HBM、CXL、DPU等存储技术也在持续发展。软件方面,存储将更加面向应用场 景,提供丰富的数据管理服务和高效的数据卸载功能。新一代存储架构将围绕着更低成本、更高性能、更低能 效、更大容量、更丰富的管理、更快速的运维的方向持续演进。
2.2 AIGC加速数据存储产业快速增长
随着AIGC技术在内容创作、数据分析、个性化推荐等领域的广泛应用,数据量呈指数级增长,这直接推动 了对高效、大容量存储解决方案的需求。存储产业因此迎来了前所未有的发展机遇。 首先,AIGC作业流程中需要处理和分析大量数据,这要求存储设备必须具备高速读写能力,以确保数据处 理的实时性和效率。固态硬盘(SSD)因其快速、可靠的特性,成为满足这一需求的理想选择。随着AIGC市场 的扩大,对SSD等高性能存储设备的需求也将随之增长。其次,AIGC技术的广泛应用也促进了存储技术的创 新。为了满足AIGC对存储性能的高要求,存储企业需要不断研发新型存储介质和架构,如3D NAND技术、新型 存储控制器等,以提升存储密度和性能。然后,AIGC市场的增长还带动了存储产业链上下游的协同发展。上游 的存储介质和芯片制造商需要与下游的存储设备制造商、系统集成商紧密合作,共同开发出更符合市场需求的 存储解决方案。这种协同效应有助于整个存储产业链的技术进步和成本优化。最后,AIGC市场的快速发展也对 存储人才提出了更高要求。既要求具备深厚的专业知识和技能,能够不断推动存储技术的研发和创新,还要能 够敏锐地捕捉到市场和技术的发展趋势,为产业升级和转型提供有力的支持。高素质和高专业素养人才的引入 为企业持续发展注入了不竭动力,如此形成良性循环,加速存储产业飞速发展。
2.3 AIGC加速数据存储标准完善
AIGC技术的快速发展,对数据存储系统提出了新的挑战,同时也对数据存储标准提出了更高要求。目前我 国对于数据管理以及数据存储相关标准大多为基础共性标准,暂无面向AIGC特定应用领域的标准发布。正在研 究中的《网络安全技术生成式人工智能预训练和优化训练数据安全规范》及《网络安全技术生成式人工智能数 据标注安全规范》均聚焦网络信息安全方面,尚未对数据海量存储的具体需求进行规定。AIGC数据存储标准的 需求复杂且多样化,需要各行业共同努力推动技术创新和标准制定工作。通过进一步丰富和完善AIGC相关的标 准和规范,可以推动AIGC标准体系的规划和建设,促进技术的健康发展,满足用户对高质量、高效率数据存储 的需求。
AIGC数据存储的新标准可以从以下几个方面展开: (1)推动行业制定统一的数据存储接口标准,以降低不同AIGC系统间的数据迁移和整合成本。为了满足差 异化的数据存储需求,现有的数据存储系统存在结构复杂、接口多样、互操作性差等问题。超融合、多模态存 储系统得到越来越多的部署应用。制定统一规范的数据存储接口标准,涵盖数据传输协议、数据格式、数据传 输速率、吞吐量、响应时间、接口交互机制等方面,能够有效提升数据存储系统的互操作性和一致性。 (2)规范高性能存储技术的发展。AIGC数据存储的标准规范与高性能存储技术的发展相互促进。随着 AIGC技术的不断发展,对存储系统的要求也在不断提高,极大推动了高性能存储技术的不断创新和发展。特别 是,以闪存和固态存储设备为代表的新型存储介质以及存算一体技术的大量引入,鼓励和支持高性能存储技术的 研发和应用,如全闪存储、分布式存储等。生成式人工智能对于数据存储系统的吞吐量和并发处理能力的高要求,也亟需制定相关标准进一步规范高性能存储技术发展。
(3)加强数据保护与安全技术的研究。随着AIGC技术在各类场景的应用愈加广泛,数据资产的使用和保护 是AIGC技术发展需要重点关注的方向之一。目前尚无数据保护与安全方面的国家标准或行业标准发布。加强数 据加密、数据鉴权、数据标注、访问控制、审计日志等安全技术的研究和应用应成为今后持续推动的工作内 容,以确保AIGC数据在存储和传输过程中的安全性和隐私保护。 此外,着力促进存储技术的标准化与互操作性,以及在制定标准时更加关注绿色节能和可持续发展要求, 也应是推动AIGC标准体系的规划和建设的不可忽略的重要内容。