关于云原生数据库技术发展趋势,在《云原生数据库白皮书》中有提及,更多内容可以查找原报告了解。更多内容前往原报告进行下载查看。
在架构上云原生数据库要实现内存池 化和全栈解耦。当前主流商用的云原生数 据库都完成了计算层和存储层的解耦,接 下来计算资源层中算力与内存也会解耦, 计算能力池化、内存容量池化、存储能力 池化,达到“计算 - 内存 - 外存”三层资 源彻底解耦可分别进行弹性热伸缩。
基于存算分离三层解耦的云原生数据库,可以支持分钟级别的节点扩展能力,几分钟内就可 以增加一个只读节点;秒级的高可用切换,在几秒内完成端到端的切换;秒级存储扩展能力,秒 级资源释放回收能力,秒级快照备份能力。
内存池化后给云原生数据库也会带来一些新的挑战,比如内存池相比本地内存时延是有差异 的,数据库软件结构需要适配改造,减少这部分的影响;内存池化后的可靠性恢复如何保障;内 存池化后数据库如何管理和判断存放哪些数据;不同业务使用内存池的隔离性问题等等。如何在 技术上应对这些挑战并将内存池更好地用起来,是一个需要持续探索的领域。
将内存池技术和 HTAP 结合是其中一个趋势。云原生数据库在 OLTP 和 OLAP 能力融合的 基础上,未来更进一步结合内存池软硬协同,实现网络吞吐的大幅度缩减,同时也将内存池的性 能优势发挥到极致。
其中的关键技术包括:1)使用 SCM(Storage Class Memory)新介质,基于内存池对 数据进行加速,提供 PB 级数据量、万级并发、毫秒级访问时延;2)结合 AI 深度学习,根据应 用负载和系统资源实现语句级自动弹性,自动确定分析节点数量,自动确定单个分析节点的资源; 3)TP 侧通过 RDMA 直接写内存池中的 Delta Store,Delta Store 可立刻处理分析业务的读请求, 不影响交易性能,又将 AP、TP 数据时延稳定控制在 1ms 以内;4)在行式存储引擎和列式存储引擎上建立全局的一致性事务视图,单条 SQL 可以横跨行存和列存;5)智能混合优化器,智能 化判断 SQL 仅在 TP 引擎上执行、仅在 AP 引擎上执行、在 TP&AP 引擎上联合执行,实现语句 级 TP&AP 引擎协同执行。

Serverless 数据库未来还需要具备智能弹性的能力,能够根据用户的历史负载计算出用户画 像,快速判断未来的负载曲线,提前为弹性伸缩准备好资源,避免负载冲击到资源规格上限,减 少系统资源浪费,追求更极致的弹性。
其中的关键技术包括:智能检测业务负载趋势,预测资源消耗,基于服务等级协议保障,动 态调整数据库资源纵向扩展,加减实例横向扩展;数据库内核基于业务负载动态调整内核多种参 数包括线程池大小、连接数、等待时延等;基于分布式共享内存的扩展缓存池、锁、事务状态、 以及元数据管理等,实现数据库全局状态管理;也可以采用轻量化容器技术,提升系统的启动时 间以及高密度部署。
2019 年,华为首次发布了 GaussDB AI-Native 技术,并持续将 AI 技术融入数据库内核、 核心算法和数据结构,实现数据库自动优化和调优等功能。同时,GaussDB 还在分布列推荐、 慢 SQL 发现与诊断、负载趋势预测与异常检测等领域,引入 AI 技术,大幅提升管理效率,让数 据库管理更加智能高效。
未来,云原生数据库将持续与 AI 内外协作,向全场景智能数据库迈进。全场景智能数据库包 含两个方面:一是 AI for DB,让数据库管理更加智能高效。具备自检测、自诊断、自调优、自运 维及自安全的能力,覆盖数据库全生命周期的管理与优化。核心组件包括支撑平台及服务平台, 支撑平台用于采集分析数据支持上层服务;服务平台提供智能化的运维管理服务。全场景智能 DB 在 AI for DB 上将从专家经验或者规则,走向全模块智能化。

二是 DB for AI,提供库内 AI 引擎。库内全流程 AI 框架,数据不出库,端到端完成数据清洗、 特征工程、模型选择和模型训练,安全可靠、简单高效;库内原生支持常用 AI 算子,满足绝大部 分机器学习使用场景。全场景智能 DB 在 DB for AI 上将从 SQL 扩展到原生 SQL,从单点功能调用到全流程自动处理。
云原生数据库部署环境由封闭式私有环境向开放式公有云服务环境演变,数据库面临的威胁 挑战也越来越多,数据安全隐私问题愈发凸显。针对传统的数据传输安全、数据存储安全、数据 运维安全以及面向最终用户的数据显示安全等问题,当前云原生数据库产品提供了多种技术来保 障数据的安全隐私,如安全传输通道、权限访问控制、数据存储加密及数据动态脱敏等。然而, 数据运行态 ( 查询计算 ) 在缺乏有效保护手段的情况下,攻击者和恶意 DBA 仍然可以通过内存抓 取来获取用户隐私数据,容易造成隐私泄露等安全问题。同时,可能存在恶意的篡改数据、擦除 痕迹、难以有效追踪的问题。未来,云原生数据库也将结合当下迅猛发展的全密态和防篡改技术, 提升数据可信存储与可信维护能力,保障数据全流程的安全。
全密态数据库通过支持密文形态下的数据查询和计算,使得攻击者在获取内存数据后仍然无 法解析出有效的明文信息,更重要的是,数据加解密所需的密钥均由最终用户持有,可以有效地解决第三方信任问题。一种实现方式是构建纯软形态的全密态数据库解决方案,提供分布式密文 数据处理能力,在服务侧实现多种密文数据查询纯软算法;另一种是结合云基础设施提供的可信 硬件(TEE)实现软件和硬件结合的密态数据处理技术,密文数据每次依据查询要求将指定的密 文“传送”至 TEE,然后在 TEE 内完成数据解密和查询计算,充分提高系统整体效率,云原生 数据库更适合第二种技术路线。
防篡改数据库在技术层面通过去中心化的分布式账本数据库、分布式数据存储、P2P 网络技术、 共识机制、加密算法等,实现融合区块链特质的防篡改能力。第一阶段是做到单中心账本,对防 篡改用户表进行操作,系统会在对应的用户历史表中记录行级数据变化,并通过密码学算法逐行 生成校验码。通过校验码逐行验证用户历史表可保证用户表不被篡改;第二阶段是多方链上协同 事务,多集群形成联盟链,每个集群均有全量数据,对防篡改用户表执行操作均需同步到链上所 有集群,并使用公式算法校验执行结果。当前云原生数据库已初步具备第一阶段能力,将继续往 第二阶段探索。