2022年数据库领域的三大关键词中,“融合”一词成为被提及次数最多的词语。
这里的提及的“融合”不仅仅指的是数据库各种类的融合,更包括软硬件融合、混合 负载融合、分布式与单机的融合、多模态的融合等,但实际上融合问题并不好解决。
比如,软硬件融合就是个难题。数据库经历了多年发展,其底层架构和算法针对过去 的硬件网络等基础设施经过充分设计,以获得最佳性能,但是随着新型硬件的发展, 例如新 CPU 架构、新存储介质,以及新网络架构的发展与成熟,数据库底层机制也 必须有相应的调整,才能充分发挥新硬件的特性。
此外,分布式与单机的融合也有一定技术难度。单机数据库相较于分布式数据库,由于不需要大量的分布式事务处理,所以单核性能会高于分布式数据。但是数据库面临 的市场是一个复杂多样的市场,有一些场景可能一个单机数据库就能支持,用分布式 显然有点“大材小用”,但是有一些场景又需要分布式数据库以支撑海量数据和海量交 易。那么如何在数据库规模比较小的时候,表现为一个单机数据库,不需要复杂的分 布式事务机制,而随着数据规模增长,又能自动生长为一个分布式数据库,而不需要 大规模的数据库迁移等,就是一个必须考虑的关键问题。
以 TDSQL 为代表的多家厂商开始尝试采用对等架构实现存算分离与存算一体的兼顾, 使数据库产品能兼顾不同规模的场景,取得不同的平衡;而 OceanBase 则推出单机 分布式一体化架构,打造更加开放、灵活、高效、易用的下一代企业级分布式数据库。 实现了在线水平扩展的同时不增加分布式相关 overhead,从而能够像集中式数据库 一样部署在小规格的服务器上,做到单节点性能达到甚至超越集中式数据库的水平。
AI 与数据库的融合也在进一步加深。进入 2022 年以后,AI 和数据库融合趋势愈加明 显,AI已经成为企业挖掘数据商业价值的最大推动力。过去,企业数据可用性不高, 样本容量也有限,无法在毫秒内分析大量数据;而人工智能和机器学习技术,让企业 在数据容量和数据源可用性方面有了质的飞越,才有了真正的大数据访问和实时处理 能力。
大统一是诸多自然科学领域的最终梦想,而数据库的大融合也是数据库从业人员的梦 想,但是这里面往往涉及到诸多因素的权衡,以及要面临越来越复杂多样的场景,现 阶段还很难做到完美的统一。
数据云也是今年被频频提及的关键词之一,它更多是一个数据基础设施的概念。从技 术的角度来讲,数据云是为了提升整个数据分析能力,提升数据分析的实时性;从业 务角度来讲,数据云可以帮助数据库厂商在云上拓展更多不同客户。
可以看到,今年很多开源数据库产品都发布了自己的 Cloud 版本,也就是云服务订阅 版本,包括 TiDB、OceanBase、SelectDB、TDengine 等等国内知名数据库厂商。 这无疑是开源数据库产品探索商业化一个比较好的路线。相较于云厂商凭借数据库的 深度软硬件协同提供产品竞争力,开源厂商基于多个云平台提供的多云容灾切换方案, 也有一定的市场发展空间。
这几年,Serverless 数据库大火,被称为是下一代数据库的演进方向。事实上, Serverless 数据库并非这两年才有的新概念。早在 2004 年,由于亚马逊的电商网站 面临数据库扩展性的挑战,Serverless 数据库的探索之旅便已经开始。
Serverless 数据库可以根据应用程序的需求自动扩缩容,并内置高可用和容错能力。 Serverless 数据库背后由云服务商动态管理计算资源分布,云服务商将计算资源变成 一个池子,用户无需创建实例,就能快速完成部署。
具体到数据库层面,用户只要使用了基于 Serverless 特征的数据库,就可以基于函数 运行所消耗的内存和执行时间,按使用量计费,极大地降低了数据库的使用成本。
Serverless 发展至今,Serverless 数据库开始强调极致的资源分配曲线与业务实际需 求曲线匹配,目前已经可以做到秒级的按需计费,既能提高资源利用率,还不影响业 务的突发流量,因此也被越来越多企业所采用。