我知道图数据库技术的发展趋势有哪些。
HTAP 是能同时处理 OLTP 和 OLAP 两种业务的混合处理系统,以打破 OLTP 和 OLAP 之间 的隔阂,既可以应用于事务型数据库场景,也可用于分析性数据库场景。基于创新的计算存储框架, 在同一份数据上保证事务的同时支持实时分析,省去了费时的 ETL 过程。
在图数据库中,OLTP 指对顶点、边以及属性的增删改查。主要评价指标为:吞吐量、响应时 间;OLAP 分为两种,第一种是全图的算法,使用全量数据进行图运算,比如 Louvain、PageRank 等。衡量指标为图算法的丰富性、易用性。第二种是局部算法,使用部分子图数据完成运算,比如 最短路径、K 跳查询等。衡量指标为吞吐量、响应时间。HTAP 指综合 OLTP 和 OLAP 的第二种 情况。
用户端发起请求,通过消息中间件转化成流的形式进入系统。图平台解析请求中 的数据,将数据对应的操作(CURD)实时应用到图数据库中。然后就可以调用对应的图计算代码 段,对刚刚处理的这条数据进行相关的计算操作(以新插入或更新的点为出发点、一定深度的邻居 节点)。计算完成后的结果,可以实时写入到各个点边类型的属性中去,也可以选择一部分作为算 法调用的结果返回给客户端。实时写入到各个点边类中的属性,是立刻查询可见的,可以在前端界 面等查询结果的地方展示,也可以被实时的用到后续请求的相关计算中来。

图数据库会与人工智能进一步融合成为未来人类智慧的“新基建”。梅特卡夫定律表明,网络 价值取决于网络中可以建立的连接的数量。同理,数据要发挥它的最大价值,一定要打通数据间的 连通性。图数据库作为高效联通孤立数据点的技术,是引爆数据价值的关键要素。认知的基础是知 识,而创新的来源是跨知识点之间的连接。可以想象,随着区块链等技术的发展、数据确权及相关 政策法规的成熟,未来图数据库发挥价值的一种形态是通过技术与数据结合将庞大知识图谱及基于 它的认知计算能力作为基础设施服务提供给多方调用和查询,又通过多方的使用反馈进一步完善系统本身。在未来的商业中,知识也会像今天的水电煤一样随用随取,用户无需再关心底层到底是哪 一种数据库,用的是什么计算引擎,只需专注于查询和调用自己需要的知识并将知识推理的结果运 用于当前的业务场景创造商业价值就好。
图神经网络(Graph Neural Network)相比于传统的机器学习算法,在复杂图结构数据上有 着不可比拟的优势。图神经网络能够更好的提取数据之间的特征,如药物发现、社交网络、推荐系 统和交通建模等,近些年来图神经网络技术正在如火如荼的发展。而数据作为机器学习的“燃料”, 数据的好坏、数据量的大小直接决定机器学习的训练效果。而数据的获取存在诸多的困难,一方面 企业难以获得模型训练所需要的大量数据,另一方面,因为用户隐私、法律限制、商业竞争等问题, 造成数据流通困难,“数据孤岛”现象普遍存在,所以催生出图联邦学习这一项技术,旨在保证用 户隐私和公司数据的前提下,更好的发挥数据作为机器学习“燃料”的重要作用,图联邦技术作为 两者的交叉学科,未来存在广泛的应用前景,通过图神经网络和联邦学习相结合,更好的推动社会 生产力的发展和保障人民财产安全,任重而道远。
未来图数据库的发展,将出现具备时序数据处理能力的图数据库。5G 以及 IoT 的兴起催生 了大量的时序数据,这些数据蕴藏着丰富的人、设备、车辆等的流动变化的关联数据。要基于这些 流动变化的关联数据作出实时精准的商业决策,就需要底层的数据存储与计算能力的支撑。传统的 流式大数据处理技术框架虽然可以进行实时数据处理,但缺乏针对图数据的关联分析能力,无法对 图处理任务进行语义解析,也无法执行多层查询等图计算。现有的图计算框架虽然具备以内存存储 图数据进行图表达能力,但仅能执行预定义的图任务,不知此动态追溯查询,无法基于指定时间窗 口下的历史数据进行图处理,灵活性较低。图计算引擎可以对图结构进行查询,但这些图查询不具 备原生的时序分析能力,需要进行原始数据的遍历搜索运算,时空开销大,且缺乏高性能支持。
随着社交网络、知识图谱等领域研究的发展,越来越多的图数据被发布了出来。比如,在社交网络中,美国 Meta(原 Facebook)公司在全球拥有超过约 29 亿活跃用户,这些用户可相互关 联与通信,并形成大规模图结构社交网络;德国的莱比锡大学和柏林自由大学合作从维基百科上抽 取结构化数据形成的知识图谱 DBpedia 已将近有 24 亿。
针对上述大规模的图数据集,如何有效地进行分布式管理就成为了一个重要问题。为此,学术 界和工业界当前已经构建了不少高效的分布式图数据管理系统。这些图数据的分布式数据管理系统 可以分为两类:基于大数据处理平台的分布式管理系统和自定义的分布式图数据管理系统。