审校 | 孙淑娟
如果你被告知图数据库的目的是使你能够将组织的数据视为一个图,那么你还没有被告知足够多的信息。
图数据库为你解决的真正问题是:系统中的故障在哪里?哪些交易模式可能表明恶意企图?哪些治疗组合对于最难治的疾病最有效?
将关系融入到数据中后,数据会在你最需要的时候显示这种关系。
它不仅仅涉及可视化的圆圈和箭头。可视化插件不是原生图数据库。原生图工具解释了关系,以及由关系衍生而来的所有概念(比如相关性、完整性、概率、可靠性、偏误和脆弱性)。这样一来,来自这些关系的信息可以被数据库定位、分析,然后向你解释。
一、认知问题
图数据库生产商Neo4j的用户创新高级主管Michael Hunger表示,人类通常会观察世界,然后处理他们所看到的相互关联的元素。
但是当这些人需要用关系数据库来表示这些相同的元素时,问题在于,一旦他们实际使用技术即数据库,就需要忘记所有的相互关系。
关系可以融入到关系数据库中,但需要付出相当大的精力,加上大量的内存和存储——当这些资源由云平台提供时,需要高昂的费用。
因此为了节省时间和金钱,组织往往淡化理解相互关系方面的需求。后来当它们需要深入分析时,依赖只能从数据库模式的表层推断信息的附件和扩展件。
技术研究公司Omdia的人工智能平台、分析和数据首席分析师Bradley Shimmin表示,不仅仅是金融公司需要了解欺诈检测,其他公司也需要能够了解员工下个月会不会辞职。
图分析能够跨多个维度来查看,为数据添加的上下文和含义,而表格数据对上下文和含义一无所知。
二、什么是原生图数据库?
在传统的关系数据库模型中,数据分布在多个表中,通过键连接。运行SQL查询通常意味着连接多个表和多个索引查询。
图1.美国小企业创新研究(SBIR)计划的
创业生态系统模型
在这里被描述为Neo4j图数据库模型
相比之下,在Neo4j属性图模型中,重点是数据元素之间的关系。这些元素作为“节点”来存储,其属性可以由任意数量的键/值对表示。
节点可以通过任意数量的关系来连接。节点和关系都可能有“属性”。在图模型中,关系数据库表中的列或行表示为节点的属性。
使用原生图数据库,整个堆栈都围绕这个数据模型进行了优化,从查询语言到文件存储,不一而足。原生图数据库在分析这种关系时会更高效,因为它们一开始就被融入到模型中。
区分原生图数据库和运行在关系数据库上的图层非常重要。后者以图的形式提供结果,但仍必须执行连接及其他操作,才能将来自整个数据库的数据汇集在一起。这会导致延迟和过多消耗计算资源,规模扩展后这一切会暴露得更明显。
开发图数据库在创建过程中需要额外的工作,因为你还得插入这些关系。所涉及的工作量以后会得到回报,你可以更轻松地推断出数据之间的联系。
回报来自这三个被低估的优点:
1.可遍历性:建立联系
图数据库使你能够“遵循”关系。如果你读取数据,又想要追踪或遍历这些关系,你会受益匪浅。
Neo4j的开发者关系工程师William Lyon指出了一项名为“无索引邻近”的功能,该功能是图数据库所特有的。这基本上意味着你可以从一个节点遍历到任何其他节点,无需进行索引查找。
图2.图模型的一部分,其中三个Twitter用户相互关注
但关注程度不成比例
可遍历性揭露了它们之间关系的范围和限制
这种可遍历性不仅使跟踪数据之间的关系变得更容易,还减少了执行查询所需的计算,从而减少了管理计算过程所需的人力。
至于关系数据库,你必须计算组合在一起的内容,然后要有某种方法将它们合并在一起。这意味着更多的连接或跳点。数据库中的数据量越大,所需的连接和跳点势必越多。
相比之下,换成图数据库,数据库中是否有80亿人并不重要。如果专注于Joe,只对Joe的关系感兴趣,可以完全忽略其他人。
这还使得图数据库对于分析层次数据特别有用,比如分析一家拥有200000名员工和数十个管理层的公司。
图3.由于可遍历性,Neo4j的Cypher查询语言
用四行代码揭示了三层深度的关系
而不是用复杂的脚本
在关系数据库中对这种庞大而复杂的层次结构进行操作意味着数十万个自连接:将人员或员工表与经理、与他们的经理或与每个人员指定的经理相连接。
换成图数据库,这只是跟踪层次结构上下关系的问题。
图数据库格式对数据科学家也特别有吸引力——他们不喜欢与关系数据库打交道,因为它有已执行的严格的模式。在开始工作之前,你必须事先定义并实施数据的模式。
相比之下,图方法更快、更直观,使你更容易迭代完善数据模型。
2.可解释性:便携式白板
如果人类从关系和联系来看待世界,那么数据库应该能够推断出关系和联系的含义。
这个原则好比你试图找到的结果的输出具有“对白板友好性”。当研究型医师与同事交流结果时,通常以Excel表格或某种表格的格式表示。大体而言,这些格式等同于完整的数据库。
同时,图向人类展示了一个即时的信息结果。你可以把白板上的这个丰富模型放到数据库中,因为关系和实体是一等公民,但你也并不失去所有业务人员。
推荐系统是图数据库的核心用例。如果你能说“我们向你推荐这本书,因为它与你评价很高的其他书有相似的元素”,这是极具价值的推荐。
网络特性使你能够推断出某些节点可能对其他节点产生的影响程度:“聚类是什么?谁最有影响力?谁连接聚类?谁必不可少?”
这种分析级别也许只能由关系数据库通过非常复杂的聚合过程和所谓的“知识发现迭代”来完成,这一切使得之前描述的SQL交叉连接马拉松看起来更像是百米冲刺。
印第安纳大学的研究人员试图找出帕金森病各种病因当中的遗传关系方面的模式,出于一些重要的原因选择了Neo4j作为其原生图数据库,其中一个原因是,图查询返回的模式本身可以表示为图。
从他们的角度来看,不仅数据库本身被表示为知识图,连输出也是如此。
3.公平性:将原始数据放入上下文
高质量的结果需要高质量的数据。图数据库在公平和消除偏误方面显示出更多被低估的优点,尤其是在用于机器学习和人工智能的庞大数据集。
偏误可能来自两个方面:偏差的数据被馈入到算法,以及研究人员在他们提出的问题方面有偏见。使用图模型,就可以在设计阶段突出并消除潜在的偏误。
数据科学家自然会希望确保他们的训练数据在被馈入到机器学习算法之前具有代表性、无偏误。在数据准备阶段使用原生图数据库可能有助于将原始信息置于上下文中,避免将偏误馈入到模型的可能性。
所以看看你的图的聚类,如果只有一个大聚类,那么就有偏误,就有问题。你需要回过头去,确保拥有良好的分布式聚类。
神经网络本身就是图。这意味着当你训练模型时,神经网络会发生变化。如果你呈现一个图,并使其易于访问、可变和可视化,那么就可以确定网络如何获取权重。
换句话说,从模型生成的任何特定的输出都很容易追溯起源。可遍历性是双向的。
所有这些优点是否意味着关系模型已穷途末路?不太可能。但是正如Shimmin特别指出,图数据库是“一项至关重要的技术,我非常希望看到它更深入地全面集成到传统的分析工作负载中。”
原文链接:https://thenewstack.io/the-3-underrated-strengths-of-a-native-graph-database/