2008年,漫威《钢铁侠》中的AI管家贾维斯,让人们知道了AI是如何精准地帮助人类(托尼)解决丢过来的各种事务的……
图1:AI管家 贾维斯(图片来源网络)
2023年初,以2C的方式从科技界火爆破圈的免费聊天机器人ChatGPT浪翻全球。
据瑞银的研报,其月活用户在1月份就达到了1亿,目前还在增长着,它已成为史上增长最快的消费者应用。此外,其东家OpenAI继前期发布了每月42美元的专业版Pro后,马上就要推出Plus版,据说每月20美元左右。
当一件新事物,月活上亿,流量上来,并且开启商业变现之后,你是否对它背后的各种技术感到好奇?比如,聊天机器人是如何处理和查询海量数据的?
体验过ChatGPT的朋友都有同感,它显然比天猫精灵或小爱童鞋要更加智能——是一个“有着无敌话术”聊天机器人,一个自然语言处理工具,一个大型语言模型,也是一个人工智能应用。它可以根据提问素材的上下文与人类互动,可以进行推理和创作,甚至还会拒绝(它认为)不当的问题,不只是完成拟人化的交流。
虽然目前对它的评价褒贬不一,但从技术发展的视角来说,它甚至有可能通过图灵测试。试问,在我们与它交流的时候,其(对于小白而言)广博的知识,可甜可油的回答,如果在我们完全不知情的前提下,是很难辨别出对方是人类还是机器(或许这才是它危险的地方——ChatGPT 的内核依然是属于深度学习范畴,存在大量黑盒与不可解释性!)。
那么,聊天机器人是怎么做到将来自3000 亿单词的训练语料库和 1750 亿的参数,快速地进行整理和输出的呢,同时还能做到结合上下文,根据它“掌握”的知识,自由应对与人类的交流的呢?
其实,聊天机器人也有大脑,它跟我们人类一样,需要学习+训练。
图2:ChatGPT 学习训练图(来源官网)
它将海量的文本、图片等等非结构化的文件,通过NLP(自然语言处理)、目标识别、多模态识别等,按其语义结构化成知识图谱,这个知识图谱就是聊天机器人的大脑了。
图3:以医疗为例,人工智能将多来源的数据转化在问答、搜索、药物研发等场景的知识图谱中
知识图谱是由什么组成的呢?
知识图谱是由什么组成的呢?它是由点(实体)和边(关系)组成的,能够将人、事、物等相关信息进行整合,形成一个全面的图,如下图。
图4:由人物的点和属性边构成的图谱(子图)
当提问“OpenAI 的创始人是谁呀?”,聊天机器人的大脑就开始迅速地在自己的知识库里搜索、查找,先从用户的问句中,锁定目标点“penAI”,再根据用户的提问,连锁出另一个点——创始人“山姆·阿尔特曼”。
图5:从点“OpenAI”通过一条边连接到另一个点“山姆·阿尔特曼”
其实,当我们在提“OpenAI的创始人是谁"的时候,聊天机器人就会在自己的知识库中,把所有围绕该点的图都关联出来。所以,当我们问及相关问题的时候,它其实早已预判了我们的预判。比如当我们问:“马斯克是OpenAI的创始团队成员吗?”仅仅一个命令的发出,它已经将所有的成员都查询了(举千反一),见下图。
图6:由点“OpenAI”关联到其他人物
此外,在它的库里如果还收录过其他的“学习资料”,那么在其的“大脑”中还会关联着诸如“人工智能机器人的产品有哪些?”等相关的图,如下图。
图7:常见的AI机器人产品图谱
当然,聊天机器人和人一样,回答问题会受到自身知识储备的局限,如见下图:
我们知道,决定一个人大脑快不快、聪明不聪明的判断是什么呢?从人类的视角来看,最简单的一个标准就是是否具备举一反三的能力。
子曰:“不愤不启,不悱不发,举一隅不以三隅反,则不复也。”
——论语·述而篇
早在两千年前,孔子就强调过善于举一反三、由此及彼、触类旁通的重要性。而对于聊天机器人来说,其答案的质量取决于构建知识图谱的算力。
我们知道,通用的知识图谱的建设在很长一段时间内都着重在 NLP和可视化呈现等方面,但忽略了计算时效性、数据建模灵活性、查询(计算)过程与结果可解释性等问题。尤其是在整个世界从大数据时代向深数据时代转型的当下,过去传统的基于SQL或 NoSQL构建的图谱的缺陷,已无法高效去处理海量、复杂、动态的数据的能力,更何谈进行关联、挖掘和分析的洞察力?那么,传统知识图谱面临的挑战都有什么特性呢?
一是,低算力(低效)。采用SQL 或 NoSQL 数据库系统构建的知识图谱底层架构效率低下,无法高速地处理高维数据。
二是,灵活性差。基于关系型数据库、文档数据库或低性能图数据库构建的知识图谱通常受制于底层架构而无法高效地还原实体间的真实关系。诸如,它们有些只支持简单图,录入多边图数据时要么信息容易丢失,要么花高代价来构图。
三是,徒有其表。在2020 年之前, 极少有人真正关注底层算力,几乎所有的知识图谱系统建设,都仅仅是围绕 NLP 和可视化这两部分。而没有底层算力支撑的知识图谱,只是在本体与三元组的抽取和构建,并不具备解决深度的查询、速度和可解释性等问题的能力。
【注:在这里,我们不展开讲传统关系型数据库与图数据库之间的性能对比,感兴趣的读者可阅读:图数据库与关系型数据库的区别?和 图数据库解决了什么问题?】
行文至此,我们已经从聊天机器人的智能知识图谱话题,聊到了另一个前沿技术——图数据库(图计算)技术领域了。
什么是图数据库(图计算)呢?
图数据库【见参考资料1】是一种应用图理论,可以存储实体的属性信息和实体之间的关系信息,在定义方面,图(Graph)是以节点【见参考资料2】和边【见参考资料2】定义的数据结构。
图是知识图谱存储与应用服务的基础,拥有强大的数据关联及知识表达能力,因此倍受学术界和工业界的推崇。
图8:图数据库与知识图谱在市场营销、犯罪调查、金融监管、教育生态、公共卫生和能源等领域中的应用场景
如上图所示,我们看到,在实时图数据库(图计算)引擎的帮助下,产业界可以实时地在不同数据间找到深度关联的各种关系,甚至可以找到最优的、人脑都无法企及的智能途径——这就是源于图数据库的高维性。
何为高维性?图不仅仅作为一种符合人类大脑思维习惯、能对现实世界进行直观建模的工具,同时能够建立起深刻的洞察(深图遍历)力。
诸如大家都知道“蝴蝶效应”,就是在海量的数据和信息的中,去捕捉看似毫无关系的两个以上的实体之间的微妙关系,这从数据处理架构的角度来看,如果没有图数据库(图计算)技术的帮助是极难实现的。【注:对图数据库与图计算到底如何区分的话题,此处不展开,感兴趣的朋友可阅读:来自“图”的挑战是什么?如何区分图数据库与图计算? 一文速解】
图9:过去40年来,数据处理技术的发展趋势是从关系型到大数据再到图数据
风控就是典型的场景之一。2008年的金融危机,其导火索仅仅是美国第四大投行雷曼兄弟倒闭了,但谁也没有料到,一家拥有158年历史的投行的倒闭,会引起国际银行业后续的一系列倒闭风潮……其影响之广、范围之大,让人始料未及;而实时图数据库(图计算)技术,就可以找到关于风险的所有关键的节点、风险因子,风险传播路径……进而对整个金融风险进行提前预警。
图10:雷曼兄弟(Lehman Brothers)破产传播路径以及风险客群图谱
【注:以上构图,均在Ultipa Manager上完成。愿意进一步学习和探索的朋友,可以阅读系列文章之一: 走进 Ultipa Manager之高可视化】
需要指出的是,时下,尽管很多厂家都可以构造知识图谱,但现实是每 100 家图谱公司中,用(高性能)图数据库来做算力支撑的不足 5 家(低于 5%)。
Ultipa嬴图数据库是目前全球唯一的第四代实时图数据库,通过高密度并发、动态剪枝、多级存储计算加速等创新性的专利技术实现了对任意量级数据集的超深度实时下钻。
一是,高算力。
以查找企业最终受益人(又名实际控制人、大股东)为例。此类问题的挑战在于,现实世界中,最终受益人与被检查公司实体之间,经常相隔许多节点(空壳公司实体),又或者多个自然人或公司实体之间通过多条投资、参股路径对其它公司进行控制。传统的关系型数据库或文档数据库,甚至多数的图数据库,都无法实时解决这类图谱穿透问题。
Ultipa嬴图实时图数据库系统解决了以上诸多挑战。其高并发数据结构和高性能计算与存储引擎,相较于其他图系统能以 100 倍甚至更快的速度进行深度挖掘,实时(微秒级以内)找到最终受益人或发现一个庞大的投资关系网络。另一方面,微秒级的时延意味着更高的并发性和系统吞吐量,相比于那些宣称毫秒级延迟的系统,这是 1000 倍的性能提升!
以现实场景为例,原中信银行行长孙德顺利用开设多个“影子公司”的方式,借助金融手段来完成利益输送。
图11:孙德顺设计了结构极为复杂的重重“防火墙”,多层影子公司层层嵌套,以规避监管,获取利益
图12:关联:孙德顺——中信银行——企业老板——(空壳公司)投资平台公司——孙德顺
如上图所示,孙德顺利用中信银行的公权力为企业老板批贷款;与此对应,企业老板们或以投资名义或送上优质的投资项目、投资机会等等方式;双方通过各自成立的空壳公司完成直接交易;或者企业老板将巨资注入孙德顺实控的投资平台公司,然后平台公司再用这些资金投到老板提供的项目内,从而以钱生钱,大家共同获利分红,最终形成利益共同体。
Ultipa嬴图实时图数据库系统,通过白盒穿透的方式,挖掘出层层错综的人与人、人与企业、企业与企业之间的复杂关系,并实时锁定最终的幕后人。
二是,灵活性。
图谱系统的灵活性可以是个非常广泛的话题,大体包含数据建模、查询与计算逻辑、结果呈现、接口支持、可扩展性等几个部分。
数据建模是所有关系图谱的基础,与图系统(图数据库)的底层能力息息相关。例如,基于ClickHouse 这种列数据库构建的图数据库系统,根本无法承载金融交易图谱,因为交易网络最典型的特征就是两个账户间存在多次转账,但 ClickHouse 倾向于将多次转账合并为一,这种不合理的做法会导致数据混淆(失真)。有些基于单边图理念构建的图数据库系统,则倾向于用顶点(实体)来表达交易,结果是数据量被放大(存储浪费),并且造成图谱查询的复杂度指数级增大(时效性变差)。
接口支持层面则与用户体验相关。举个简单的例子,如果一个生产环境下的图系统仅支持CSV格式,那么所有的数据格式都要先转换为CSV格式才能入图,效率显然太低,然而这在很多图谱系统中却是真实存在的。
查询与计算逻辑的灵活性又如何呢?我们仍以“蝴蝶效应”为例:图谱中任意两个人、事或物之间是否存在某种冥冥中的因果(强关联)效应?如果只是简单的 1 步关联,任何传统的搜索引擎、大数据 NoSQL 框架甚至关系型数据库都可以解决,但如果是深度的关联关系,例如牛顿和成吉思汗之间有什么关联关系,这又该如何计算呢?
Ultipa嬴图实时图数据系统,可以提供不止一种方法来解决以上问题。比如点到点的深度路径搜索、多点间的组网搜索、基于某种模糊搜索条件的模板匹配搜索,还有类似于Web搜索引擎的面向图谱的模糊文本路径搜索。
图13:某大图中实时组网的可视化结果(形成子图)搜索深度≥ 6跳
图谱上还有其它很多必须依赖高灵活性与算力才可以完成的工作,比如依据灵活的过滤条件寻找点、边、路径;模式识别,社区、客群发现;寻找节点的全部或特定邻居(或递归地发现更深的邻居);找到图中具有相似属性的实体或关联关系……总之,没有图算力支撑的知识图谱就像是没有灵魂的躯壳,空有其表。无法完成种种具有挑战性、深度搜索能力的事务。
三是,低代码,所见即所得。
图谱系统除了上面提到的高算力与灵活性以外,还需要有白盒化(可解释性)、表单化(低代码、无代码)以及以所见即所得的方式赋能业务的能力。
图14:零代码一键查找,仅需填入搜索范围的数值即可,且2D、3D 、列表、表格甚至是异构数据融合的多种可视模式灵活转化
在Ultipa嬴图实时图数据库系统中,开发人员只需敲1句 Ultipa GQL就可以完成操作,而业务人员则是使用预置的表单化插件通过零代码的方式就可以实现对业务的查询。这种方式,极大地助力员工提高了工作效率,同时赋能机构降低了运营成本,并打通了部门之间的沟通壁垒。
综上所述,知识图谱与图数据库的结合将会帮助各行各业加速实现数据中台的业务建设,但诸如金融行业这种需要专业性、安全性、稳定性、实时性、精准性的行业,采用关系型数据库来支撑上层应用并不能提供良好的数据处理性能,甚至无法完成数据处理任务,因此只有实现具有实时、全面、深度穿透、逐笔追溯、精准计量的监测和预警性能的图数据库(图计算)技术,才可能赋能组织更好地运筹帷幄且决胜千里!
行文至此,突然想起了热播的《三体》,其中提到了一个非常有意思的点——智子锁死。大概意思是说,三体文明为了防止地球科技超过它,就通过锁死人类基础科学的方式进行各种阻碍。因为人类文明的飞跃,取决于基础科学的发展和重大突破,锁死人类的基础科学就等于堵塞住了地球提升文明等级的道路……当然,笔者想告诉大家的是,图技术就属于人工智能的基础设施之一,准确的说是图技术=增强智能+可解释 AI,它是 AI 与大数据发展过程中融合的必然产物。
图15:图数据库(图计算)技术,属于人工智能基础设施