文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

​保姆级拆解向量数据库的结构和应用场景

2024-11-29 23:13

关注

首先最左侧的是数据源层,这里包括来自于企业各种各样的数据源,我们也叫它多元异构的数据形态。有了这部分数据之后,首先要做的是数据的摄取,再往后是数据的转化,这里面涉及到非常多类型数据的形态转换。包括传统企业数仓的 ETL 过程,以及当前 AI 背景下的特征加工、数据处理等流程。还有处理流式数据、实时数据的数据组件,用来满足高时效、低延迟的处理需求。

在数据存储与计算层,向量数据库一方面可以把前面各种各样的数据做比较好的接入,还可以完成数据处理上的一些转换,实际上在向量数据库计算引擎的加持下,我们可以完成面向各种类型的数据存储以及计算。

在数据分析与预测层,向量数据库也可以提供比较全面的支撑,包括 AI 基础小模型和大模型应用的场景,特别是在大模型方面,大家的共识是把向量数据库作为大模型应用非常重要的记忆体。除了上面说到的 AI 这部分场景,对一些传统业务的支持,比如高效的即席查询、实时数据分析以及向量的搜索、分析场景,向量数据库都能发挥重要价值。

最后的数据应用层则对应一些具体的业务场景,比如 BI 仪表盘、嵌入式分析、增强分析、自助分析程序等。

二、向量数据库发展历程

向量数据库的发展大致经过了三个阶段:

三、企业面临痛点&挑战

在大模型时代,企业对于多模态数据会有越来越多的应用场景,在多模态数据的分析和检索方面将会面临很多挑战以及问题。大概分为以下四个方面:

四、向量数据库整体形态

前文提到向量数据库的数据来源可能包括结构化数据与非结构化数据,所以从这张图上可以看到像图片、文档、音频以及视频这些数据都要做向量化转换才能存到向量数据库。对于我们原来经常接触的一些关系型数据库数据,以及 Key-Value 这种半结构化数据,也要统一存储。海量数据在向量数据库做向量的转换,用来提供相似性的检索。再上层是向量数据库通过其分析和计算引擎支撑 BI、流分析、AI、数据科学以及大模型等不同的场景。

上图左侧是数据的来源,有各种各样多模态的数据类型。从上往下看,最上面是我们通过向量数据库实现的一些场景,包括关系数据分析、语义数据检索、实时决策、提示词管理和大模型记忆的管理。下面展示了各种各样的服务形态,包括兼容MySQL 协议、提供 Serving API 的对接、面向原生向量的 API。再往下是向量数据库所要具备的元数据存储与资源管理能力,以及一些优化的组件,比如多模优化器和事务管理器,用来保证向量数据库高效地运行。最底层是数据存储的形态,有关系型存储、向量存储以及 HDFS 仓存储和湖存储。

五、向量数据功能特性

这是中国信通院组织 50 家企业的专家在一起讨论了大概 3-4 个月形成的一个行业通用标准,它定义了向量数据库的基本功能、运维管理、安全性、兼容性、扩展性、高可用等多个方面的标准,可以比较全面地看到向量数据库的一些技术指标要求。

六、多模态向量数据库未来发展趋势及核心能力

多模态向量数据库的未来发展趋势及核心能力可以总结为以下五个方面:

七、向量数据库重点支撑场景

简单来讲,在大模型时代,多模向量数据库的重点支撑场景包括大模型记忆体、企业知识库、非结构化数据检索、实时决策指标计算、结构化与非结构化数据的融合分析和 VectorOcean 数据支撑平台等。

八、基于大模型的知识管家(Agent)向量数据库应用

向量数据库作为大模型知识管家后台的核心存储引擎,一方面把各种类型的企业数据进行私有化的存储,然后在这个基础上用大模型去跟向量数据库做高效的交互。另一方面是用户在提问之后,可以通过大模型先对语言做基础的组织,然后用向量数据库查询出最相似的知识片段 TopN,并把这些知识片段作为基础语料传送给大模型,大模型去做答案的组织,再结合大模型的生成式的能力给出最终答案。通过这个过程可以大大降低大模型应用换轮的问题,能够让用户得到更可靠的问答。

来源:DataFunTalk内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯