文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

大模型时代,新一代向量数据库的探索应用-DingoDB

2024-11-30 01:15

关注

2015 年前,数据架构以数据仓库(Data Warehouse)为主,专注于结构化数据的统一存储。到 2016-2022 年期间,流行数据湖(Data Lake)的概念,扩展了数据维度并管理了更多类型的数据。最近一年,AIGC 飞速发展,数据生态随之演进到了新的数据栈时代,随着数据分析复杂度的不断提升,由最初的查询处理需求,扩展到机器学习和深度学习,又发展到了现在的自助分析、生成式内容创作(AIGC)、自动化机器学习平台(AutoML、GPT)等场景。这些都离不开对现实世界中的结构化、半结构化和非结构化数据的高效管理。需求的增长催生了新的数据生态。

在新的数据栈时代,原有数据处理流程基本不变,包括数据的来源、获取、转化、存储和计算以及利用数据进行分析预测和构建应用。未来趋势是走向"向量海",所有非结构化数据最终会被转化为向量进行存储,基于数据结构构建实时分析处理流程,在此基础上再构建出各种数据应用。

九章云极 DataCanvas 在数据生态方面积累了丰富的经验,提出一站式解决方案,涵盖了数据摄取到数据应用的全过程,并推出了相应的成熟软件和产品来满足客户需求。DingoDB 是其中的多模向量数据库,主要目标是处理数据存储和计算,以及部分分析和预测的功能。

除了 DingoDB,还推出更多相关产品,如 TableAgent 数据分析智能体以及自有的人工智能平台和大模型。这一系列工具的目的是为了能够串联起数据处理的全流程,为用户提供一站式的解决方案,有效满足大规模数据的存储、分析和应用需求。

在"Vector Ocean"时代,数据生态融合了多样化的数据类型,如图像、文档、音频和视频。这些多模态、非结构化数据通过向量化后,成为不同维度的向量集合,进而存储于大规模、高效的向量数据库中。这个数据库内部采用多种不同的数据组织形式,包括传统的数据库表结构、键值对(KV)存储,甚至可能包括文档型数据库(Document DB)。存储这些数据之后,可以支持多种应用场景,如商业智能(BI)、数据流分析、人工智能(AI)、数据科学等。

DingoDB 致力于创建一个多模态向量数据库,能够整合结构化数据和非结构化数据的存储、分析与查询。满足用户对向量查询的需求,也能够保护和利用其现有数据,并强化对向量查询的支持。

二、DingoDB 的产品优势和架构介绍

1. DingoDB 概览

DingoDB 支持结构化、半结构化和非结构化数据的存储,提供与 MySQL 兼容的协议和优化器。数据库底层支持键值对(KV)和向量的存储,并采用分布式存储架构,实现多模态数据的联合存储和分析。用户可以通过 SQL 指令和 API 访问数据,并支持服务器端运算。整体上是一个完整的多模态向量数据库。

DingoDB 致力于解决大规模、多模态数据存储和分析的问题,提供海量存储能力和联合分析服务。面临的挑战包括多模态数据的统一分析和融合存储的难度、数据的高可用性以及服务计算与存储的一体化问题。DingoDB 旨在简化系统之间的复杂度,提供更有效的存储方案,为用户保障数据的可靠性和完整性,同时不断研究和解决业界面临的问题。

作为中国信通院首批认证通过的向量数据库,DingoDB 以卓越的产品能力完成测试,通过包括 27 个必选项在内的共计 39 个测试项目,通过数量远超同期测评厂商,成为当前通过项目最多的向量数据库。

当前,DingoDB 已成为 Langchain 项目官方支持的后端存储。

2. DingoDB 特点

DingoDB 的产品特点主要集中在四个方面:存储、SQL 处理、API 支持和数据分析。

3. DingoDB 架构

DingoDB 的逻辑架构被分为多个层次。最上层是各种应用场景,涵盖了传统关系数据库分析、语义搜索、结构化和分解化数据分析等方面,以及实时数据决策支持、提示词管理、大模型记忆体等现代火热场景。

在接口层,DingoDB 提供了与 MySQL 协议兼容的 SQL 支持、高性能的 Serving API 以及原生向量 API 的支持。在 API 下面一层提供了高效的元数据存储和资源管理能力,紧接着是查询优化器和事务管理器,负责查询和写入调度的实现。

在执行层,DingoDB 具有一个多模态执行引擎。

在存储层,DingoDB 支持关系型表、向量表,并能够对接其他类型的存储如对象存储或分布式文件系统。

上图清晰展示了 DingoDB 从应用层到底层存储的架构设计。

应用层:DingoDB 支持多种应用场景。

协议层:包括三个接入入口,一是支持 MySQL 客户端和 JDBC Driver 的 SQL 入口;二是提供高性能的 Java SDK,可以直接连接到存储层,满足实时访问需求;三是适应 Python 环境的大模型需求,通过 Python 或 C++ SDK 实现快速接入。

计算层:主要由两部分构成——Executor 是处理分布式事务和查询优化的分布式支撑引擎;Coordinator 作为协调器,负责元数据管理和资源管理。

存储层:底层是核心的存储架构,包括原始数据存储以及向量索引和标量索引的存储。此外,DingoDB 还支持向量的动态构建和计算功能。

4. DingoDB 产品优势

DingoDB 的产品优势主要体现在五个方面:

三、应用场景介绍

DingoDB 被应用于多种场景,包括企业知识库建设、作为大型模型的记忆体、实时决策的指标分析,并且支持 VectorOcean 数据支撑平台等应用。

在赋能大模型应用方面,DingoDB 的应用被分为四个不同的层次,涵盖了从数据到 Embedding Model的整个流程。包括使用业界公开或自研的大型模型和 Embedding 模型来实现数据的向量化。在向量存储层面用 DingoDB 支撑各种场景,然后再去对接大语言模型去实现各种应用。

知识管家是大模型时代,基于向量数据库和大模型的一个新的应用方向。DingoDB 为知识管家提供了强有力的支撑。知识管家主要负责企业的知识管理和创造,应用场景包括智能问答、内容创作助手、智能化工作流程、企业决策辅助等等。

关于DingoDB的进一步信息和开源代码可以通过 GitHub 获取。

http://github. com/dingodb/dingo。

https://github. com/dingodb/dingo-store。

https://www. dingodb. com/。

来源:DataFunTalk内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯