文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Apache Doris刚刚 "毕业":这个SQL数据仓库有什么不一样?

2024-12-01 20:00

关注

Doris,原名 Palo,是一个开源的、基于SQL的大规模并行处理 (MPP) 分析数据仓库,诞生于中国互联网搜索巨头百度,作为其广告业务的数据仓库系统,2017 年开源,2018 年进入 Apache 孵化器。

不久前,Doris获得了顶级项目的地位,根据Apache软件基金会(ASF)的说法,这意味着 "它已经证明了它有能力进行适当的自治"。

数据仓库最近发布了 1.0 版,这 是它在孵化器中进行开发的第八个版本(以及六个连接器版本)。它旨在支持在线分析处理 (OLAP)工作负载,通常用于数据科学场景。

Doris 植根于 Apache Impala 和 Google Mesa

根据 Apache 软件基金会的说法,Doris 是基于Google Mesa和 Apache Impala 的集成,Apache Impala 是 2012 年开发的开源 MPP SQL 查询引擎,基于 Google F1 的基础。

Mesa 在 2014 年左右被设计成一个高度可扩展的分析数据仓库系统,用于存储与谷歌互联网广告业务相关的关键测量数据。

据百度和 Apache 孵化器的开发人员称,Doris 提供了简单的设计架构,同时提供了高可用性、可靠性、容错性和可扩展性。

“在单一系统中(开发、部署和使用)的简单性和满足许多数据服务需求是 Doris 的主要特点,”Apache 软件基金会在一份声明中表示,并补充说数据仓库支持多维报告、用户画像、临时查询和实时仪表板。

Doris 的其他一些功能包括列存储、并行执行、矢量化技术、查询优化、ANSI SQL,以及通过 Apache Flink、Apache Hive、Apache Hudi、Apache Iceberg、Apache Spark 和 Elasticsearch 的连接器与其他大数据生态系统集成。

开源数据库的使用量预计将增长

对企业级开源数据库的接受程度一直在增长。在Gartner的《2019年开源DBMS市场状况》报告中,该咨询公司预测,到2022年底,超过70%的新内部应用将在开源数据库管理系统(OSDBMS)或基于OSDBMS的数据库平台即服务(dbPaaS)上开发。

此外,随着数据的激增和企业对实时分析的需求的增长,一个简单但同时也是开源的大规模并行处理数据库似乎成为了当下的需要。

“随着数据量的增长,MPP 数据库成为能够以足够快或足够便宜的方式处理数据以满足组织需求的唯一现实方法,”Ventana Research 研究总监 David Menninger 说。

云架构激发了人们对 MPP 数据库的兴趣

Menninger 说,推动 MPP 数据库的其他趋势是相对便宜的基于云的服务器实例的可用性,这些实例可以用作 MPP 配置的一部分,从而消除了采购和安装这些系统使用的物理硬件的需要。

Menninger 为 Doris 提供了一个案例,他说虽然有许多 MPP 数据库选项,其中一些是开源的,但实际上并没有开源 MPP MySQL 替代方案。

“MySQL 本身和MariaDB已被扩展以支持更大的分析工作负载,但它们最初是为事务处理而设计的,”Menninger 说,并补充说开源 PostreSQL 数据库Greenplum和 Google BigQuery、Amazon RedShift 和 Microsoft Synapse 等超大规模服务可能是被视为多丽丝的竞争对手。

此外,Gartner 前大数据和分析研究副总裁 Sanjeev Mohan 表示,ClickHouse、Apache Druid 和 Apache Pinot 也可以被视为竞争对手。

根据 Apache 基金会的说法,使用 Doris 可能具有多种优势,例如架构简单和更快的查询时间。

Doris 简单的原因之一是它不依赖于多个组件来执行诸如类管理、同步和通信等任务。其快速查询时间可归因于矢量化,该过程允许程序或算法一次对多个值集合而不是单个值进行操作。

据 Apache 基金会的开发人员称,数据仓库的另一个好处是 Doris 的超高并发支持,这意味着它可以同时处理来自数万用户的处理数据和从数据库中获取洞察力的请求。

对高并发性的需求已经增加,因为大多数组织都允许其员工访问数据,以推动数据驱动的洞察力,而只有 C 级高管才能访问分析。


原文​​Apache Doris just 'graduated': Why care about this SQL data warehouse​

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯