Doris,原名 Palo,是一个开源的、基于SQL的大规模并行处理 (MPP) 分析数据仓库,诞生于中国互联网搜索巨头百度,作为其广告业务的数据仓库系统,2017 年开源,2018 年进入 Apache 孵化器。
不久前,Doris获得了顶级项目的地位,根据Apache软件基金会(ASF)的说法,这意味着 "它已经证明了它有能力进行适当的自治"。
数据仓库最近发布了 1.0 版,这 是它在孵化器中进行开发的第八个版本(以及六个连接器版本)。它旨在支持在线分析处理 (OLAP)工作负载,通常用于数据科学场景。
Doris 植根于 Apache Impala 和 Google Mesa
根据 Apache 软件基金会的说法,Doris 是基于Google Mesa和 Apache Impala 的集成,Apache Impala 是 2012 年开发的开源 MPP SQL 查询引擎,基于 Google F1 的基础。
Mesa 在 2014 年左右被设计成一个高度可扩展的分析数据仓库系统,用于存储与谷歌互联网广告业务相关的关键测量数据。
据百度和 Apache 孵化器的开发人员称,Doris 提供了简单的设计架构,同时提供了高可用性、可靠性、容错性和可扩展性。
“在单一系统中(开发、部署和使用)的简单性和满足许多数据服务需求是 Doris 的主要特点,”Apache 软件基金会在一份声明中表示,并补充说数据仓库支持多维报告、用户画像、临时查询和实时仪表板。
Doris 的其他一些功能包括列存储、并行执行、矢量化技术、查询优化、ANSI SQL,以及通过 Apache Flink、Apache Hive、Apache Hudi、Apache Iceberg、Apache Spark 和 Elasticsearch 的连接器与其他大数据生态系统集成。
开源数据库的使用量预计将增长
对企业级开源数据库的接受程度一直在增长。在Gartner的《2019年开源DBMS市场状况》报告中,该咨询公司预测,到2022年底,超过70%的新内部应用将在开源数据库管理系统(OSDBMS)或基于OSDBMS的数据库平台即服务(dbPaaS)上开发。
此外,随着数据的激增和企业对实时分析的需求的增长,一个简单但同时也是开源的大规模并行处理数据库似乎成为了当下的需要。
“随着数据量的增长,MPP 数据库成为能够以足够快或足够便宜的方式处理数据以满足组织需求的唯一现实方法,”Ventana Research 研究总监 David Menninger 说。
云架构激发了人们对 MPP 数据库的兴趣
Menninger 说,推动 MPP 数据库的其他趋势是相对便宜的基于云的服务器实例的可用性,这些实例可以用作 MPP 配置的一部分,从而消除了采购和安装这些系统使用的物理硬件的需要。
Menninger 为 Doris 提供了一个案例,他说虽然有许多 MPP 数据库选项,其中一些是开源的,但实际上并没有开源 MPP MySQL 替代方案。
“MySQL 本身和MariaDB已被扩展以支持更大的分析工作负载,但它们最初是为事务处理而设计的,”Menninger 说,并补充说开源 PostreSQL 数据库Greenplum和 Google BigQuery、Amazon RedShift 和 Microsoft Synapse 等超大规模服务可能是被视为多丽丝的竞争对手。
此外,Gartner 前大数据和分析研究副总裁 Sanjeev Mohan 表示,ClickHouse、Apache Druid 和 Apache Pinot 也可以被视为竞争对手。
根据 Apache 基金会的说法,使用 Doris 可能具有多种优势,例如架构简单和更快的查询时间。
Doris 简单的原因之一是它不依赖于多个组件来执行诸如类管理、同步和通信等任务。其快速查询时间可归因于矢量化,该过程允许程序或算法一次对多个值集合而不是单个值进行操作。
据 Apache 基金会的开发人员称,数据仓库的另一个好处是 Doris 的超高并发支持,这意味着它可以同时处理来自数万用户的处理数据和从数据库中获取洞察力的请求。
对高并发性的需求已经增加,因为大多数组织都允许其员工访问数据,以推动数据驱动的洞察力,而只有 C 级高管才能访问分析。
原文Apache Doris just 'graduated': Why care about this SQL data warehouse