文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

从ClickHouse迁移到Apache Doris后发生了什么?

2024-11-30 06:05

关注

审校 | 重楼

从一个OLAP数据库迁移到另一个OLAP数据库是工程。即使您对当前的数据工具不满意,并且已经找到了一些有前途的候选工具,可能仍然会犹豫是否要对数据架构进行一番动作,因为您不确定事情如何进展。所以需要过来人分享一下经验

幸运的是,Apache Doris的一个用户已经撰文写下了从ClickHouse迁移到Doris的过程,包括他们为什么需要迁移,需要注意什么,以及如何在环境中比较两数据库的性能。

为了要决定是否继续读下去,请检查是否符合以下其中一项:

如果符合上述任何一项本文对您可能会有所帮助。

把Kylin、ClickHouse和Druid换成Apache Doris

经历这番变化的用户是一家电子商务SaaS提供商。其数据系统提供实时和离线报告、客户细分以及日志分析。最初,他们为这些不同的目的使用不同的OLAP引擎

图1. 这三大部分有各自的痛点

这些组件协同工作时,这个架构可能要求太高而无法导航,因为它需要在开发、监和维护方面了解所有这些组件。此外,每用户扩展集群,必须停止当前集群并迁移所有数据库和表,这不仅仅是一项大工程,还会严重干扰业务的正常运营。

图2. Apache Doris填补了这些空白

于是他们计划迁移

替换过程

ClickHouse是旧数据架构的主要性能瓶颈,也是用户最初希望改变的原因,于是他们开始ClickHouse入手

SQL语句的变化

表创建语句

图3

用户构建了自己的SQL重写工具,该工具可以将ClickHouse表创建语句转换Doris表创建语句。该工具可以自动执行以下更改

图4

查询语句

同样,他们有自己的工具将ClickHouse查询语句转换Doris查询语句。这是为ClickHouse和Doris的对比测试做准备。转换中的关键考虑因素包括如下:

数据摄取方法的变化

图5

Apache Doris为数据写入方法提供了众多选项。对于实时链路,用户采用Stream Load从NSQ和Kafka中摄取数据。

针对庞大的离线数据,用户测试了不同的方法,以下是一些建议

1. Insert Into

使用Multi-Catalog读取外部数据源并使用Insert Into摄取数据,可以满足用例中的大多数需求。

2. Stream Load

Spark-Doris-Connector是一种更通用的方法。可以处理庞大数据量,保证写入稳定性。关键在于找到合适的写节奏和并发处理

Spark-Doris-Connector支持位图。它允许您在Spark集群中移动位图数据的计算工作负载。

Spark-Doris-Connector和Flink-Doris-Connector都依赖Stream Load。CSV是推荐的格式选择。针对该用户数十亿行的测试表明,CSV比JSON快40%。

3. Spark Load

Spark Load方法利用Spark资源进行数据混排和排序。计算结果放在HDFS中,然后Doris直接从HDFS中读取文件通过Broker Load。这种方法非常适合大量数据的摄取。数据越多,摄取的速度越快,资源效率也越高。

压力测试

用户比较了两个组件在SQL连接查询场景下的性能,并计算了Apache Doris的CPU和内存消耗情况

SQL查询性能

就性能而言,Apache Doris在16个SQL查询中有10个优于ClickHouse,性能最多相差近30。总的来说,Apache Doris比ClickHouse快2~3倍。

图6

连接查询性能

针对连接查询测试,用户使用了不同大小的主表和维度表。

测试包括连接查询和过滤连接查询。全连接查询连接主表和维度表的所有行,而过滤连接查询使用WHERE过滤器检索某个卖家ID的数据。研究结果如下

主表40亿行):

主表250亿行):

主表960亿行):

原文Migrating From ClickHouse to Apache Doris: What Happened?,作者:Frank Z

来源:51CTO内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯