文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

基于Doris ,打造快速、安全、高可靠的实时数据仓库

2024-11-30 02:41

关注

1 使用Apache Doris构建实时数据仓库

1.1 数据模型选择

Apache Doris使用三种数据模型来组织数据,这些模型之间的主要区别在于是否以及如何聚合数据。

金融用户在不同的数据仓库层中采用不同的数据模型:

1.2 分区和桶化策略

分区和桶化的思想是将数据“切割”成较小的部分,以增加数据处理速度。关键是设置适当数量的数据分区和桶。根据使用情况,根据每个表自定义桶化字段和桶的数量。例如,经常需要从零售商扁平表查询不同零售商的维度数据,因此可以将零售商ID列指定为桶化字段,并列出各种数据大小的推荐桶数量。

图片

2 多源数据迁移

在采用Apache Doris时,需要将所有分支机构的本地数据迁移到Doris中,但会发现分支机构使用了不同的数据库,并且具有非常不同的数据文件格式,所以迁移可能会很混乱。

图片

幸运的是,Apache Doris支持丰富的数据集成方法,既支持实时数据流式处理,又支持离线数据导入。

3 全量数据摄取和增量数据摄取

为了确保业务连续性和数据准确性,可用以下摄取全量数据和增量数据的方法:

alter table ${DB_NAME}.${TBL_NAME} drop partition IF EXISTS p${P_DOWN_DATE};
ALTER TABLE ${DB_NAME}.${TBL_NAME} ADD PARTITION IF NOT EXISTS p${P_DOWN_DATE} VALUES[('${P_DOWN_DATE}'), ('${P_UP_DATE}'));

LOAD LABEL ${TBL_NAME}_${load_timestamp} ...

4 离线数据处理

已经将部分离线数据处理工作迁移到Apache Doris,并把执行速度提高了5倍。

图片

5 面向金融机构的企业功能

多租户资源隔离

这是必需的,因为经常会发生多个团队或业务系统请求同一数据的情况。这些任务可能导致资源抢占,从而降低性能和系统的稳定性。

5.1 不同工作负载的资源限制

这里把分析工作负载分为四类,并为每个类别设置了资源限制。特别是拥有四种不同类型的Doris账户,并为每种类型的账户设置了CPU和内存资源的限制。

图片

通过这种方式,当一个租户需要过多的资源时,它只会影响自己的效率,而不会影响其他租户。

5.2 基于资源标签的隔离

为了满足母子公司层级的数据安全性,这里为子公司设置隔离的资源组。每个子公司的数据存储在其自己的资源组中,并具有三个副本,而母公司的数据则存储在四个副本中:三个在母公司资源组中,另一个在子公司资源组中。因此,当子公司的员工请求母公司的数据时,查询只会在子公司资源组中执行。具体而言,采取以下步骤:

图片

5.3 工作负载组

基于资源标签的隔离方案确保了物理级别的隔离,但作为Apache Doris开发人员,希望进一步优化资源利用率并追求更细粒度的资源隔离。为此,在Apache Doris 2.0中推出了工作负载组功能。

工作负载组机制将查询与工作负载组相关联,限制了查询可以使用的后端节点的CPU和内存资源的共享。当集群资源短缺时,最大的查询将停止执行。相反,当集群资源充足且工作负载组需要的资源超过限制时,它将按比例分配空闲资源。

5.4 细粒度用户权限管理

出于规章制度和合规性原因,有的提供商实施严格的权限控制,以确保每个人只能访问他们应该访问的内容。参考做法如下:

图片

6 集群稳定性保证

来源:Java学研大本营内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯