文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

分布式数据库排序及优化

2024-12-02 06:00

关注

2. 排序问题

分布式数据库中排序也是一种重要的功能。一条查询排序语句select *from t1 order by field1,需要查询的数据可能会分布在不同的数据分片中。这就需要proxy对为不同数据分片返回的有序数据进行重排序,然后后给client返回全局有序的数据。

当相关的数据量不大时,proxy可把不同数据分片返回的数据保存在内存中,然后对内存中的数据重排序后返回给client。当相关的数据量比较大时,如果把待重排序数据放到内存中则可能会导致OOM,如果把待重排序数据暂存在proxy的磁盘中,则也有耗尽磁盘的风险并且会存在大量的磁盘IO。下面将介绍一种分布式数据库排序及优化方法。

二、解决方案

1. 排序方案介绍

为了提高分布式排序的性能,每个数据分片本身也要参与排序。这样在proxy上得到分片返回的数据是有序的,proxy对有序的数据重排序可以采用归并排序或者优先级队列排序方法,大大减轻proxy的压力。

可以根据proxy内存大小配置sort buffer大小,通常默认为10M。如果一次查询语句关联N个数据分片,则需要到sort buffer按照N份进行切分,每个数据分片对应切分后的sort buffer大小为10M/N。

直接在内存中进行,具体步骤如下图:

2. 排序方案缺陷

这种方法只能满足小数据量排序,当排序的数据量较大我们可以选择调大proxy上的sort buffer。但是调大sort buffer会占用更多的内存资源,所以不能无限制的调大sort buffer。

3. 排序优化思路

把数据分片返回的有序数据保存到磁盘上,然后对磁盘数据进行重排序。下面将介绍一种优化方案,针对大数据量进行分布式排序的方法。

三、优化方案

1. 排序方案介绍

由于内存的限制,在内存中对大数据量数据进行归并排序方案不可行,针对这种情况需要把数据分片返回的数据暂存在磁盘中。具体优化方案步骤如下图:

(1) client向proxy下发排序查询语句 select *from t1 order by id。

(2) proxy根据分片键向相关的数据分片group1、group2下发排序查询语句select *from t1 order by id。

(3) 数据分片在本地对数据进行查询排序后,发送有序数据到proxy。

(4) proxy把数据分片返回的有序数据存储在数据分片对应的磁盘文件中。

(5) 使用优先级队列排序方法进行重排序:

2. 排序方案缺陷

proxy需要收集完所有相关数据分片的有序数据存入磁盘可以解决内存不够的问题,但是磁盘也是有限的,当数据量太大在proxy上磁盘也可能无法容纳需要排序的数据。

proxy上把数据存在磁盘,存在大量的磁盘IO。

以select * from t1 order by field1 limit 100w为例:如果本次查询的数据在50个数据分片上,则proxy节点需要从每个数据分片上拉取100w数据然后保存到磁盘上。这样需要保存5000W数据(100w*50),而client只需要100w条数据,浪费了很多网络带宽和磁盘IO。

3. 排序优化思路

这种方法是proxy把相关数据分片的有序数据全部拉取到proxy上,然后再进行排序。我们是否分批从数据分片拉取数据,批量数据处理后再从数据分片拉取下一批数据呢?下面将介绍一种分批排序的方法。

四、最终方案

1. 排序方案介绍

proxy上磁盘上不保存数据分片数据,一次从数据分片拉取固定大小的有序数据,proxy把拉取的数据填充到分片对应的sort buffer,sort buffer中数据使用完后再次从对应的数据分片上拉取。具体步骤如下图:

(1) client向proxy下发排序查询语句 select *from t1 order by id。

(2) proxy根据分片键向相关的数据分片group1、group2下发排序查询语句select *from t1 order by id。

(3) 数据分片在本地对数据进行查询排序后,发送固定大小有序数据到proxy。

(4) proxy把数据分片返回的有序数据存储在数据分片对应的sort buffer中。

(5) 优先级队列排序:

2. 排序方案分析

针对优化方案3.2存在的三个缺陷的解决情况:

(1) 缺陷1:proxy需要收集完所有相关数据分片的有序数据存入磁盘可以解决内存不够的问题,但是磁盘也是有限的,当数据量太大在proxy上磁盘也可能无法容纳需要排序的数据。

解决情况:从图中可以看出proxy的磁盘上不保存数据分片的数据。

(2) 缺陷2 :proxy上把数据存在磁盘,存在大量的磁盘IO。

解决情况:proxy的磁盘上不保存数据分片的数据,所以不存在磁盘压力太大问题。

(3) 缺陷3:select * from t1 order by field1 limit 100w为例:如果本次查询的数据在50个数据分片上,则proxy节点需要从每个数据分片上拉取100w数据然后保存到磁盘上,需要保存5000W数据(100w*50),而client只需要100w条数据,浪费了很多网络带宽和磁盘IO。

解决情况:每次从数据分片拉取固定大小的数据,边排序边给客户端返回数据,当给客户端返回的数据达到100W时则完成本次查询,网络带宽浪费得到大大改善。

假设proxy上数据分片对应的sort buffer大小为2M,从数据分片拉取的数据量:

最坏情况:拉取的数据量为 2M*50+100W,并且不需要保存磁盘。

最好情况:数据分布很均匀,给client返回100w数据后,所有sort buffer分片对应的数据正好基本取空(都剩下一条),此时拉取的数据量为 100W+50。

3. 方案使用限制

(1) 数据分片节点本身支持排序,绝大多数数据分片都是支持排序的。

(2) 数据分片需要支持分批读取。

以MySQL作为数据分片为例,则需要 proxy上可以使用流式查询或者游标查询。另外有些分布式数据库在设计时就考虑到一些分布式的问题,它们数据分片节点在查询结束前一直保留上下文,它们的分批读取性能更高,这里就不再举例。

来源:vivo互联网技术内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯