文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Postgresql数据库优化上该考虑些什么

2024-11-30 18:00

关注

硬件资源不足的问题我们就不多加讨论了,这种情况一般会出现在CPU、IO等方面,在分析这方面问题的时候,需要关注R队列的长度是否超过CPU逻辑核数的2倍以上,对于IO来说,不仅仅要看IOPS/IO吞吐量等指标,更重要的是要看IO延时是否合理。

操作系统配置不合理是绝大多数PG数据库都存在的问题,这方面实际上是有一些最佳实践的。

[sysctl]

vm.swappiness = 1

vm.dirty_background_ratio = 10

vm.dirty_ratio = 40

vm.dirty_expire_centisecs = 3000

vm.dirty_writeback_centisecs = 500

kernel.shmmax = 18446744073692700000

kernel.shmall = 18446744073692700000

kernel.shmmni = 4096

kernel.sem = 250 512000 100 2048

fs.file-max = 312139770

fs.aio-max-nr = 1048576

net.ipv4.ip_local_port_range = 2048 65499

# Permits sockets in the time-wait state to be reused for new connections:

net.ipv4.tcp_tw_reuse = 1

net.core.netdev_budget = 1024

net.core.netdev_max_backlog = 2048

net.core.rmem_default = 262144

net.core.rmem_max = 4194304

net.core.wmem_default = 262144

net.core.wmem_max = 1048576

kernel.panic_on_oops = 1

# We don't need NUMA balancing in this box:

kernel.numa_balancing = 0

# Used if not defined by the service:

net.core.somaxconn = 4096

# Other parameters to override throughput-performance template

net.ipv4.tcp_rmem = 4096 87380 16777216

net.ipv4.tcp_wmem = 4096 65536 16777216

net.ipv4.tcp_window_scaling = 1

net.netfilter.nf_conntrack_max = 250000

net.ipv4.tcp_max_syn_backlog=4096

[vm]

transparent_hugepages=never

上面是一个红帽公司对于PG数据库RHEL参数优化的建议,大家可以参考,对于绝大多数高负载的系统来说,都是有效的。大家要注意的是,关于脏块回写的设置,对于不同的写IO负载以及不同的底层IO硬件,可能调整会有不同,甚至会有截然相反的配置策略。要注意的是,绝对不能因为不合理的脏块刷新策略导致了OS IO负载的过载。在此前提下,缩短IO写盘的周期对于提高并发负载是有帮助的。

文件系统的设计对于大型系统来说十分关键,除了使用XFS与EXT4等带日志的文件系统并且打开日志功能外,设置文件系统的mount参数对性能也有很大影响。文件系统的条带大小、块大小要与PG数据库匹配,MOUNT时也要加入nobarrier、noatime,nodiratime等参数,并做好扇区对齐,除此之外就是文件存储方面的性能优化了。

很多DBA都只会设置一个$PGDATA,整个数据库都放在同一个文件系统上,这需要对文件系统底层的卷做十分细致的优化,确保整个卷的IO能力是优秀的,这一点总是无法做到的。因此在数据库设计的时候就通过WAL与数据文件分离,热数据与冷数据分离,通过表空间隔离热点IO等方式规划PG数据库的文件存储。如果应用系统已经无法通过表空间来隔离IO热点,那么通过软连接将部分库的目录迁移到其他文件系统也是一个可行的方案。

对于数据库参数来说,实际上不同的应用场景下的最佳调整方案是不同的,一般来说,设置合理的shared_buffers,以及优化好相关的而bgwriter,WAL,checkpoint,work_mem,VACUUM等相关的参数,就能够满足大多数应用的需求了。在这里我们就不做过多的讨论了。在这方面我以前写过十多篇文章,有兴趣的朋友可以到公众号通过搜索“性能优化”或者通过公众号的菜单去查找。

并发控制不合理方面的问题是比较容易被忽视的问题,事务隔离级别用错对于性能的影响极大,不过一般情况下我们都是使用read committed,不要轻易去修改数据库级的事务隔离级别。

并发的另外一个方面是系统中的各类并发访问的控制,特别是并行执行的设置。max_worker_processes、max_parallel_workers、max_parallel_maintenance_workers和max_parallel_workers_per_gather等参数对数据库的并发度控制都至关重要。

如果并发相关的设置过小,那么当活跃会话数量不高的时候,无法充分发挥服务器硬件的资源优势,造成巨大的浪费。PG数据库可以支撑巨大的数据库与极高的并发,因此如果服务器的配置足够好,系统资源使用率不高,但是应用性能无法达到设计要求,那么我们就应该关注一下是否并发控制相关的参数设置过低了。默认的PG参数里,max_worker_processes是偏小的,仅仅是8,对于有上百甚至上千个逻辑核数的服务器来说是完全不够用的。

当然如果因为并发控制参数设置的过高而导致了CPU等资源出现了不足,因为IOPS过大或者IO吞吐量过大,底层存储能力不足导致的IO延时过大等现象,那么适当调低这些参数对数据库的整体性能提升是有帮助的。

PG的SHARED_BUFFERS设置不合理可能会导致缓冲区命中率不高,从而影响SQL的执行性能。不过PG数据库是使用DOUBLE BUFFER机制的,要想为你的应用调整好缓冲区并不容易。再怎么调整都无法满足不同场景的应用,有些时候DBA真的很难通过调整来优化这方面的性能。对于一些定期的报表等应用,在跑批之前做数据预热可能是DBA能够控制的优化方法,也是最为有效的提升统计报表性能的方法。

最后一点,自动化任务冲突是所有数据库都会遇到的性能问题,如果数据库备份,大批量统计作业与大数据量导入导出同时发生,再好的硬件也可能撑不住,因此在设计这些定期任务的时候,一定要通过算法将这些作业分开,千万不要让这些大型操作存在最大公约数。否则哪怕现在你的系统没问题,几年后,还是会出问题的。

来源:白鳝的洞穴内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯