文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

PostgreSQL中怎么批量导入数据

2024-04-02 19:55

关注

这篇文章将为大家详细讲解有关PostgreSQL中怎么批量导入数据,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。

概述

考虑PostgreSQL数据库批量导入数据时性能缓慢的原因,无非有几个因素:索引,触发器,外键,GUID主键,还有可能是预写日志(WAL)。我们就从这几个影响因素着手优化。当然有可能,本文说的这些技巧都不能有效问题,遇到这样的问题时候,就需要我们具体问题具体分析,并针对性的解决。

关闭日志记录

对于PostgreSQL 9.5及更高版本,可以先将目标表更改为UNLOGGED,然后在加载数据后将其更改回LOGGED:

ALTER TABLE <target table> SET UNLOGGED <批量导入数据&hellip;> ALTER TABLE <target table> LOGGED

UNLOGGED模式可以确保PostgreSQL不会在变量导入数据时将表写操作记录到预写日志(WAL),从而极大的优化导入过程。但是,由于未记录操作,因此如果在加载过程中发生崩溃或服务器关机等故障,则无法恢复数据。PostgreSQL重新启动后将自动截断任何未记录的表。

PostgreSQL中怎么批量导入数据

另外,未记录的表不会复制到备用服务器。在这种情况下,必须在加载之前删除现有的复制,并在加载之后重新创建。根据主节点中的数据量和备用数据库的数量,重建复制的时间可能会很长,对于高可用性要求来说这是不可接受的。

建议采用以下方法,将数据批量插入未记录的表中:

对可以轻松重新填充的表使用UNLOGGED的批量插入(例如,大型查找表或维度表)。

删除索引

数据库索引可能在批量数据插入期间导致严重的延迟。因为添加数据过程,对应的索引条目需要实时更新。

建议在开始批量插入之前尽可能删除目标表中的索引,并在导入完成后重新创建索引。同样,在大型表上创建索引可能很耗时,但是比在加载过程中更新索引要快。

DROP INDEX <index_name1>, <index_name2> &hellip; <index_name_n> <批量导入数据&hellip;> CREATE INDEX <index_name> ON <target_table>(column1, &hellip;,column n)

创建索引之前,临时提高maintenance_work_mem配置参数可能会有帮助。增加的工作内存可以帮助更快地创建索引。

为了安全起见的另一种选择是使用现有数据和索引在同一数据库中复制目标表。然后,测试有索引和删除索两种情况下批量导入数据的性能对比,然后根据测试结果选择更好的方法。

删除外键

和索引一样,外键约束也会影响大批量导入的性能。因为导入过程中必须检查插入的每个行数据的每个外键是否存在相应的主键。当批量导入时,必须为每一行触发该触发器检查外键,从而增加了开销。

除非受到业务规则的限制,否则建议先从目标表中删除所有外键,在单个事务中加载数据,然后在提交事务后重新创建外键。

ALTER TABLE <target_table> DROP CONSTRAINT <foreign_key_constraint>   BEGIN TRANSACTION <批量导入数据&hellip;> COMMIT   ALTER TABLE <target_table> ADD CONSTRAINT <foreign key constraint> FOREIGN KEY (<foreign_key_field>) REFERENCES <parent_table>(<primary key field>)...

同样增加maintenance_work_mem配置参数也能提高重新创建外键约束的性能。

暂停触发器

INSERT或DELETE触发器(如果导入过程还涉及从目标表中删除记录)可能会导致批量数据导入延迟。这是因为每个触发器将具有需要检查的逻辑,并且需要在每行被插入或删除后立即完成操作。

建议在批量导入数据之前禁用目标表中的所有触发器,并在导入完成后再启用它们。禁用所有触发器也会强制执行外键约束检查的系统触发器。

ALTER TABLE <target table> DISABLE TRIGGER ALL <批量导入数据&hellip;> ALTER TABLE <target table> ENABLE TRIGGER ALL

使用多值INSERT

对于成批数据加载,运行数千个或数十万个INSERT语句可能是个糟糕的选择。因为查询优化器必须解析和准备每个单独的INSERT命令,然后进行所有约束检查,作为单独的事务运行并记录日志。而使用多值单个INSERT语句可以节省这些不必要的开支。

INSERT INTO <target_table> (<column1>, <column2>, &hellip;, <column_n>) VALUES (<value a>, <value b>, &hellip;, <value x>), (<value 1>, <value 2>, &hellip;, <value n>), (<value A>, <value B>, &hellip;, <value Z>), (<value i>, <value ii>, &hellip;, <value L>), ...

多值INSERT性能受现有索引的影响。建议在运行命令之前先删除索引,然后再创建索引。

另一个需要注意的地方是PostgreSQL可用于运行多值INSERT的内存量。运行多值INSERT时,RAM中必须容纳大量输入值,并且除非有足够的可用内存,否则该过程可能会失败。

建议将设置effective_cache_size参数到50%,并将shared_buffer设为机器的总内存的参数设为25%。为了安全起见,将导入划分为多条的多值INSERT,每个语句的值不要超过1000行。

使用COPY命令

建议使用PostgreSQL  COPY命令从一个或多个文件导入数据。COPY针对批量数据导入会进行额外的优化,比运行大量INSERT语句甚至多值INSERTS的都要快。

COPY <target table> [( column1>, &hellip; , <column_n>)] FROM '<文件路径>' WITH (<option1>, <option2>, &hellip; , <option_n>)

使用COPY的还有很多的优势:

运行ANALYZ

这与提高批量数据导入性能无关,但是强烈建议在批量导入之后立即在目标表上运行ANALYZE命令。大量的新导入的行将大大改变数据表中列中的数据分布,并且会使表的统计信息都过时。当用查询优化器使用过时的统计信息时,查询性能可能会非常慢。运行ANALYZE命令将确保更新统计信息。

PostgreSQL中怎么批量导入数据

关于PostgreSQL中怎么批量导入数据就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-数据库
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯