Java实现百万级数据量向MySQL批量插入-编程学习网

大数据向mysql表同步百万级数量，我们需要将大数据表里同步过来的数据分别向三张业务表做数据同步，最终将业务表的数据展示给前台进行相关业务操作。
数据量级
大数据表：700w数据量
三张业务表分别需要同步：23w、80w、680w

针对批量插入选择方案：

mybatis批量插入
mybatis批量插入+数据分批
原生jdbc批量插入+开启事务
原生jdbc批量插入+开启事务+数据分批
原生jdbc批量插入+开启事务+数据分批+多线程

方案对比结果：

mybatis批量插入 1k数据量级
mybatis批量插入+数据分批 10k数据量级
原生jdbc批量插入+开启事务 10w数据量级
原生jdbc批量插入+开启事务+数据分批 100w数据量级
原生jdbc批量插入+开启事务+数据分批+多线程 1000w数据量级

方案对比参考资料：
Mybatis与JDBC批量插入MySQL数据库性能测试
 JAVA向Mysql插入亿级别数据
 Mybatis批量插入
 Mybatis批量插入优化

mybatis批量插入优缺点
优点：便于书写，代码优美，适用于小数据量批量插入
缺点：大数据量的批处理性能低下、批量处理数据量大小受限、导致对象回收GC问题
原生jdbc批量插入优缺点
优点：大数据量的批量处理速度快
缺点：大数据量需要数据分批、受制于jvm资源配置、mysql服务器配置、需要手动关闭数据库连接

原生jdbc批量插入速度优于mybatis原因：
mybatis需要对插入的字段做ORM对象映射数据量越大消耗的资源和时间越多

大数据量批量更新问题背景

完成上述三张业务表插入数据后，我还需要对其中一张23w的表里两个字段做统计，统计的内容是对另一张业务表的80w数据根据客编号进行订单主体数和付款人数量进行统计

使用多线程，多线程配置没考虑java服务器配置导致资源内存不足产生OOM
在内存里进行大数据量的统计

多线程配置：

注：IO密集型（某大厂实践经验）
核心线程数 = CPU核数 / （1-阻塞系数）
或着
CPU密集型：核心线程数 = CPU核数 + 1
IO密集型：核心线程数 = CPU核数 * 2

多线程配置资料参考
java线程池合理设置最大线程数和核心线程数

内存里进行大数据量的统计改为数据库进行统计返回统计结果进行批量更新

内存统计优缺点：
优点：不需要频繁访问数据库和占用数据库连接资源
缺点：占用大量内存资源

数据库统计优缺点：
优点：不需要占用大量内存资源
缺点：需要频繁访问数据库、频繁IO、会占用数据库连接资源

来源地址：https://blog.csdn.net/abc_lx123/article/details/130046164

文章详情

Java实现百万级数据量向MySQL批量插入

大数据量批量更新问题背景

软考中级精品资料免费领

相关文章

猜你喜欢

Java实现百万级数据量向MySQL批量插入

使用Spring Boot + MyBatis-Plus + ThreadPoolTaskExecutor实现批量插入百万级数据

java实现批量插入数据

python向mySQL批量插入数据的方

【mysql】向mysql数据库批量插入数据（循环）

使用java怎么向mysql数据库批量插入数据

mysql中批量插入数据(1万、10万、100万、1000万、1亿级别)

Java实现批量向mysql写入数据的方法

【JDBC】PreparedStatement实现批量插入数据

Python大批量写入数据(百万级别)的方法

SQLServer批量插入数据怎么实现

MyBatis如何实现批量插入数据

Mysql百万量级数据如何高效导入Redis

Java API如何实现向Hive批量导入数据

Python操控mysql批量插入数据的实现方法

MySQL脚本批量自动插入数据及数据可按条件插入实现

PostgreSQL vs MySQL：1000万数据批量插入，谁能略胜一筹

MySQL实现批量插入测试数据的方式总结

使用saveOrUpdateBatch实现批量插入更新数据

如何利用MySqlBulkLoader实现批量插入数据