文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

基于DataX的海量时序数据迁移实战:从MySQL到TDengine3.x

2023-08-31 09:01

关注

背景

MySQL 数据库中,设备历史数据单表过亿,如何快速、低成本地迁移到 TDengine3.x 中?

从标题可以看出,我们使用的数据迁移/同步工具是 DataX ,数据源( Source )为传统的关系型数据库 MySQL ,目标库( Sink )为新型的具有场景特色的时序数据库 TDengine

DataX:是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。 DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。

MySQL:略。。

TDengine:是一款开源、高性能、云原生的时序数据库 (Time-Series Database, TSDB)。 TDengine 能被广泛运用于物联网、工业互联网、车联网、 IT 运维、金融等领域。除核心的时序数据库功能外, TDengine 还提供缓存、数据订阅、流式计算等功能,是一极简的时序数据处理平台,最大程度的减小系统设计的复杂度,降低研发和运营成本。

MySQLTDengine3.x 进行数据迁移,即面临异构数据的迁移。首先要了解下 MySQLTDengine 的数据模型方面的区别,具体可参考涛思数据官方提供的一个关于电表数据的模型对比:写给MySQL开发者的 TDengine入门指南

数据模型

以水库水位监测的案例说明,在 MySQL 中我们会有1张设备信息表(设备编号、厂家、型号等信息)和1张设备数据表(传感器采集的时序数据)。

2023-05-28-Device.jpg

2023-05-28-WaterTable.jpg

针对 MySQL 中的2张表,以 TDengine 的设计思想来建模:在迁移到 TDengine 后会变成1张超级表+N(设备的数量)张子表,且每张子表的名称对应 MySQL 设备信息表中的每个设备编码。具体地来说, TDengine 中的数据模型如下:

create database if not exists sensor;create stable if not exists sensor.water(ts timestamp, level float, status int) tags(district_code nchar(6), unit_id nchar(36), sensor_code int);

这里仅创建了1张超级表,具体的子表会在进行数据迁移时,根据 MySQL 设备信息表中的设备编码自动创建。

2023-05-28-Desc.jpg

准备迁移工具

一开始我直接从https://github.com/taosdata/DataX的README中的:Download DataX下载地址下载的,但是后来才发现没有 TDengine3.x 版本的writer;然后直接下载https://github.com/taosdata/DataX的源码,本地编译生成了 jar 包,放到了 DataXplugin 目录中。

2023-05-28-mvn.jpg
Note:本地源码 mvn clean package -Dmaven.test.skip=true 构建生成 tdengine30writer-0.0.1-SNAPSHOT.jar 后,在 \datax\plugin\writer 下复制 tdenginewriter 目录,重命名为 tdengine30writer ,对应修改了其中的 plugin.jsonplugin_job_template.json ,以及 libs 目录下的 taos-jdbcdriver-3.0.2.jar

2023-05-28-Plugin.jpg
至此,工具就准备好了,剩下的就是编写数据迁移的配置脚本了。

迁移设备信息表

job-water.json :迁移配置脚本分两部分:一个是数据源,一个是目标库。迁移设备信息表这一步的结果就是创建了所有的子表:一个设备一张表。

Note:这里在设备编码前加了一个字母d,因为在 TDengine 中表名不可以为数字。

“name”: “tdengine30writer”, 在 column 部分罗列出数据源中查询出的列名,与 MySQL 数据源中的顺序和名称一一对应,表名 table 处直接写超级表的名称。

{    "job": {        "content": [            {                "reader": {                    "name": "mysqlreader",                    "parameter": {                        "username": "root",                        "password": "your-password",                        "connection": [{    "jdbcUrl": [        "jdbc:mysql://your-ip:3306/iotdata?useSSL=false&serverTimezone=Asia/Shanghai"    ],    "querySql": [        "select concat('d', code) as tbname, create_time as ts, sensor_code, district_code, unit_id from b_device WHERE sensor_code=2;"    ]}                        ]                    }                },                "writer": {                    "name": "tdengine30writer",                    "parameter": {                        "username": "root",                        "password": "taosdata",                        "column": ["tbname","ts","sensor_code","district_code","unit_id"                        ],                        "connection": [{    "table": [        "water"    ],    "jdbcUrl": "jdbc:TAOS-RS://192.168.44.158:6041/sensor"}                        ],                        "batchSize": 1000,                        "ignoreTagsUnmatched": true                    }                }            }        ],        "setting": {            "speed": {                "channel": 1            }        }    }}
D:\datax\bin>datax.py ../job/job-water.json

迁移设备数据表

job-water-data.json :迁移配置脚本分两部分:一个是数据源,一个是目标库。迁移设备数据表这一步的结果便会将传感器数据根据设备编号写入对应的子表中。

迁移设备数据表时,查询传感器采集的字段,同样对设备编码起别名为 tbnameTDengine 自动会将数据写入对应的子表。

column 部分罗列出数据源中查询出的列名,与 MySQL 数据源中的顺序和名称一一对应,配置设备数据表时,需要注意,表名 table 处要写所有子表的名称。

{    "job": {        "content": [            {                "reader": {                    "name": "mysqlreader",                    "parameter": {                        "username": "root",                        "password": "your-password",                        "connection": [{    "jdbcUrl": [        "jdbc:mysql://your-ip:3306/iotdata?useSSL=false&serverTimezone=Asia/Shanghai&net_write_timeout=600"    ],    "querySql": [        "select concat('d', code) as tbname, create_time as ts, value as level, status from sensor_water;"    ]}                        ]                    }                },                "writer": {                    "name": "tdengine30writer",                    "parameter": {                        "username": "root",                        "password": "taosdata",                        "column": ["tbname","ts","level","status"                        ],                        "connection": [{    "table": [        "d66057408201830",        "d66057408063030",        "d66057408027630",        "d66057408208130",        "d66057408009630",        "d66057408000530",        "d66057408067330",        "d66057408025430"    ],    "jdbcUrl": "jdbc:TAOS-RS://192.168.44.158:6041/sensor"}                        ],                        "encoding": "UTF-8",                        "batchSize": 1000,                        "ignoreTagsUnmatched": true                    }                }            }        ],        "setting": {            "speed": {                "channel": 1            }        }    }}
D:\datax\bin>datax.py ../job/job-water-data.json

使用DataX可能遇到的问题

DataX中文乱码

执行 D:\datax\bin>datax.py ../job/job.json 后,控制台上的中文输出乱码。

2023-05-28-SubTable.jpg

插件加载失败, 未完成指定插件加载:[mysqlreader, tdengine20writer]

com.alibaba.datax.common.exception. DataXException: Code:[TDengineWriter-00], Description:[parameter value is missing]. - The parameter [username] is not set.

java.lang. ClassCastException: java.lang. String cannot be cast to java.util. List

com.alibaba.datax.common.exception. DataXException: Code:[TDengineWriter-02], Description:[runtime exception]. - No suitable driver found for [“jdbc: TAOS-RS://192.168.44.158:6041/sensor”]

空指针错误:ERROR WriterRunner - Writer Runner Received Exceptions:

java.lang.NullPointerException: null        at com.taosdata.jdbc.rs.RestfulDriver.connect(RestfulDriver.java:111) ~[taos-jdbcdriver-2.0.37.jar:na]        at java.sql.DriverManager.getConnection(Unknown Source) ~[na:1.8.0_311]        at java.sql.DriverManager.getConnection(Unknown Source) ~[na:1.8.0_311]        at com.alibaba.datax.plugin.writer.tdenginewriter.DefaultDataHandler.handle(DefaultDataHandler.java:75) ~[tdenginewriter-0.0.1-SNAPSHOT.jar:na]

com.alibaba.datax.common.exception. DataXException: Code:[TDengineWriter-02], Description:[运行时异常]. - TDengine ERROR (2600): sql: describe 66057408201830, desc: syntax error near “66057408201830”

com.mysql.jdbc.exceptions.jdbc4. CommunicationsException: Application was streaming results when the connection failed. Consider raising value of ‘net_write_timeout’ on the server.

MySQL 中查看变量值: SHOW VARIABLES LIKE "net%"

2023-05-28-NetParam.jpg

小总结

以上便是基于 DataX 完成从 MySQLTDengine3.x 的时序数据迁移实战记录,借助 DataX 工具,通过配置文件驱动的方式完成了海量时序数据的快速迁移。

实际的迁移测试结果是,3000+个水库水位传感设备,历史数据单表1亿+,半天时间迁移了5000万+。

Reference


If you have any questions or any bugs are found, please feel free to contact me.

Your comments and suggestions are welcome!

来源地址:https://blog.csdn.net/u013810234/article/details/130910778

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-数据库
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯