文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

怎么将数据从Hadoop导出到关系型和NoSQL数据库

2023-06-02 19:39

关注

小编给大家分享一下怎么将数据从Hadoop导出到关系型和NoSQL数据库,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!

实践:使用Sqoop将数据导出到MySQL

Hadoop擅长与大多数关系型数据库打交道,因此将OLTP数据提取到HDFS,执行一些分析,然后将其导出回数据库是很常见的。

问题

希望将数据写入关系数据库,同时确保写入是幂等的。

解决方案

此技术介绍了如何使用Sqoop将文本文件导出到关系数据库,还介绍了如何配置Sqoop以使用具有自定义字段和记录分隔符的文件。我们还将介绍幂等导出,以确保失败的导出不会使数据库处于不一致状态。

讨论

这种技术假设已经安装MySQL并创建模式。

Sqoop导出要求导出数据库表已存在,Sqoop可以支持表中行的插入和更新。

将数据导出到数据库共享

我们在导入部分检查的许多参数,不同之处在于export需要使用--export-dir参数来确定要导出的HDFS目录,还将为导出创建另一个选项文件,以防止在命令行上不安全地提供密码:

怎么将数据从Hadoop导出到关系型和NoSQL数据库

第一步是将数据从MySQL导出到HDFS,以确保有一个良好的起点,如以下命令所示:

怎么将数据从Hadoop导出到关系型和NoSQL数据库

Sqoop导入的结果是HDFS中有许多CSV文件,可以在以下代码中看到:

怎么将数据从Hadoop导出到关系型和NoSQL数据库

对于从HDFS到MySQL的Sqoop导出,将指定目标表应该是stocks_export并且应该从HDFS库目录导出数据:

怎么将数据从Hadoop导出到关系型和NoSQL数据库

默认情况下,Sqoop导出将对目标数据库表执行INSERT,可以使用--update-mode参数支持更新。值updateonly意味着如果没有匹配的密钥,更新将失败。如果匹配的键不存在,则allowInsert的值将直接插入。用于执行更新的表列名称在--update-key参数中提供。

以下示例表明只应使用主键尝试更新:

怎么将数据从Hadoop导出到关系型和NoSQL数据库

输入数据格式

可以使用多个选项覆盖用于解析输入数据的默认Sqoop设置,表5.7列出了这些选项。

怎么将数据从Hadoop导出到关系型和NoSQL数据库

表5.7 输入数据的格式选项

幂等输出

执行输出的Sqoop map任务使用多个事务进行数据库写入。如果Sqoop导出MapReduce作业失败,则表可能包含部分写入。对于幂等数据库写入,可以指示Sqoop执行MapReduce写入临时表。成功完成作业后,临时表将在单个事务中移动到目标表,该事务是幂等的,可以在图5.19中看到事件顺序。

怎么将数据从Hadoop导出到关系型和NoSQL数据库

图5.19  Sqoop分段事件序列,有助于确保幂等输出

在下面的示例中,临时表是stocks_staging,还告诉Sqoop在MapReduce作业以--clear-staging-table参数启动之前清除它:

怎么将数据从Hadoop导出到关系型和NoSQL数据库

直接输出

在导入技术中使用快速连接器,这是使用mysqldump实用程序的优化。Sqoop导出也支持使用mysqlimport工具的快速连接器。与mysqldump一样,集群中的所有节点都需要安装mysqlimport,并且在用于运行MapReduce任务的用户路径中可用。与导入一样, - diand参数可以使用快速连接器:

怎么将数据从Hadoop导出到关系型和NoSQL数据库

使用mysqlimport进行幂等输出

Sqoop不支持将快速连接器与临时表结合使用,这就是使用常规连接器实现幂等输入的方法。但是仍然可以通过快速连接器实现幂等输入,并在最后进行一些额外的工作。需要使用快速连接器写入临时表,然后触发INSERT语句,该语句将数据原子复制到目标表中,步骤如下所示:

怎么将数据从Hadoop导出到关系型和NoSQL数据库

这打破了关于在命令行上公开凭证的早期规则,但是编写可以从配置文件中读取这些设置的脚本很容易。

看完了这篇文章,相信你对“怎么将数据从Hadoop导出到关系型和NoSQL数据库”有了一定的了解,如果想了解更多相关知识,欢迎关注编程网行业资讯频道,感谢各位的阅读!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯