文章详情

短信预约信息系统项目管理师 报名、考试、查分时间动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

超详细的HDFS读写流程详解(最容易理解的方式)

2022-04-03 21:21

关注

超详细的HDFS读写流程详解(最容易理解的方式)

HDFS采用的是master/slaves这种主从的结构模型管理数据,这种结构模型主要由四个部分组成,分别是Client(客户端)、Namenode(名称节点)、Datanode(数据节点)和SecondaryNameNode。HDFS作为hadoop的分布式储存框架,最重要的莫过于数据流的读写过程了,下面就HDFS得数据流的读写流程做个详细的剖析。

HDFS的写流程

首先写操作的代码操作:

hdfs dfs -put ./file02 /file02   
hdfs  dfs -copyFromLocal  ./file02 /file02   
FSDataOutputStream fsout = fs.create(path);fsout.write(byte[])    
fs.copyFromLocal(path1,path2)

具体流程详解:

如下图所示是整个写流程及原理(上传)

 

 

1.客户端向namenode发出请求上传数据;

2.namenode在接到请求之后,开始查找元数据(查找是否存在这个目录以及查询上传者是否有这个权限),查询后向客户端响应是否可以上传数据。

3.客户端接到响应之后,再开始请求上传第一块数据(数据分块是由客户端操作的),例如图中的0-128m为第一块数据。

4.namenode接到请求后,向客户端返回datanode节点信息(副本放在哪个节点上,例如放在DN1,DN2,DN3这三台机器上)。一般规则有近远远,近远近

5.客户端根据返回的副本信息向datanode请求建立传输通道,以级联的方式进行请求

6.datanode向客户端响应,若都应答成功,则传输通道建立成功。

7.开始传输数据,以packet方式传输,以chunk为单位进行校验,默认1m。

8.第一块上传成功,第二块开始从3-7步骤继续传输

9.待传输完成之后,客户端向namenode报告数据传输远程,由namenode更新元数据

 

在hdfs的写流程有几个核心问题:

1.传输blk1的过程中,dn3如果死了,集群会怎么处理?

不做任何处理,错误会想nn报告

2.接1,如果dn3又启动了,集群会如何处理?

dn3启动时,会向nn发送块报告,然后nn指示dn3删除blk1(因为传输数据不完整)

3.客户端建立通道时,发现dn3连接不上,会怎么办?

nn会重新分配三个节点

4.传输过程中,packet出错,会如何处理?

会重新上传,但是重传次数只有4次,超过限制则提示传输失败

5.如果bk1上传成功,blk2坏了,或者blk2上传时,dn1挂了,如何处理?

nn会将整个文件标记为无效,下次dn向nn发送块报告时,nn会通知这些块所在的节点删除

 

HDFS的读操作

首先读操作的代码(下载)

 

hdfs dfs -get /file02 ./file02    
hdfs  dfs -copyToLocal  /file02 ./file02    
FSDataInputStream fsis = fs.open(path);    
fsis.read(byte[] a)    
fs.copyToLocal(path1,path2)  

 

具体流程详解

 

 由图可知HDFS的读流程要比写流程简单很多,主要步骤:

1.客户端请求下载数据

2.nn检测数据是否存在,给客户端响应

3.客户端请求下载第一块数据

4.nn返回目标文件的元数据

5.客户端请求dn建立传输通道

6.dn响应

7.开始传输数据

注意点:

在读操作中在客户端和dn建立传输通道时不是采用级联方式,而是首先寻找离自己最近的副本(dn1)下载,如果数据不完整或者没有找到,就再向dn2建立传输通道,然后传输数据,依次往下,直到下载到目标文件为止。

 

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-数据库
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯