文章详情

短信预约信息系统项目管理师 报名、考试、查分时间动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Hadoop学习1

2015-09-17 18:13

关注

Hadoop学习1

一.Hadoop社区版和发行版

  1. 社区版:我们把Apache社区一直开发的Hadoop称为社区版。简单的说就是Apache Hadoophttp://hadoop.apache.org/
  2. 发行版:基于Apache Hadoop的基础上进行商业改造的解决方案,包含一系列定制的管理工具和软件。

二.Hadoop社区版版本号

     一直以来,Hadoop的版本号一直困扰着广大Hadoop爱好者,各版本层出不穷。如果你想使用Apache Hadoop,你必须知道自己要使用哪个版本的Hadoop,搞清楚Hadoop版本号就尤为重要了。

 

三.Hadoop发行版

 

四.你也可以阅读以下文档

  1.  hadoop版本总结http://dijunzheng2008.blog.163.com/blog/static/98959897201210171340254/
  2. 关于Apache Hadoop 1.0 http://f.dataguru.cn/thread-23223-1-1.html
  3. 突破社区版Hadoop各商业发行版比较 http://cloud.chinabyte.com/news/206/12446706.shtml
  4. 如何选择不同的Hadoop发行版 http://www.searchbi.com.cn/showcontent_70957.htm

 

一.Hadoop来历

  1.  2004年12月。Google发表了MapReduce论文,MapReduce允许跨服务器集群,运行超大规模并行计算。Doug Cutting意识到可以用MapReduce来解决Lucene的扩展问题。
  2. Google发表了GFS论文。
  3. Doug Cutting根据GFS和MapReduce的思想创建了开源Hadoop框架。
  4. 2006年1月,Doug Cutting加入Yahoo,领导Hadoop的开发。
  5. Doug Cutting任职于Cloudera公司。
  6. 2009年7月,Doug Cutting当选为Apache软件基金会董事,2010年9月,当选为chairman。
  7. 各大企业开发自己的发行版,并为Apache Hadoop贡献代码。

二.Google-->Apache

三.Google论文

四.你也可以阅读一下文档

  1. Wiki Doug Cutting http://en.wikipedia.org/wiki/Doug_Cutting
  2. Hadoop源代码分析一 http://caibinbupt.iteye.com/blog/262412

 

一.NameNode物理文件夹

 

 

二.DataNode物理文件夹

 

 

一.NameNode概述

二.fsimage editLog

  1. editLog:客户端对文件系统每次读写等操作时,元数据节点首先修改内存中的数据结构,然后记录到editlog中。
  2. fsimage:二进制文件;当editlog达到一定量(fs.checkpoint.size)或者距离上次归并到fsimage达到一定时间(fs.checkpoint.period)时, editlog会被归并到fsimage中。此过程被称为checkpoint。另外一个checkpoint的时间是NameNode启动时。

三.NameNode + Secondary NameNode

  1. Secondary NameNode通知NameNode准备chekpoint。
  2. NameNode产生edits.new,用来接受checkpoint过程中的editlog。
  3. Secondary NameNode通过http get方式获取NameNode的fsimage与editlog。
  4. Secondary NameNode开始合并获取的上述两个文件,产生一个新的fsimage文件fsimage.ckpt。
  5. Secondary NameNode用http post方式发送fsimage.ckpt至NameNode。
  6. NameNode将fsimage.ckpt与edits.new文件分别重命名为fsimage与edits,然后更新fstime,整个checkpoint过程到此结束。

四.NameNode + Checkpiont NameNode + Backup NameNode

五.你也可以阅读以下文章

  1. http://www.happyang.com/?p=6
  2. http://blog.sina.com.cn/s/blog_7ead58ad0100umd9.html

 

 

一.数据块

  1. HDFS默认数据块大小64M。{现在的版本已经是128M,下面不在修改了}
  2. 文件大于64M,将被分为若干份64M+其它M存储;文件小于64M,并不会占用整个64M大小,对于小文件,HDFS提供了几种解决方案:Hadoop Archive,Sequence file和CombineFileInputFormat,后面看源码时详解。

 

二.DataNode

  1.  数据节点是真正存储数据的地方。
  2. 周期性向NameNode汇报心跳,并带回NameNode要下达的指令。NameNode并不主动向DataNode发送请求。
  3. DataNode可以作为服务器,接受客户端的读写请求。
  4. DataNode之间会互相通信,复制数据块。

转载:http://www.iteye.com/blogs/subjects/zy19982004?page=2

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-数据库
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯