文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Hadoop MapReduce怎么使用

2023-06-19 10:10

关注

本篇内容介绍了“Hadoop MapReduce怎么使用”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

Apache Hadoop : 

Apache 开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目 ( HDFS ) 和支持 MapReduce 分布式计算的软件架构。

Hadoop 的核心是 HDFS MapReduce ,国人喜欢用 “ 分而治之 ” 来概括。

分而治之 ” 

出自《 群经平议·周官二 》“ 巫马下士二人医四人 ”:“ 凡邦之有疾病者,疕疡者造焉 ,则使医分而治之 ,是亦不自医也 。” 简单点可以理解为分别治理的意思。

这类似于设计思维中的分类思想,例如:

UX 中的用户画像,给用户打 TAG

UED 的设计语言,分解设计目标,为不同的子目标设定设计规则;也可以用于分解设计元素,制定每种元素的设计策略;

UI & 平面设计,针对配色、构图、字体样式等有不同的考究;

UX 设计,关注功能、布局、使用路径、信息架构等的优化;

建筑/景观设计,分别关注空间、材质、功能、视线等的体验;

Hadoop广泛应用于大数据中,用于处理数百 GBTB PB 的数据。利用 HDFS ,集群 N 台普通计算机( 如配置为硬盘 128 GB,内存 4 G ),形成一个硬盘为 N X 128 GB ,内存 N X 4 G 的 “ 大型 ” 计算机。Hadoop 在此扮演的是数据分发的角色,可以很方便的随时将原始数据的每一部分发送到群集中的多台计算机上进行保存,并计算。

计算的时候,使用 MapReduce 模型来将工作分成一组独立的任务来并行处理大量数据。

MapReduce 中,记录由被称为 Mappers 的任务隔离处理。然后将 Mappers 的输出结合到称为 Reducers 的第二组任务中,其中可以将来自不同映射器的结果合并在一起。

MapReduce 的例子——单词统计:

统计单词在不同文件中出现的次数。我们有2个文件:

foo.txt: Sweet, this is the foo file

bar.txt: This is the bar file

输出的结果应该是:

sweet 1

this  2

is    2

the   2

foo   1

bar   1

file  2

写成 MapReduce 的伪代码形式如下:

mapper (filename, file-contents):
 for each word in file-contents:    emit (word, 1)
 
 
reducer (word, values):  sum = 0  for each value in values:    sum = sum + value  emit (word, sum)

Hadoop 不是数据库的替代品,而是一个计算框架,可以理解为就是个用于大数据的“计算器”。Hadoop 将数据存储在文件中,并且不会对它们编制索引。如果您想查找某些内容,则必须运行 MapReduce 作业以查看所有数据。这需要时间,并且意味着您不能直接使用 Hadoop 作为数据库的替代品。并且对于数据库的更新及更改数据的操作, Hadoop 都不支持。

“Hadoop MapReduce怎么使用”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯