hadoop map个数控制怎么实现-编程学习网

这篇文章主要介绍“hadoop map个数控制怎么实现”，在日常操作中，相信很多人在hadoop map个数控制怎么实现问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”hadoop map个数控制怎么实现”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

hadooop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还取决于其他的因素。

为了方便介绍，先来看几个名词：
block_size : hdfs的文件块大小，1.x默认为64M，2.x为128M，可以通过参数dfs.block.size设置
total_size : 输入文件整体的大小
input_file_num : 输入文件的个数
mapred.tasktracker.map.tasks.maximum: 任务跟踪器将同时运行的最大映射任务数,默认为2

（1）默认map个数
如果不进行任何设置，默认的map个数是和blcok_size相关的。
default_num = total_size / block_size;

（2）期望大小
可以通过参数mapred.map.tasks来设置程序员期望的map个数，但是这个个数只有在大于default_num的时候，才会生效。
goal_num = mapred.map.tasks;

（3）设置处理的文件大小
可以通过mapred.min.split.size 设置每个task处理的文件大小，但是这个大小只有在大于block_size的时候才会生效。
split_size = max(mapred.min.split.size, block_size);
split_num = total_size / split_size;

（4）计算的map个数
compute_map_num = min(split_num, max(default_num, goal_num))

除了这些配置以外，mapreduce还要遵循一些原则。 mapreduce的每一个map处理的数据是不能跨越文件的，也就是说min_map_num >= input_file_num。所以，最终的map个数应该为：
final_map_num = max(compute_map_num, input_file_num)

经过以上的分析，在设置map个数的时候，可以简单的总结为以下几点：
（1）如果想增加map个数，则设置mapred.map.tasks 为一个较大的值。
（2）如果想减小map个数，则设置mapred.min.split.size 为一个较大的值。
（3）如果输入中有很多小文件，依然想减少map个数，则需要将小文件merger为大文件，然后使用准则2。

（5）mapred.tasktracker.map.tasks.maximum >= mapred.map.tasks

补充： hadoop版本中 1.x 与 2.x 参数名称有变更
1.x 名称 2.x 名称
mapred.map.tasks mapreduce.job.maps
mapred.min.split.size mapreduce.input.fileinputformat.split.minsize
mapred.tasktracker.map.tasks.maximum mapreduce.tasktracker.map.tasks.maximum

到此，关于“hadoop map个数控制怎么实现”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注编程网网站，小编会继续努力为大家带来更多实用的文章！

文章详情

hadoop map个数控制怎么实现

软考中级精品资料免费领

相关文章

猜你喜欢

hadoop map个数控制怎么实现

hadoop reduce个数控制怎么实现

hadoop如何通过CombineFileInputFormat实现小文件合并减少map的个数

golang控制并发数怎么实现

怎么在hadoop中实现一个java爬虫

Map怎么实现按单个或多个Value排序

VB.NET中怎么实现一个控件数组

使用Asp.NET怎么实现一个限流控制功能

使用Canvas怎么实现一个手势控制功能

怎么实现Go超时控制

golang怎么实现控制反转

win10怎么实现远程控制

怎么在DynamoDB中实现数据版本控制

mysql 中怎么实现权限控制

C#控制输入法怎么实现

HTML5中怎么实现样式控制

Python中怎么实现访问控制

JavaScript中怎么实现并发控制

MySQL中怎么实现并发控制

CSS中怎么实现文字控制与文本控制属性