这篇文章给大家分享的是有关如何使用hadoop archive合并小文件并进行mapreduce来减少map的数量的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
如下:原始文件 四个文件
经过hadoop archive之后:
执行的命令是:hadoop archive -archiveName words.har -p /words -r 1 /wordhar
生成的文件在/wordhar/words.har
其中part-0是数据文件
在mapreduce中,会忽略以下划线开头的文件,也就是说上图的_SUCCESS,_index,_masterindex是不会处理的
那么这样一来就只会处理数据文件part-0
job设置的输入路径是
运行mapreduce中执行的map数量是1
分片为一个
map数量为一个
课件通过hadoop archive的文件也可以进行mapreduce
感谢各位的阅读!关于“如何使用hadoop archive合并小文件并进行mapreduce来减少map的数量”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!