文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

大多数开发人员都弄错的Hive与MapReduce小文件合并问题

2024-12-13 15:55

关注

-- 设置小文件合并
set hive.merge.mapfiles=true;
set hive.merge.mapredfiles=true;
set hive.merge.size.per.task = 256000000 ;
set hive.merge.smallfiles.avgsize= 256000000 ;


看上去配置的没啥问题,不管是Map-only,还是MapReduce都考虑到了,只要输出的文件小于这个值,就重新启动一个MR去执行文件合并。看也符合Hive官网的配置解释


然而现实并非如此,废话不多说,you can you code,no can no bb.

原分析表数据在HDFS存储为551个小文件,下面所有的测试都是基于这个文件。

1.测试代码方案1

设置启动map前文件合并,先使用官方默认配置,实现文件合并测试

set  hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; --官方默认值,也是当前平台默认值
set hive.merge.smallfiles.avgsize=16000000; --官方默认值,也是当前平台默认值
set hive.merge.size.per.task=256000000; --官方默认值,也是当前平台默认值
set hive.merge.mapfiles =true ; --官方默认值,也是当前平台默认值
set hive.merge.mapredfiles = true ; --官方默认值,也是当前平台默认值

drop table if exists FDM_SOR.T_FSA_BHVR_NEW_EXPO_D_tmp_tmp;
create table FDM_SOR.t_fsa_bhvr_new_expo_d_tmp_tmp
stored as orc
as
select
*
from FDM_SOR.t_fsa_bhvr_new_expo_d
where stat_date = '20200630'


结果:只产生了438个文件,看样子效果不错,文件变少了,但是发现还是有很多小于16Mb的文件,为啥设置了不管用呢,是不是set
hive.merge.smallfiles.avgsize官方的默认值给的太小了。需要加大。看实验2.



2.测试代码方案2

设置启动map前文件合并,将set
hive.merge.smallfiles.avgsize值加大,增加文件合并的Size。按照官方的说法当输出的文件平均小于16Mb时系统会再启动一个MR进行文件合并。这下该管用了吧,请看:

set  hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; --官方默认值,也是当前平台默认值
set hive.merge.smallfiles.avgsize=256000000; --改了这个值,由默认的16Mb,改成256Mb
set hive.merge.size.per.task=256000000; --官方默认值,也是当前平台默认值
set hive.merge.mapfiles =true ; --官方默认值,也是当前平台默认值
set hive.merge.mapredfiles = true ; --官方默认值,也是当前平台默认值

drop table if exists FDM_SOR.T_FSA_BHVR_NEW_EXPO_D_tmp_tmp;
create table FDM_SOR.t_fsa_bhvr_new_expo_d_tmp_tmp
stored as orc
as
select
*
from FDM_SOR.t_fsa_bhvr_new_expo_d
where stat_date = '20200630'

废话不多说,上结果请看


结果分析:没错,第一次MR因为Combinetext启动了438个map和上面一样,果然接着又启动了一个MR,进行输出后的文件合并。看样子很DIAO。合并要求文件大小不小256Mb,然后实际呢?pappa。文件虽然减少了很多到351个,但依然有很多小文件,很多小于10Mb的文件,这个时候心里肯定一句

3.测试代码方案3

放大招,功夫有没有,代码走一走,加上split参数

set mapred.max.split.size=256000000;  
set mapred.min.split.size.per.node=100000000;
set mapred.min.split.size.per.rack=100000000;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set hive.merge.mapfiles = true ;
set hive.merge.mapredfiles = true ;
set hive.merge.size.per.task = 256000000 ;
set hive.merge.smallfiles.avgsize=160000000 ;

drop table if exists FDM_SOR.T_FSA_BHVR_NEW_EXPO_D_tmp_tmp;
create table FDM_SOR.T_FSA_BHVR_NEW_EXPO_D_tmp_tmp
stored as orc
as
select
*
from FDM_SOR.T_FSA_BHVR_NEW_EXPO_D
where stat_date = '20200630'

废话不多说,上结果请看:


结果分析:这下好了,全是大文件,44大文件,每个大文件都是辣么大,最小的都是48Mb。为啥加了split参数以后就生效了呢。前面单独合并小文件参数没啥效果呢?网上随便搜一下,都是这种配置这种参数的?

-- 设置小文件合并
set hive.merge.mapfiles=true;
set hive.merge.mapredfiles=true;
set hive.merge.size.per.task = 256000000 ;
set hive.merge.smallfiles.avgsize= 256000000 ;

4.答案揭晓

因为设置上面四个参数,看上去规定了map结束,MR结束合并文件,如果文件平均小于smallfiles.avgsize启动一个新的MRj进行文件的二次合并。如果启动mr合并文件,没有问题。但是忽略了一个问题,你重新启动一个mr合并文件,这个mr是不是需要进行文件split,你这个参数搞小了,那就会产生很多task,很多map,比如很多小文件就是一个map,最终还是产生很多小文件(因为合并小文件的mr只有map)。所以必须要配合split参数才有用。具体split参数使用,参考我其他博客。

本文转载自微信公众号「涤生大数据」,作者「涤生大数据」,可以通过以下二维码关注。

转载本文请联系「涤生大数据」公众号。

来源:·涤生大数据内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯