使用flume将数据写到HDFS上,出现大量的不到1kb的小文件。
危害:占用NameNode内存 n*150字节 (采用har归档:hadoop archive -archiveName **.har -p /输入路径 /输出路径)
增加切片个数 n个maptask
产生原因:
hdfs.rollInterval 30 默认30s产生下一个文件 (优化配置:3600s)
或
hdfs.rollSize 1024 默认1024节大小产生一个文件 (优化配置:134217728)
或
hdfs.rollCount 10 默认10条一个文件 (优化配置:0 【禁止】)