Python海量数据处理之_Hadoop-编程学习网

1. 说明

前两篇分别介绍了Hadoop的配置方法和基本原理，本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的，它不仅支持Java，还支持C++，Python等程序的分布计算。下面以Python为例介绍如何使用Hadoop的MapReduce功能。

2. 工作过程

在原理部分介绍过，Hadoop分为两部分，一部分是存储，一部分是运算，而各个部分又可分为主控和局部实现。这里忽略细节，主要说明运算的主控部分是如何运作的。
从程序调用的角度看，程序员首先需要把待处理的文件复制到HDFS文件系统之中，然后调Hadoop提供的java程序执行分布计算，具体需要执行的python代码用参数的形式提供；最后在HDFS生成输出文件，程序员再将其拷回本地即可。
这里的分布计算主要指MapReduce，MapReduce框架将输入数据分割成数据块，传给Mapper，然后Map任务在各个服务器上以完全并行的方式处理，接着MapReduce框架对Map任务的输出进行排序，并将结果做为Reduce任务的输入，最后由Reduce任务输出最终的结果。请注意，在Map和Reduce中有个排序的过程，因为必须完成所有map后才能reduce，这也局限了MapReduce的工作场景。
MapReduce的核心数据是<key,value>键值对，Mapper处理完数据输出的是键值对（如果不输出，则起到了过滤的作用），框架对键值对排序（后面在具体例子中介绍排序的原因），再输出给Reducer继续处理。Mapper的数量由输入文件的大小确定，Reducer的数量由程序员指定.

3. HDFS文件系统操作

Hadoop集群中的服务器处理的是HDFS中的数据，因此需要在本地和HDFS之间复制文件，常用命令如下：

$ hadoop fs -mkdir /tmp/input # 建立目录
$ hadoop fs -ls /tmp/ # 查看目录中文件
$ hadoop fs -copyFromLocal /tmp/test_items.txt /tmp/input/ # 复制本地文件到HDFS
$ hadoop fs -cat /tmp/input/test_items.txt # 查看文件内容
$ hadoop fs -copyToLocal /tmp/input . # 将HDFS中文件夹复制到本地


 更多命令见：http://hadoop.apache.org/docs/r1.0.4/file_system_shell.html
4. 例程
1) 实现功能
 统计文件中单词出现的次数。
2) 程序mapper.py
 注意将程序设置为可执行权限


#!/usr/bin/env python
# -*- coding: utf-8 -*-

import sys

for line in sys.stdin:  # 从标准输入中按行读数据
    
    line = line.strip()  # 将行尾行首的空格去除
    words = line.split()  #按空格将句子分割成单个单词
    for word in words:
        print '%s\t%s' %(word, 1) # 输出键值对，每单词出现1次


3) 程序reducer.py
 注意将程序设置为可执行权限


#!/usr/bin/env python
# -*- coding: utf-8 -*-

import sys

current_word = None  # 当前单词
current_count = 0  # 当前单词频数
word = None

for line in sys.stdin:
    words = line.strip() 
    word, count = words.split('\t')  # 按照制表符分隔单词和数量
    
    try:
        count = int(count)  # 将字符串类型的‘1’转换为整型1
    except ValueError:
        continue

    if current_word == word:  # 如果当前的单词等于读入的单词
        current_count += count  # 单词频数加1
    else:
        if current_word:  # 如果当前的单词不为空则打印其单词和频数
            print '%s\t%s' %(current_word, current_count)  
        current_count = count  # 否则将读入的单词赋值给当前单词，且更新频数
        current_word = word

if current_word == word:
    print '%s\t%s' %(current_word, current_count)

4) 在本地实验
 程序在Hadoop上运行前，先在本地运行，以保证其正确性，运行命令：


$ echo "Dear Bear River Car Car River Dear Car Bear" | ./mapper.py | sort -k 1,1 | ./reducer.py



 可以看到命令用管道的方式将map,reduce和数据连接到了一起，中间还有sort命令用于排序，排序原因从reducer.py程序中可以看到。也可参见下图：





 Hadoop将三行数据分成三份，mapper.py处理后如第三列所示，排序后变为第四列，它把同样的单词都放在一起了，使得在reducer.py在处理时只要判断连续单词是否相同，而无需从头到尾搜索单词。
5) Hadoop实验
$ hadoop jar /home/hadoop/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.7.5.jar  -files ./mapper.py,./reducer.py -mapper ./mapper.py -reducer ./reducer.py -input /tmp/input/*.txt -output /tmp/output/



 这里py文件被指定了两次，files指定的是上传两个py文件，这里还可以上传配置文件等，后面是分别指定作为mapper和reducer的程序，然后是指定输入输出。非常简单，甚至不需要在python文件中加任何的支持库，只要读写输入输出却可。
5. 应用场景
 Hadoop主要是针对海量数据处理的，试想当数据以TB,PB计量的时候，我们不可能用单机一次性打开所有数据。Hadoop方式可用多台便宜PC组合的方式处理海量数据。

 看了一些典型的Hadoop应用场景，觉得现在使用Hadoop主要以HDFS加数据库的共享数据为主，更多的时候是被其它上层工具封装后调用。


技术文章定时推送

请关注公众号：算法学习分享

文章详情

Python海量数据处理之_Hadoop

1. 说明

2. 工作过程

3. HDFS文件系统操作

4. 例程

1) 实现功能

2) 程序mapper.py

3) 程序reducer.py

4) 在本地实验

5) Hadoop实验

5. 应用场景

`软考中级精品资料免费领`

`相关文章`

`猜你喜欢`

Python海量数据处理之_Hadoop

Python与大数据：如何处理海量数据？

MongoDB怎么处理海量数据

Java高频面试题之海量数据处理分析

如何用 NumPy 处理海量数据？

Stream API 与大数据处理：处理海量数据的利器

处理海量数据：Java与MySQL大数据处理的技巧

如何利用Python处理海量自然语言数据？

大数据量与海量数据的处理方法有哪些

处理海量数据的首选工具：Python 接口简介

用Python如何实现海量大数据的快速处理？

分布式索引如何帮助Python数组处理海量数据？

大规模数据处理：探索如何高效地处理海量数据

海量数据处理利器 Roaring BitMap 原理介绍

JavaScript JSON 与大数据：处理和分析海量数据集

如何在 Python API 中使用自然语言处理对象处理海量数据？

如何使用 PHP 处理海量日志数据？

如何利用Go语言处理海量数据？

如何利用Unix系统处理海量数据？

学习 Python 框架 numpy：如何利用它来处理海量数据？