11赞

用python + hadoop streaming 分布式编程（一） -- 原理介绍，样例程序与本地调试

作者：mobiledu2402851173 | 2021-09-03 04:41

Hadoop是一个实现了MapReduce计算模型的开源分布式并行编程框架，借助于Hadoop,程序员可以轻松地编写分布式并行程序，将其运行于计算机集群上，完成海量数据的计算。

MapReduce与HDFS简介
什么是Hadoop？

Google为自己的业务需要提出了编程模型MapReduce和分布式文件系统Google File System，并发布了相关论文（可在Google Research的网站上获得： GFS 、 MapReduce）。 Doug Cutting和Mike Cafarella在开发搜索引擎Nutch时对这两篇论文做了自己的实现，即同名的MapReduce和HDFS，合起来就是Hadoop。

MapReduce的Data flow如下图，原始数据经过mapper处理，再进行partition和sort，到达reducer，输出最后结果。

图片来自Hadoop: The Definitive Guide

Hadoop Streaming原理
Hadoop本身是用Java开发的，程序也需要用Java编写，但是通过Hadoop Streaming，我们可以使用任意语言来编写程序，让Hadoop运行。

Hadoop Streaming的相关源代码可以在Hadoop的Github repo 查看。简单来说，就是通过将用其他语言编写的mapper和reducer通过参数传给一个事先写好的Java程序（Hadoop自带的*-streaming.jar），这个Java程序会负责创建MR作业，另开一个进程来运行mapper，将得到的输入通过stdin传给它，再将mapper处理后输出到stdout的数据交给Hadoop，partition和sort之后，再另开进程运行reducer，同样地通过stdin/stdout得到最终结果。因此，我们只需要在其他语言编写的程序里，通过stdin接收数据，再将处理过的数据输出到stdout，Hadoop streaming就能通过这个Java的wrapper帮我们解决中间繁琐的步骤，运行分布式程序。

图片来自Hadoop: The Definitive Guide

原理上只要是能够处理stdio的语言都能用来写mapper和reducer，也可以指定mapper或reducer为Linux下的程序（如awk、grep、cat）或者按照一定格式写好的java class。因此，mapper和reducer也不必是同一类的程序。

Hadoop Streaming的优缺点

优点

可以使用自己喜欢的语言来编写MapReduce程序（换句话说，不必写Java XD）
不需要像写Java的MR程序那样import一大堆库，在代码里做一大堆配置，很多东西都抽象到了stdio上，代码量显著减少
因为没有库的依赖，调试方便，并且可以脱离Hadoop先在本地用管道模拟调试

缺点

只能通过命令行参数来控制MapReduce框架，不像Java的程序那样可以在代码里使用API，控制力比较弱，有些东西鞭长莫及
因为中间隔着一层处理，效率会比较慢
所以Hadoop Streaming比较适合做一些简单的任务，比如用python写只有一两百行的脚本。如果项目比较复杂，或者需要进行比较细致的优化，使用Streaming就容易出现一些束手束脚的地方。

用python编写简单的Hadoop Streaming程序

这里提供两个例子：

Michael Noll的word count程序
Hadoop: The Definitive Guide里的例程
使用python编写Hadoop Streaming程序有几点需要注意：

在能使用iterator的情况下，尽量使用iterator，避免将stdin的输入大量储存在内存里，否则会严重降低性能

streaming不会帮你分割key和value传进来，传进来的只是一个个字符串而已，需要你自己在代码里手动调用split()

从stdin得到的每一行数据末尾似乎会有\n，保险起见一般都需要使用rstrip()来去掉

在想获得K-V list而不是一个个处理key-value pair时，可以使用groupby配合itemgetter将key相同的k-v pair组成一个个group，得到类似Java编写的reduce可以直接获取一个Text类型的key和一个iterable作为value的效果。注意itemgetter的效率比lambda表达式要高，所以如果需求不是很复杂的话，尽量用itemgetter比较好。

我在编写Hadoop Streaming程序时的基本模版是

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
Some description here...
"""

import sys
from operator import itemgetter
from itertools import groupby

def read_input(file):
 """Read input and split."""
 for line in file:
  yield line.rstrip().split('\t')

def main():
 data = read_input(sys.stdin)
 for key, kviter in groupby(data, itemgetter(0)):
  # some code here..

if __name__ == "__main__":
 main()

如果对输入输出格式有不同于默认的控制，主要会在read_input()里调整。

本地调试

本地调试用于Hadoop Streaming的python程序的基本模式是：

$ cat  | python  | sort -t $'\t' -k1,1 | python  >

或者如果不想用多余的cat，也可以用<定向

$ python  <  | sort -t $'\t' -k1,1 | python  >

这里有几点需要注意：

Hadoop默认按照tab来分割key和value，以第一个分割出的部分为key，按key进行排序，因此这里使用

sort -t $'\t' -k1,1
来模拟。如果你有其他需求，在交给Hadoop Streaming执行时可以通过命令行参数调，本地调试也可以进行相应的调整，主要是调整sort的参数。因此为了能够熟练进行本地调试，建议先掌握sort命令的用法。

如果你在python脚本里加上了shebang，并且为它们添加了执行权限，也可以用类似于

./mapper.py

来代替

python mapper.py

推荐阅读

程序员
在XmlNodeList上使用LINQ

如何解决《在XmlNodeList上使用LINQ》经验，为你挑选了2个好方法。 ... [详细]
程序员
在perl中,我可以在子例程中动态创建变量吗？

如何解决《在perl中,我可以在子例程中动态创建变量吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
EF条件包含实体类型

如何解决《EF条件包含实体类型》经验，为你挑选了0个好方法。 ... [详细]
程序员
Android Studio aar模块仅在IDE Start或Module import上加载lint.jar

如何解决《AndroidStudioaar模块仅在IDEStart或Moduleimport上加载lint.jar》经验，为你挑选了0个好方法。 ... [详细]
程序员
JIRA - 将一个子任务从一个故事移动到另一个故事

如何解决《JIRA-将一个子任务从一个故事移动到另一个故事》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在plpgsql中使用记录类型变量？

如何解决《如何在plpgsql中使用记录类型变量？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Grunt Babel每个文件需要6秒

如何解决《GruntBabel每个文件需要6秒》经验，为你挑选了0个好方法。 ... [详细]
程序员
在C中,为什么有些人在释放之前会抛出指针？

如何解决《在C中,为什么有些人在释放之前会抛出指针？》经验，为你挑选了6个好方法。 ... [详细]
程序员
Android数据绑定:RecyclerView适配器的可观察列表

如何解决《Android数据绑定:RecyclerView适配器的可观察列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用DateTimeFormatter序列化的Java-8 LocalDateTime

如何解决《使用DateTimeFormatter序列化的Java-8LocalDateTime》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用第一列作为索引,Excel到Pandas DataFrame

如何解决《使用第一列作为索引,Excel到PandasDataFrame》经验，为你挑选了0个好方法。 ... [详细]
程序员
python apscheduler - 跳过:达到的最大运行实例数

如何解决《pythonapscheduler-跳过:达到的最大运行实例数》经验，为你挑选了1个好方法。 ... [详细]
程序员
ic_sync_black_24dp.xml的android.content.res.Resources $ NotFoundException

如何解决《ic_sync_black_24dp.xml的android.content.res.Resources$NotFoundException》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Polymer中编写ES6中的监听器？

如何解决《如何在Polymer中编写ES6中的监听器？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何通过快捷方式打开灯泡？

如何解决《如何通过快捷方式打开灯泡？》经验，为你挑选了2个好方法。 ... [详细]
程序员
找不到GitHub邀请加入回购？

如何解决《找不到GitHub邀请加入回购？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何撤销一个表的MySQL用户权限？

如何解决《如何撤销一个表的MySQL用户权限？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将两个Web项目(一个mvc,一个webapi)部署到一个Azure App Service

如何解决《将两个Web项目(一个mvc,一个webapi)部署到一个AzureAppService》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android Pay - 来自美国境外的测试

如何解决《AndroidPay-来自美国境外的测试》经验，为你挑选了1个好方法。 ... [详细]
程序员
共享对话框中未显示我的自定义打开图形对象的自定义属性

如何解决《共享对话框中未显示我的自定义打开图形对象的自定义属性》经验，为你挑选了0个好方法。 ... [详细]

mobiledu2402851173

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章