20赞

用PHP和Shell写Hadoop的MapReduce程序

作者：手机用户2402851155 | 2021-09-08 21:23

Hadoop本身是Java写的，所以，给hadoop写mapreduce，人们会自然地想到Java。但Hadoop里面有个contrib叫做hadoopstreaming，这是一个小工具，为hadoop提供stream

Hadoop本身是Java写的，所以，给hadoop写mapreduce，人们会自然地想到Java。但Hadoop里面有个contrib叫做hadoop streaming，这是一个小工具，为hadoop提供stream

使得任何支持标准IO (stdin, stdout)的可执行程序都能成为hadoop的mapper或者 reducer。例如：

代码如下:

hadoop jar hadoop-streaming.jar -input SOME_INPUT_DIR_OR_FILE -output SOME_OUTPUT_DIR -mapper /bin/cat -reducer /usr/bin/wc

在这个例子里，就使用了Unix/Linux自带的cat和wc工具来作为mapper / reducer，是不是很神奇？

如果你习惯了使用一些动态语言，用动态语言来写mapreduce吧，跟之前的编程没有任何不同，hadoop只是运行它的一个框架，下面我演示一下用PHP来实现Word Counter的mapreduce。

一、找到Streaming jar

Hadoop根目录下是没有hadoop-streaming.jar的，因为streaming是一个contrib，所以要去contrib下面找，以hadoop-0.20.2为例，它在这里：

代码如下:

$HADOOP_HOME/contrib/streaming/hadoop-0.20.2-streaming.jar

二、写Mapper

新建一个wc_mapper.php，写入如下代码：

代码如下:

#!/usr/bin/php
$in = fopen(“php://stdin”, “r”);
$results = array();
while ( $line = fgets($in, 4096) )
{
$words = preg_split(‘/\W/', $line, 0, PREG_SPLIT_NO_EMPTY);
foreach ($words as $word)
$results[] = $word;
}
fclose($in);
foreach ($results as $key => $value)
{
print “$value\t1\n”;
}

这段代码的大致意思是：把输入的每行文本中的单词找出来，并以”
hello 1
world 1″
这样的形式输出出来。

和之前写的PHP基本没有什么不同，对吧，可能稍微让你感到陌生有两个地方：

PHP作为可执行程序

第一行的“#!/usr/bin/php”告诉linux，要用/usr/bin/php这个程序作为以下代码的解释器。写过linux shell的人应该很熟悉这种写法了，每个shell脚本的第一行都是这样: #!/bin/bash, #!/usr/bin/python

有了这一行，，保存好这个文件以后，就可以像这样直接把wc_mapper.php当作cat, grep一样的命令执行了：./wc_mapper.php

使用stdin接收输入

PHP支持多种参数传入的方法，大家最熟悉的应该是从$_GET, $_POST超全局变量里面取通过Web传递的参数，次之是从$_SERVER['argv']里取通过命令行传入的参数，这里，采用的是标准输入stdin

它的使用效果是：

在linux控制台输入 ./wc_mapper.php

wc_mapper.php运行，控制台进入等候用户键盘输入状态

用户通过键盘输入文本

用户按下Ctrl + D终止输入，wc_mapper.php开始执行真正的业务逻辑，并将执行结果输出

那么stdout在哪呢？print本身已经就是stdout啦，跟我们以前写web程序和CLI脚本没有任何不同。

三、写Reducer

新建一个wc_reducer.php，写入如下代码：

代码如下:

#!/usr/bin/php
$in = fopen(“php://stdin”, “r”);
$results = array();
while ( $line = fgets($in, 4096) )
{
list($key, $value) = preg_split(“/\t/”, trim($line), 2);
$results[$key] += $value;
}
fclose($in);
ksort($results);
foreach ($results as $key => $value)
{
print “$key\t$value\n”;
}

这段代码的大意是统计每个单词出现了多少次，并以”
hello 2
world 1″
这样的形式输出。

四、用Hadoop来运行

上传要统计的示例文本

代码如下:

hadoop fs -put *.TXT /tmp/input

以Streaming方式执行PHP mapreduce程序

代码如下:

hadoop jar hadoop-0.20.2-streaming.jar -input /tmp/input -output /tmp/output -mapper wc_mapper.php的绝对路径 -reducer wc_reducer.php的绝对路径

注意：

input和output目录是在hdfs上的路径

mapper和reducer是在本地机器的路径，一定要写绝对路径，不要写相对路径，以免到时候hadoop报错说找不到mapreduce程序。

查看结果

代码如下:

hadoop fs -cat /tmp/output/part-00000

五、shell版的Hadoop MapReduce程序

代码如下:

#!/bin/bash -

# 加载配置文件
source './config.sh'

# 处理命令行参数
while getopts "d:" arg
do
case $arg in
d)
date=$OPTARG

?)
echo "unkonw argument"
exit 1

esac
done

# 默认处理日期为昨天
default_date=`date -v-1d +%Y-%m-%d`

# 最终处理日期. 如果日期格式不对, 则退出执行
date=${date:-${default_date}}
if ! [[ "$date" =~ [12][0-9]{3}-(0[1-9]|1[12])-(0[1-9]|[12][0-9]|3[01]) ]]
then
echo "invalid date(yyyy-mm-dd): $date"
exit 1
fi

# 待处理文件
log_files=$(${hadoop_home}bin/hadoop fs -ls ${log_file_dir_in_hdfs} | awk '{print $8}' | grep $date)

# 如果待处理文件数目为零, 则退出执行
log_files_amount=$(($(echo $log_files | wc -l) + 0))
if [ $log_files_amount -lt 1 ]
then
echo "no log files found"
exit 0
fi

# 输入文件列表
for f in $log_files
do
input_files_list="${input_files_list} $f"
done

function map_reduce () {
if ${hadoop_home}bin/hadoop jar ${streaming_jar_path} -input${input_files_list} -output ${mapreduce_output_dir}${date}/${1}/ -mapper "${mapper} ${1}" -reducer "${reducer}" -file "${mapper}"
then
echo "streaming job done!"
else
exit 1
fi
}

# 循环处理每一个bucket
for bucket in ${bucket_list[@]}
do
map_reduce $bucket
done

推荐阅读

程序员
Jsfiddle的新UI破坏了我的角度和javascript小提琴

如何解决《Jsfiddle的新UI破坏了我的角度和javascript小提琴》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++ Simple IF子句更改静态const char变量的值

如何解决《C++SimpleIF子句更改静态constchar变量的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
具有变形的动态形式

如何解决《具有变形的动态形式》经验，为你挑选了1个好方法。 ... [详细]
程序员
反应 - material-ui appbar图标触摸事件不会触发

如何解决《反应-material-uiappbar图标触摸事件不会触发》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么`-1*x`比`-x`快？为什么？

如何解决《为什么`-1*x`比`-x`快？为什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在打字稿中一直使用.tsx而不是.ts是否有任何不足之处？

如何解决《在打字稿中一直使用.tsx而不是.ts是否有任何不足之处？》经验，为你挑选了2个好方法。 ... [详细]
程序员
std :: ref和swap函数似乎不能很好地协同工作

如何解决《std::ref和swap函数似乎不能很好地协同工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
"base.html.twig"中的symfony2("没有"cssrewrite"filter.")

如何解决《"base.html.twig"中的symfony2("没有"cssrewrite"filter.")》经验，为你挑选了1个好方法。 ... [详细]
程序员
显示文件名称并在JTree中的文件夹下选择它

如何解决《显示文件名称并在JTree中的文件夹下选择它》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用React v0.14.3实现路由器

如何解决《使用Reactv0.14.3实现路由器》经验，为你挑选了0个好方法。 ... [详细]
程序员
Angularjs 2.0不加载templateUrl

如何解决《Angularjs2.0不加载templateUrl》经验，为你挑选了1个好方法。 ... [详细]
程序员
在OrderedDict中如何按特定属性排序？

如何解决《在OrderedDict中如何按特定属性排序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
SurfaceView中的缩放和拖动功能

如何解决《SurfaceView中的缩放和拖动功能》经验，为你挑选了0个好方法。 ... [详细]
程序员
Xcode中关于iOS中fenceExemptQueue的奇怪警告

如何解决《Xcode中关于iOS中fenceExemptQueue的奇怪警告》经验，为你挑选了0个好方法。 ... [详细]
程序员
来自Url的Json Parsing在Android中,不起作用

如何解决《来自Url的JsonParsing在Android中,不起作用》经验，为你挑选了3个好方法。 ... [详细]
程序员
UI-Grid与自定义单元格模板中的按钮 - 如何取消行选择事件？

如何解决《UI-Grid与自定义单元格模板中的按钮-如何取消行选择事件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Laravel格式化数据库结果的DateTime

如何解决《Laravel格式化数据库结果的DateTime》经验，为你挑选了1个好方法。 ... [详细]
程序员
新建和删除操作符在库中覆盖

如何解决《新建和删除操作符在库中覆盖》经验，为你挑选了2个好方法。 ... [详细]
程序员
fabric.io即使在上传后也缺少dSYM

如何解决《fabric.io即使在上传后也缺少dSYM》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Visual Studio中更改或添加默认编辑器

如何解决《在VisualStudio中更改或添加默认编辑器》经验，为你挑选了1个好方法。 ... [详细]

手机用户2402851155

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章