6赞

Hadoop Streaming:Mapper'包装'二进制可执行文件

作者：手机用户2402851155 | 2023-06-25 12:58

如何解决《HadoopStreaming:Mapper'包装'二进制可执行文件》经验，为你挑选了0个好方法。

我有一个管道,我目前在大型大学计算机集群上运行.出于发布目的,我想将其转换为mapreduce格式,以便任何人都可以使用像amazon webservices(AWS)这样的hadoop集群来运行它.该管道目前由一系列python脚本组成,这些脚本包含不同的二进制可执行文件,并使用python子进程和tempfile模块管理输入和输出.不幸的是,我没有写二进制可执行文件,其中许多不是采用STDIN或不以"可用"的方式发出STDOUT(例如,只将它发送到文件).这些问题就是为什么我把它们中的大部分包装在python中.

到目前为止,我已经能够修改我的Python代码,以便我有一个mapper和一个reducer,我可以在我的本地机器上以标准的"测试格式"运行.

$ cat data.txt | mapper.py | reducer.py

映射器以它包装的二进制文件的方式格式化每一行数据,使用subprocess.popen将文本发送到二进制文件(这也允许我屏蔽很多虚假的STDOUT),然后收集我想要的STOUT,并格式化它到适合减速器的文本行.当我尝试在本地hadoop安装上复制命令时出现问题.我可以让mapper执行,但它会给出一个错误,表明它无法找到二进制可执行文件.

在main()文件"/Users/me/Desktop/hadoop-0.21.0/./mapper.py"中输入文件"/Users/me/Desktop/hadoop-0.21.0/./phyml.py",第69行,第66行,主要phyml(无)文件"/Users/me/Desktop/hadoop-0.21.0/./mapper.py",第46行,在phyml ft = Popen(cli_parts,stdin = PIPE,stderr = PIPE ,stdout = PIPE)文件"/Library/Frameworks/Python.framework/Versions/6.1/lib/python2.6/subprocess.py",第621行,在init errread,errwrite)文件"/Library/Frameworks/Python.framework /Versions/6.1/lib/python2.6/subprocess.py",第1126行,在_execute_child中引发child_exception OSError:[Errno 13]权限被拒绝

我的hadoop命令如下所示:

./bin/hadoop jar /Users/me/Desktop/hadoop-0.21.0/mapred/contrib/streaming/hadoop-0.21.0-streaming.jar \
-input /Users/me/Desktop/Code/AWS/temp/data.txt \
-output /Users/me/Desktop/aws_test \
-mapper  mapper.py \
-reducer  reducer.py \
-file /Users/me/Desktop/Code/AWS/temp/mapper.py \
-file /Users/me/Desktop/Code/AWS/temp/reducer.py \
-file /Users/me/Desktop/Code/AWS/temp/binary

正如我上面提到的,它看起来像mapper不知道二进制文件 - 也许它没有被发送到计算节点？不幸的是我无法确定问题是什么.任何帮助将不胜感激.看到用python编写的包含二进制可执行文件的一些hadoop流映射器/缩减器会特别好看.我无法想象我是第一个尝试这样做的人!事实上,这是另一篇提出基本相同问题的帖子,但尚未得到答复......

Hadoop/Elastic Map使用二进制可执行文件减少？

推荐阅读

程序员
恢复默认导航栏外观

如何解决《恢复默认导航栏外观》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用带角度+ webpack + es6的数据表

如何解决《使用带角度+webpack+es6的数据表》经验，为你挑选了1个好方法。 ... [详细]
程序员
我如何单元测试/模拟ElasticSearch

如何解决《我如何单元测试/模拟ElasticSearch》经验，为你挑选了0个好方法。 ... [详细]
程序员
Tensorflow Tensor重塑并用零填充

如何解决《TensorflowTensor重塑并用零填充》经验，为你挑选了2个好方法。 ... [详细]
程序员
PowerShell-删除文本文件的所有行，直到找到特定字符串

如何解决《PowerShell-删除文本文件的所有行，直到找到特定字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
docker build失败,无法解析'archive.ubuntu.com'

如何解决《dockerbuild失败,无法解析'archive.ubuntu.com'》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么是方位角和colatitude？

如何解决《什么是方位角和colatitude？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python Dictionary获取Key的值

如何解决《PythonDictionary获取Key的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
具有双引号的正则表达式的ng-pattern无法正确转义

如何解决《具有双引号的正则表达式的ng-pattern无法正确转义》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用Swift检测我的代码是否在WatchKit或iOS上运行？

如何解决《如何使用Swift检测我的代码是否在WatchKit或iOS上运行？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在派生类的构造函数体中调用基础构造函数

如何解决《在派生类的构造函数体中调用基础构造函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么activerecord没有填充从create返回的项目中的自动递增列？

如何解决《为什么activerecord没有填充从create返回的项目中的自动递增列？》经验，为你挑选了0个好方法。 ... [详细]
程序员
UTF8与Latin1

如何解决《UTF8与Latin1》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么,对于整数向量x,为(x,"numeric")触发加载强制的附加S4方法？

如何解决《为什么,对于整数向量x,为(x,"numeric")触发加载强制的附加S4方法？》经验，为你挑选了0个好方法。 ... [详细]
程序员
numpy/scipy:经过一段时间后,让一个系列向另一个系列汇聚

如何解决《numpy/scipy:经过一段时间后,让一个系列向另一个系列汇聚》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django-Filer:如何在管理员之外调用上传小部件

如何解决《Django-Filer:如何在管理员之外调用上传小部件》经验，为你挑选了0个好方法。 ... [详细]
程序员
显示D3链接文本正面朝上

如何解决《显示D3链接文本正面朝上》经验，为你挑选了1个好方法。 ... [详细]
程序员
不完整的模式匹配此表达式

如何解决《不完整的模式匹配此表达式》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用勾选/复选标记符号(✓)而不是无序列表中的项目符号？

如何解决《如何使用勾选/复选标记符号(✓)而不是无序列表中的项目符号？》经验，为你挑选了3个好方法。 ... [详细]
程序员
C malloc字符串

如何解决《Cmalloc字符串》经验，为你挑选了2个好方法。 ... [详细]

手机用户2402851155

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章