11赞

使用Hadoop流处理gzip文件

作者：mobiledu2402852357 | 2023-07-11 16:36

如何解决《使用Hadoop流处理gzip文件》经验，为你挑选了1个好方法。

我看到许多关于将hadoop MapReduce结果输出为gzip格式或任何其他压缩格式的文章。但是，我不太了解hadoop-streaming如何读入（输入）压缩格式。我看到了一些较旧的帖子，内容涉及使用-jobconf stream.recordreader.compression=gzip http://mail-archives.apache.org/mod_mbox/hadoop-common-user/200907.mbox/%3C73e5a5310907141349k3329c5cua4bb58fcf103522@mail.gmail.com%3E来做输入部分。当前，我在Ubuntu LTS 12.04上使用Cloudera CDH 5。用python编写mapper和reducer。

1> 小智..：

不需要其他命令行参数，Hadoop流作业自然支持Gzip输入。Gzip文件将被自动检测并解压缩。只需使用-input选项传递gzip文件即可。这是一个非常简单的示例：

$ hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -input /user/johndoe/test_input.gz -output /user/johndoe/output -mapper /bin/cat -reducer /usr/bin/wc

在输入方面，使用Python映射器和reducer不会更改任何内容。

我注意到的一个警告但尚未解决：使用带有-inputreader "StreamXmlRecordReader,begin=page,end=/page"选项的gzip输入不会产生任何输出。

推荐阅读

程序员
在Yii2中的视图文件中使用ArrayHelper

如何解决《在Yii2中的视图文件中使用ArrayHelper》经验，为你挑选了1个好方法。 ... [详细]
程序员
尾递归与原始递归

如何解决《尾递归与原始递归》经验，为你挑选了1个好方法。 ... [详细]
程序员
语法错误:'delimiter'在这里输入无效

如何解决《语法错误:'delimiter'在这里输入无效》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么不能满足相关类型的From <>的更高的kinded特性限制,但Into <>可以吗？

如何解决《为什么不能满足相关类型的From<>的更高的kinded特性限制,但Into<>可以吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将Future [Vector [UserLocation]]转换为Future [Vector [User]]

如何解决《如何将Future[Vector[UserLocation]]转换为Future[Vector[User]]》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以构建一个惰性条件元函数

如何解决《是否可以构建一个惰性条件元函数》经验，为你挑选了0个好方法。 ... [详细]
程序员
制作填充图Matplotlib-错误：类型升级无效

如何解决《制作填充图Matplotlib-错误：类型升级无效》经验，为你挑选了1个好方法。 ... [详细]
程序员
在R中将两个列值粘贴在一起时省略NA值

如何解决《在R中将两个列值粘贴在一起时省略NA值》经验，为你挑选了0个好方法。 ... [详细]
程序员
从视图运行时如何修复Url（〜/ Views / Home / Index.cshtml）

如何解决《从视图运行时如何修复Url（〜/Views/Home/Index.cshtml）》经验，为你挑选了1个好方法。 ... [详细]
程序员
Gunicorn Upstart文件无法启动

如何解决《GunicornUpstart文件无法启动》经验，为你挑选了0个好方法。 ... [详细]
程序员
函数uasort在PHP 5.5和PHP 7.0中的不同行为

如何解决《函数uasort在PHP5.5和PHP7.0中的不同行为》经验，为你挑选了1个好方法。 ... [详细]
程序员
我们应该如何实现对象类型的移动？

如何解决《我们应该如何实现对象类型的移动？》经验，为你挑选了1个好方法。 ... [详细]
程序员
BeautifulSoup中的select方法无法用空格选择属性值

如何解决《BeautifulSoup中的select方法无法用空格选择属性值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何处理谷歌地图上的触摸事件(MapFragment)？

如何解决《如何处理谷歌地图上的触摸事件(MapFragment)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#Hook全局键盘事件 - .net 4.0

如何解决《C#Hook全局键盘事件-.net4.0》经验，为你挑选了1个好方法。 ... [详细]
程序员
区分相同类型的异常

如何解决《区分相同类型的异常》经验，为你挑选了0个好方法。 ... [详细]
程序员
jQuery第3级导航未按预期工作

如何解决《jQuery第3级导航未按预期工作》经验，为你挑选了0个好方法。 ... [详细]
程序员
超薄3:如何访问设置？

如何解决《超薄3:如何访问设置？》经验，为你挑选了2个好方法。 ... [详细]
程序员
在内存中格式化SyntaxTree的最佳方法是什么？

如何解决《在内存中格式化SyntaxTree的最佳方法是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++结构值初始化

如何解决《C++结构值初始化》经验，为你挑选了1个好方法。 ... [详细]

mobiledu2402852357

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章