在Hadoop中将多个文件合并为一个文件

作者：落单鸟人 | 2023-07-01 18:34

如何解决《在Hadoop中将多个文件合并为一个文件》经验，为你挑选了3个好方法。

我将多个小文件放入我的输入目录,我希望将其合并到一个文件中,而不使用本地文件系统或编写mapred.有没有办法可以使用hadoof fs命令或猪？

谢谢!

1> Guy B..：

为了保持网格上的所有内容,使用带有单个reducer和cat作为mapper和reducer(基本上是noop)的hadoop流 - 使用MR标志添加压缩.

hadoop jar \
    $HADOOP_PREFIX/share/hadoop/tools/lib/hadoop-streaming.jar \

    -Dmapred.reduce.tasks=1 \
    -Dmapred.job.queue.name=$QUEUE \
    -input "$INPUT" \
    -output "$OUTPUT" \
    -mapper cat \
    -reducer cat

如果要压缩,请添加
-Dmapred.output.compress = true\-Dmapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec

2> Harsha Hulag..：

hadoop fs -getmerge

我认为`mergedsinglefile`是本地的,不是分发的

这将导致本地文件系统上的文件,OP希望避免这些文件

奇怪的是,这没有给我任何结果.不知道为什么.

3> uHadoop..：

好吧......我想出了一种使用hadoop fs命令的方法-

hadoop fs -cat [dir]/* | hadoop fs -put - [destination file]

它在我测试时起作用了......人们可以想到的任何陷阱？

谢谢!

但是在这种情况下,您将所有数据从HDFS下载到您正在运行命令的节点(本地一个？),然后将其上传到HDFS.如果您有大量数据,这不是太有效

推荐阅读

程序员
如何拥有单独的身份验证源？(一个用于Oauth2,一个用于基于表单的登录)

如何解决《如何拥有单独的身份验证源？(一个用于Oauth2,一个用于基于表单的登录)》经验，为你挑选了0个好方法。 ... [详细]
程序员
std :: move of string literal - 哪个编译器正确？

如何解决《std::moveofstringliteral-哪个编译器正确？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从Action Bar xamarin中删除图标

如何解决《从ActionBarxamarin中删除图标》经验，为你挑选了2个好方法。 ... [详细]
程序员
C在使用scanf时动态分配struct,seg fault

如何解决《C在使用scanf时动态分配struct,segfault》经验，为你挑选了1个好方法。 ... [详细]
程序员
在tensorflow中使用dropout时出错

如何解决《在tensorflow中使用dropout时出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
升级对3中消失的Datastax Java API的调用

如何解决《升级对3中消失的DatastaxJavaAPI的调用》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在IOS中的UIStackView中设置权重

如何解决《如何在IOS中的UIStackView中设置权重》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ruby on Rails - Postgres:数组值必须以"{"或维度信息开头

如何解决《RubyonRails-Postgres:数组值必须以"{"或维度信息开头》经验，为你挑选了1个好方法。 ... [详细]
程序员
R中的条件数据帧突变与magrittr和dplyr

如何解决《R中的条件数据帧突变与magrittr和dplyr》经验，为你挑选了3个好方法。 ... [详细]
程序员
用于在云中托管Java PLAY应用程序的服务器体系结构

如何解决《用于在云中托管JavaPLAY应用程序的服务器体系结构》经验，为你挑选了0个好方法。 ... [详细]
程序员
控制台窗口的输出是否有限制？

如何解决《控制台窗口的输出是否有限制？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何只模拟一个静态方法并测试另一个

如何解决《如何只模拟一个静态方法并测试另一个》经验，为你挑选了1个好方法。 ... [详细]
程序员
在virtmart 3的产品详细信息页面上的相关产品中添加数量和添加到购物车,并以线性方式显示

如何解决《在virtmart3的产品详细信息页面上的相关产品中添加数量和添加到购物车,并以线性方式显示》经验，为你挑选了0个好方法。 ... [详细]
程序员
Python Docstring:提高与提高

如何解决《PythonDocstring:提高与提高》经验，为你挑选了1个好方法。 ... [详细]
程序员
const在运行时有效

如何解决《const在运行时有效》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法将队列添加到现有TFS 2015 Build代理池

如何解决《无法将队列添加到现有TFS2015Build代理池》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python:如何比较两个数据帧

如何解决《Python:如何比较两个数据帧》经验，为你挑选了1个好方法。 ... [详细]
程序员
python wtf AttributeError:'ObjectIdField'对象没有属性'help_text'

如何解决《pythonwtfAttributeError:'ObjectIdField'对象没有属性'help_text'》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio Online错误解析*.xproj中的解决方案文件

如何解决《VisualStudioOnline错误解析*.xproj中的解决方案文件》经验，为你挑选了2个好方法。 ... [详细]
程序员
Ruby File IO：无法将URL作为File对象打开

如何解决《RubyFileIO：无法将URL作为File对象打开》经验，为你挑选了1个好方法。 ... [详细]

落单鸟人

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章