20赞

使用FileInputFormat.addInputPaths递归添加HDFS路径

作者：mobiledu2402851203 | 2023-06-18 12:43

如何解决《使用FileInputFormat.addInputPaths递归添加HDFS路径》经验，为你挑选了1个好方法。

我有一个类似的HDFS结构

a/b/file1.gz
a/b/file2.gz
a/c/file3.gz
a/c/file4.gz

我使用的是经典模式

FileInputFormat.addInputPaths(conf, args[0]);

设置我的Java映射减少作业的输入路径。

如果我将args [0]指定为a / b，则效果很好，但如果仅指定a（我的意图是要处理所有4个文件），它将失败

错误是

Exception in thread "main" java.io.IOException: Not a file: hdfs://host:9000/user/hadoop/a

如何将所有内容递归添加到？

我一定错过了一些简单的事情...

1> Josh Hansen..：

正如Eitan Illuz在此所述，在Hadoop 2.4.0 mapreduce.input.fileinputformat.input.dir.recursive中引入了一个配置属性，当该属性设置为true指示输入格式以递归方式包含文件时。

在Java代码中，它看起来像这样：

Configuration conf = new Configuration();
conf.setBoolean("mapreduce.input.fileinputformat.input.dir.recursive", true);
Job job = Job.getInstance(conf);
// etc.

我一直在使用此新属性，并发现它运行良好。

编辑：更好的是，使用此新方法FileInputFormat可以达到相同的结果：

Job job = Job.getInstance();
FileInputFormat.setInputDirRecursive(job, true);

推荐阅读

程序员
RabbitMQ + TLS:ssl_upgrade_error

如何解决《RabbitMQ+TLS:ssl_upgrade_error》经验，为你挑选了0个好方法。 ... [详细]
程序员
EXCEL VBA:从单元格中的字符串中提取8位数序列

如何解决《EXCELVBA:从单元格中的字符串中提取8位数序列》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何创建使用用户定义函数的BigQuery视图？

如何解决《如何创建使用用户定义函数的BigQuery视图？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何要求gson避免在json响应中转义json？

如何解决《如何要求gson避免在json响应中转义json？》经验，为你挑选了1个好方法。 ... [详细]
程序员
重新绑定Elixir中外部作用域中的变量

如何解决《重新绑定Elixir中外部作用域中的变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Win10中拼写检查文本框 - 慢

如何解决《在Win10中拼写检查文本框-慢》经验，为你挑选了1个好方法。 ... [详细]
程序员
Flask:NameError:未定义全局名称"redirect"

如何解决《Flask:NameError:未定义全局名称"redirect"》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法在Tensorflow中优化多元线性回归

如何解决《无法在Tensorflow中优化多元线性回归》经验，为你挑选了1个好方法。 ... [详细]
程序员
R:如何得到两个分布的总和？

如何解决《R:如何得到两个分布的总和？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在ReactiveCocoa 4中创建自定义信号？

如何解决《如何在ReactiveCocoa4中创建自定义信号？》经验，为你挑选了1个好方法。 ... [详细]
程序员
任何状态更新,在Tensorflow的iOS示例上？

如何解决《任何状态更新,在Tensorflow的iOS示例上？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何列出所有Presto工作人员？

如何解决《如何列出所有Presto工作人员？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在配置单元中,有没有办法指定添加新列的列之间？

如何解决《在配置单元中,有没有办法指定添加新列的列之间？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android AWS S3 SDK TransferUtility在服务中不起作用

如何解决《AndroidAWSS3SDKTransferUtility在服务中不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
std :: transform命令保证

如何解决《std::transform命令保证》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用python将opencv图像传输到ffmpeg

如何解决《使用python将opencv图像传输到ffmpeg》经验，为你挑选了1个好方法。 ... [详细]
程序员
序列化UTC时间c#

如何解决《序列化UTC时间c#》经验，为你挑选了0个好方法。 ... [详细]
程序员
模型中的Laravel 5.1 bool属性在模型类中加入时返回空数组

如何解决《模型中的Laravel5.1bool属性在模型类中加入时返回空数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
等待使用异步方法的Task.Run不会在正确的线程上抛出异常

如何解决《等待使用异步方法的Task.Run不会在正确的线程上抛出异常》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否有可能将一个clojure矢量解构为最后两个项目,其余的？

如何解决《是否有可能将一个clojure矢量解构为最后两个项目,其余的？》经验，为你挑选了2个好方法。 ... [详细]

mobiledu2402851203

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章