当前位置:  开发笔记 > 编程语言 > 正文

使用Spark列出Hadoop HDFS目录中的所有文件?

如何解决《使用Spark列出HadoopHDFS目录中的所有文件?》经验,为你挑选了1个好方法。

我想循环遍历Hadoop目录中的所有文本文件,并计算单词"error"的所有出现次数.有没有办法hadoop fs -ls /users/ubuntu/用Apache Spark Scala API列出目录中的所有文件?

从给定的第一个示例中,spark上下文似乎只能通过以下方式单独访问文件:

val file = spark.textFile("hdfs://target_load_file.txt")

在我的问题中,我不知道预先在HDFS文件夹中有多少文件名.看了一下spark上下文文档,却找不到这种功能.



1> Daniel Darab..:

您可以使用通配符:

val errorCount = sc.textFile("hdfs://some-directory/*")
                   .flatMap(_.split(" ")).filter(_ == "error").count


使用`sc.wholeTextFiles`.对于这个问题,请参见http://stackoverflow.com/questions/29521665/how-to-map-filenames-to-rdd-using-sc-textfiles3n-bucket-csv.
推荐阅读
乐韵答题
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有