我想循环遍历Hadoop目录中的所有文本文件,并计算单词"error"的所有出现次数.有没有办法hadoop fs -ls /users/ubuntu/
用Apache Spark Scala API列出目录中的所有文件?
从给定的第一个示例中,spark上下文似乎只能通过以下方式单独访问文件:
val file = spark.textFile("hdfs://target_load_file.txt")
在我的问题中,我不知道预先在HDFS文件夹中有多少文件名.看了一下spark上下文文档,却找不到这种功能.
您可以使用通配符:
val errorCount = sc.textFile("hdfs://some-directory/*") .flatMap(_.split(" ")).filter(_ == "error").count