13赞

如何使用spark sc.textFile获取文件名？

作者：mobiledu2402851373 | 2023-09-10 03:09

如何解决《如何使用sparksc.textFile获取文件名？》经验，为你挑选了1个好方法。

我正在使用以下代码读取文件目录:

val data = sc.textFile("/mySource/dir1/*")

现在我的 datardd包含目录中所有文件的所有行(对吧？)

我现在想要为每行添加一个包含源文件名的列,我该怎么做？

我尝试的其他选项是使用wholeTextFile但我不断出现内存异常.5台服务器24核24 GB(执行器 - 核心5执行器 - 内存5G)任何想法？

1> Udy..：

您可以使用此代码.我用Spark 1.4和1.5进行了测试.

它从获取文件名inputSplit,并使用其添加到每一行iterator使用mapPartitionsWithInputSplit的NewHadoopRDD

import org.apache.hadoop.mapreduce.lib.input.{FileSplit, TextInputFormat}
import org.apache.spark.rdd.{NewHadoopRDD}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.hadoop.io.LongWritable
import org.apache.hadoop.io.Text

val sc = new SparkContext(new SparkConf().setMaster("local"))

val fc = classOf[TextInputFormat]
val kc = classOf[LongWritable]
val vc = classOf[Text]

val path :String = "file:///home/user/test"
val text = sc.newAPIHadoopFile(path, fc ,kc, vc, sc.hadoopConfiguration)

val linesWithFileNames = text.asInstanceOf[NewHadoopRDD[LongWritable, Text]]
           .mapPartitionsWithInputSplit((inputSplit, iterator) => {
  val file = inputSplit.asInstanceOf[FileSplit]
  iterator.map(tup => (file.getPath, tup._2))
  }
)

linesWithFileNames.foreach(println)

推荐阅读

程序员
使用PowerShell确定具有特定文件扩展名的文件是否不在文件夹中

如何解决《使用PowerShell确定具有特定文件扩展名的文件是否不在文件夹中》经验，为你挑选了1个好方法。 ... [详细]
程序员
在iOS应用和Web应用上链接Facebook Graph

如何解决《在iOS应用和Web应用上链接FacebookGraph》经验，为你挑选了1个好方法。 ... [详细]
程序员
c ++对象初始化和构造函数语义

如何解决《c++对象初始化和构造函数语义》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java - String.replace()的意外行为

如何解决《Java-String.replace()的意外行为》经验，为你挑选了1个好方法。 ... [详细]
程序员
SQL错误 - 关键字'IS'附近的语法错误 - SQL中的数据库名称问题？

如何解决《SQL错误-关键字'IS'附近的语法错误-SQL中的数据库名称问题？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将(1:n)[boolean]分割成连续的序列

如何解决《将(1:n)[boolean]分割成连续的序列》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用guid和文件扩展名上传ASP.NET WebApi文件

如何解决《使用guid和文件扩展名上传ASP.NETWebApi文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
用一个月而不是一年创建大熊猫时间序列

如何解决《用一个月而不是一年创建大熊猫时间序列》经验，为你挑选了0个好方法。 ... [详细]
程序员
优雅的方式来跳过迭代中的元素

如何解决《优雅的方式来跳过迭代中的元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
是e =事件|| window.event; IE8兼容性可接受

如何解决《是e=事件||window.event;IE8兼容性可接受》经验，为你挑选了1个好方法。 ... [详细]
程序员
比较两个名单

如何解决《比较两个名单》经验，为你挑选了1个好方法。 ... [详细]
程序员
动画谷歌地图折线

如何解决《动画谷歌地图折线》经验，为你挑选了1个好方法。 ... [详细]
程序员
将变量传递给工厂angularjs

如何解决《将变量传递给工厂angularjs》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java unmarshilling JSON数据包含抽象类型

如何解决《JavaunmarshillingJSON数据包含抽象类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
Capybara - 访问()不使用Firefox

如何解决《Capybara-访问()不使用Firefox》经验，为你挑选了0个好方法。 ... [详细]
程序员
PHP PDO:Charset = UTF8:在dsn字符串中指定了无效的关键字字符集

如何解决《PHPPDO:Charset=UTF8:在dsn字符串中指定了无效的关键字字符集》经验，为你挑选了1个好方法。 ... [详细]
程序员
ActiveRecord:使用where子句时不考虑毫秒数

如何解决《ActiveRecord:使用where子句时不考虑毫秒数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何返回与给定字符串匹配的枚举值？

如何解决《如何返回与给定字符串匹配的枚举值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
这可以用CSS完成吗？

如何解决《这可以用CSS完成吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django South - 如何在Django应用程序上重置迁移历史记录并开始清理

如何解决《DjangoSouth-如何在Django应用程序上重置迁移历史记录并开始清理》经验，为你挑选了1个好方法。 ... [详细]

mobiledu2402851373

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章