11赞

在Spark中加载本地文件(而不是HDFS)失败

作者：jerry613 | 2023-06-11 16:46

如何解决《在Spark中加载本地文件(而不是HDFS)失败》经验，为你挑选了1个好方法。

我有一个问题 - 如何在PySpark上使用sc.textFile加载本地文件(不在HDFS上,而不在S3上).我读了这篇文章,然后复制sales.csv到主节点的本地(不是HDFS),最后执行了以下

sc.textFile("file:///sales.csv").count()

但它返回以下错误,说 file:/click_data_sample.csv does not exist

Py4JJavaError:调用z:org.apache.spark.api.python.PythonRDD.collectAndServe时发生错误.:org.apache.spark.SparkException:作业因阶段失败而中止:阶段3.0中的任务0失败4次,最近失败:阶段3.0中丢失任务0.3(TID 10,ip-17x-xx-xx-xxx.ap -northeast-1.compute.internal):java.io.FileNotFoundException:文件文件:/sales.csv不存在

我试过了file://sales.csv,file:/sales.csv但都失败了.

你给我一些如何加载本地文件的建议是非常有帮助的.

Noted1:

我的环境是亚马逊emr-4.2.0 + Spark 1.5.2.

所有端口都已打开

Noted2:

我确认了HDFS或S3 工作的加载文件.

这是从HDFS加载的代码 - 下载csv,提前复制到hdfs然后用sc.textFile加载("/ path/at/hdfs")

commands.getoutput('wget -q https://raw.githubusercontent.com/phatak-dev/blog/master/code/DataSourceExamples/src/main/resources/sales.csv')
commands.getoutput('hadoop fs -copyFromLocal -f ./sales.csv /user/hadoop/')
sc.textFile("/user/hadoop/sales.csv").count()  # returns "15" which is number of the line of csv file

这是从S3加载的代码 - 提前将S3放入csv文件,然后使用"s3n://"标志加载sc.textFile("s3n:// path/at/hdfs").

sc.textFile("s3n://my-test-bucket/sales.csv").count() # also returns "15"

facha.. 10

文件读取发生在执行程序节点上.为了使代码正常工作,您应该在所有节点上分发文件.

如果Spark驱动程序在文件所在的同一台机器上运行,您可以尝试读取文件(例如使用f=open("file").read()for python),然后调用sc.parallelize将文件内容转换为RDD.

1> facha..：

文件读取发生在执行程序节点上.为了使代码正常工作,您应该在所有节点上分发文件.

如果Spark驱动程序在文件所在的同一台机器上运行,您可以尝试读取文件(例如使用f=open("file").read()for python),然后调用sc.parallelize将文件内容转换为RDD.

推荐阅读

程序员
在aspnet5-rc1中禁用NTLM/Negotiate登录选项

如何解决《在aspnet5-rc1中禁用NTLM/Negotiate登录选项》经验，为你挑选了1个好方法。 ... [详细]
程序员
react-bootstrap-table未对齐的标题列

如何解决《react-bootstrap-table未对齐的标题列》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用Android Studio 2.0 Preview的FileOpUtils的ClassNotFoundException

如何解决《使用AndroidStudio2.0Preview的FileOpUtils的ClassNotFoundException》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何从文件读取字节到byte []数组？

如何解决《如何从文件读取字节到byte[]数组？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在启用溢出检查的情况下编译和运行优化的Rust程序

如何解决《如何在启用溢出检查的情况下编译和运行优化的Rust程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
我的JS的任何方面是否会导致我的网站加载速度非常慢？

如何解决《我的JS的任何方面是否会导致我的网站加载速度非常慢？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django/python - 消除关于日期和时区意识的混淆

如何解决《Django/python-消除关于日期和时区意识的混淆》经验，为你挑选了0个好方法。 ... [详细]
程序员
MongoDB dataSize如何比storageSize更大？

如何解决《MongoDBdataSize如何比storageSize更大？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Microsoft Graph进行模拟

如何解决《使用MicrosoftGraph进行模拟》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何有效地运行多CPU内核的Django

如何解决《如何有效地运行多CPU内核的Django》经验，为你挑选了1个好方法。 ... [详细]
程序员
mutate()在使用美元符号运算符时尝试使用全局变量的值进行提取

如何解决《mutate()在使用美元符号运算符时尝试使用全局变量的值进行提取》经验，为你挑选了0个好方法。 ... [详细]
程序员
S3:如果由其他用户创建,则用户无法访问自己的s3存储桶中的对象

如何解决《S3:如果由其他用户创建,则用户无法访问自己的s3存储桶中的对象》经验，为你挑选了2个好方法。 ... [详细]
程序员
RxJS:结束三个承诺,区分结果

如何解决《RxJS:结束三个承诺,区分结果》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Zurb Foundation中禁用禁用按钮并启用验证

如何解决《在ZurbFoundation中禁用禁用按钮并启用验证》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么VS code中的问题匹配器不起作用？

如何解决《为什么VScode中的问题匹配器不起作用？》经验，为你挑选了0个好方法。 ... [详细]
程序员
python版本与json.dumps冲突

如何解决《python版本与json.dumps冲突》经验，为你挑选了1个好方法。 ... [详细]
程序员
递归放置的组件不显示

如何解决《递归放置的组件不显示》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Web组件中扩展元素时,"is"语法有什么意义？

如何解决《在Web组件中扩展元素时,"is"语法有什么意义？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Windows 10下访问2016年相当大的窗体边界太窄

如何解决《在Windows10下访问2016年相当大的窗体边界太窄》经验，为你挑选了0个好方法。 ... [详细]
程序员
Python Pandas:String包含但不包含

如何解决《PythonPandas:String包含但不包含》经验，为你挑选了2个好方法。 ... [详细]

jerry613

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章