6赞

分区文本文件的Spark附加模式失败,SaveMode.Append - IOException File已存在

作者：php | 2023-06-11 13:04

如何解决《分区文本文件的Spark附加模式失败,SaveMode.Append-IOExceptionFile已存在》经验，为你挑选了1个好方法。

写分区文本文件失败的简单方法.

dataDF.write.partitionBy("year", "month", "date").mode(SaveMode.Append).text("s3://data/test2/events/")

例外 -

16/07/06 02:15:05 ERROR datasources.DynamicPartitionWriterContainer: Aborting task.
java.io.IOException: File already exists:s3://path/1839dd1ed38a.gz
 at com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.create(S3NativeFileSystem.java:614)
 at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:913)
 at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:894)
 at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:791)
 at com.amazon.ws.emr.hadoop.fs.EmrFileSystem.create(EmrFileSystem.java:177)
 at org.apache.hadoop.mapreduce.lib.output.TextOutputFormat.getRecordWriter(TextOutputFormat.java:135)
 at org.apache.spark.sql.execution.datasources.text.TextOutputWriter.(DefaultSource.scala:156)
 at org.apache.spark.sql.execution.datasources.text.TextRelation$$anon$1.newInstance(DefaultSource.scala:125)
 at org.apache.spark.sql.execution.datasources.BaseWriterContainer.newOutputWriter(WriterContainer.scala:129)
 at org.apache.spark.sql.execution.datasources.DynamicPartitionWriterContainer.newOutputWriter$1(WriterContainer.scala:424)
 at org.apache.spark.sql.execution.datasources.DynamicPartitionWriterContainer.writeRows(WriterContainer.scala:356)
 at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelation$$anonfun$run$1$$anonfun$apply$mcV$sp$3.apply(InsertIntoHadoopFsRelation.scala:150)
 at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelation$$anonfun$run$1$$anonfun$apply$mcV$sp$3.apply(InsertIntoHadoopFsRelation.scala:150)
 at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
 at org.apache.spark.scheduler.Task.run(Task.scala:89)
 at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
 at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
 at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
 at java.lang.Thread.run(Thread.java:745)
16/07/06 02:15:05 INFO output.DirectFileOutputCommitter: Nothing to clean up on abort since there are no temporary files written
16/07/06 02:15:05 ERROR datasources.DynamicPartitionWriterContainer: Task attempt attempt_201607060215_0004_m_001709_3 aborted.
16/07/06 02:15:05 ERROR executor.Executor: Exception in task 1709.3 in stage 4.0 (TID 12093)
org.apache.spark.SparkException: Task failed while writing rows.
 at org.apache.spark.sql.execution.datasources.DynamicPartitionWriterContainer.writeRows(WriterContainer.scala:414)
 at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelation$$anonfun$run$1$$anonfun$apply$mcV$sp$3.apply(InsertIntoHadoopFsRelation.scala:150)
 at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelation$$anonfun$run$1$$anonfun$apply$mcV$sp$3.apply(InsertIntoHadoopFsRelation.scala:150)
 at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
 at org.apache.spark.scheduler.Task.run(Task.scala:89)
 at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
 at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
 at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
 at java.lang.Thread.run(Thread.java:745)
Caused by: java.io.IOException: File already exists:s3://path/a984-1839dd1ed38a.gz
 at com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.create(S3NativeFileSystem.java:614)
 at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:913)
 at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:894)
 at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:791)
 at com.amazon.ws.emr.hadoop.fs.EmrFileSystem.create(EmrFileSystem.java:177)
 at org.apache.hadoop.mapreduce.lib.output.TextOutputFormat.getRecordWriter(TextOutputFormat.java:135)
 at org.apache.spark.sql.execution.datasources.text.TextOutputWriter.(DefaultSource.scala:156)
 at org.apache.spark.sql.execution.datasources.text.TextRelation$$anon$1.newInstance(DefaultSource.scala:125)
 at org.apache.spark.sql.execution.datasources.BaseWriterContainer.newOutputWriter(WriterContainer.scala:129)
 at org.apache.spark.sql.execution.datasources.DynamicPartitionWriterContainer.newOutputWriter$1(WriterContainer.scala:424)
 at org.apache.spark.sql.execution.datasources.DynamicPartitionWriterContainer.writeRows(WriterContainer.scala:356)
 ... 8 more

Yash Sharma.. 7

经过大量的浪费工时,用解决方案回答我的问题,这对我有用,还有其他麻烦事件.

TLDR; 将spark.speculation设置为false,如下所示:

conf = new SparkConf().set(“spark.speculation“,”false”)

更多细节在这里和这里.

1> Yash Sharma..：

经过大量的浪费工时,用解决方案回答我的问题,这对我有用,还有其他麻烦事件.

TLDR; 将spark.speculation设置为false,如下所示:

conf = new SparkConf().set(“spark.speculation“,”false”)

更多细节在这里和这里.

推荐阅读

程序员
PHP - 将数组返回为字符串

如何解决《PHP-将数组返回为字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
Sitecore项目访问权限

如何解决《Sitecore项目访问权限》经验，为你挑选了1个好方法。 ... [详细]
程序员
AdaptiveTrigger和DataTemplate

如何解决《AdaptiveTrigger和DataTemplate》经验，为你挑选了1个好方法。 ... [详细]
程序员
致命错误:codeigniter中超出了30秒的最大执行时间

如何解决《致命错误:codeigniter中超出了30秒的最大执行时间》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android设备监视器中未列出"适用于Android的Visual Studio模拟器"设备

如何解决《Android设备监视器中未列出"适用于Android的VisualStudio模拟器"设备》经验，为你挑选了3个好方法。 ... [详细]
程序员
angularjs绝对打造视觉工作室2015

如何解决《angularjs绝对打造视觉工作室2015》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在JQuery数据表中添加Rowspan

如何解决《如何在JQuery数据表中添加Rowspan》经验，为你挑选了1个好方法。 ... [详细]
程序员
Osmdroid在标记内插入文本

如何解决《Osmdroid在标记内插入文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用django进行CLI工具

如何解决《使用django进行CLI工具》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用GitHub Desktop一次丢弃所有更改

如何解决《使用GitHubDesktop一次丢弃所有更改》经验，为你挑选了1个好方法。 ... [详细]
程序员
离子应用程序中的计时器(setInterval)在后台运行一段时间后会进入睡眠状态

如何解决《离子应用程序中的计时器(setInterval)在后台运行一段时间后会进入睡眠状态》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么RegisterAllAreas中的区域顺序随Visual Studio 2015而变化？

如何解决《为什么RegisterAllAreas中的区域顺序随VisualStudio2015而变化？》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用Querydsl和Spring Data时的最佳实践

如何解决《使用Querydsl和SpringData时的最佳实践》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在android中以编程方式检查哪个sim设置为默认sim

如何解决《如何在android中以编程方式检查哪个sim设置为默认sim》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在MongoDB v3.0.5中创建用户

如何解决《如何在MongoDBv3.0.5中创建用户》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在c中使用sscanf分隔整数值？

如何解决《如何在c中使用sscanf分隔整数值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
首选项支持库 - SwitchPreference无法正常工作

如何解决《首选项支持库-SwitchPreference无法正常工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
可以添加'constexpr'来改变行为吗？

如何解决《可以添加'constexpr'来改变行为吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Azure Web应用程序缓慢的数据库连接

如何解决《AzureWeb应用程序缓慢的数据库连接》经验，为你挑选了0个好方法。 ... [详细]
程序员
Crossfilter示例中的复合图

如何解决《Crossfilter示例中的复合图》经验，为你挑选了0个好方法。 ... [详细]

php

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章