4赞

Spark-scala:在读取之前检查S3目录是否存在

作者：夏晶阳--艺术 | 2023-06-10 10:08

如何解决《Spark-scala:在读取之前检查S3目录是否存在》经验，为你挑选了1个好方法。

如何在读取之前检查S3目录是否存在？

我正在尝试这个,如这里给出的http://bigdatatech.taleia.software/2015/12/21/check-if-exists-a-amazon-s3-path-from-apache-spark/

import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.hadoop.conf.Configuration
val fs = FileSystem.get(new Configuration())
fs.listStatus(new Path("s3://s3bucket/2017/10/31/*/*/"))

但得到这个错误 Wrong FS: s3://s3bucket/2017/10/31/*/*, expected: hdfs://ip-172-31-55-167.ec2.internal:8020

我可以使用它的确切路径检查确切的文件是否存在,但是我必须使用像这里"s3:// s3bucket/2017/10/31/*/*"这样不支持的通配符.

检查了这个StackOverflow问题:Spark:只在路径存在时读取文件,但它与我的用例无关.

1> Alexandre Du..：

这是因为在您调用时FileSystem.get(new Configuration()),已解析的文件系统是默认文件系统,在本例中是hdfs.

首先需要通过提供包含s3方案和存储桶的路径的URI来获取正确的文件系统.

使用当前Spark上下文的Hadoop配置也会更好,以确保您将使用与Spark相同的文件系统设置.

import java.net.URI
import org.apache.hadoop.fs.FileSystem
import org.apache.spark.sql.SparkSession

// Create a session with Spark master running locally (vs on a cluster)
// for development purposes
val sparkSession = SparkSession.builder
                               .appName("My App")
                               .master("local")
                               .getOrCreate

val conf = sparkSession.sparkContext.hadoopConfiguration
val fs = FileSystem.get(URI.create("s3://s3bucket/"), conf)

只有在类路径上有S3文件系统的实现时,这才有效.我可以看到您在EC2实例上运行程序,因此您应该能够访问S3而无需指定明确的AWS凭据.

推荐阅读

程序员
haskell中的圆形地图

如何解决《haskell中的圆形地图》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么是原生Android与java？

如何解决《什么是原生Android与java？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在大型数据集中提交每个案例时计算公开案例的有效方法

如何解决《在大型数据集中提交每个案例时计算公开案例的有效方法》经验，为你挑选了0个好方法。 ... [详细]
程序员
在ReSharper 9.2中手动安装扩展

如何解决《在ReSharper9.2中手动安装扩展》经验，为你挑选了1个好方法。 ... [详细]
程序员
c ++函数返回错误的数组

如何解决《c++函数返回错误的数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以在EF7中使用流畅的API添加CHECK约束？

如何解决《是否可以在EF7中使用流畅的API添加CHECK约束？》经验，为你挑选了1个好方法。 ... [详细]
程序员
http API客户端的Wreq或Servant？

如何解决《httpAPI客户端的Wreq或Servant？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将UILable更改为UITextView,而不从对象库中删除和添加

如何解决《将UILable更改为UITextView,而不从对象库中删除和添加》经验，为你挑选了0个好方法。 ... [详细]
程序员
ECMAScript-6导入嵌套函数？

如何解决《ECMAScript-6导入嵌套函数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
自定义UIView,在Storyboard上具有动态高度

如何解决《自定义UIView,在Storyboard上具有动态高度》经验，为你挑选了1个好方法。 ... [详细]
程序员
HTML5 localStorage有用的函数// JavaScript,TypeScript

如何解决《HTML5localStorage有用的函数//JavaScript,TypeScript》经验，为你挑选了1个好方法。 ... [详细]
程序员
将插入符号设置在Froala 2中内容的末尾

如何解决《将插入符号设置在Froala2中内容的末尾》经验，为你挑选了1个好方法。 ... [详细]
程序员
if条件后的语法无效

如何解决《if条件后的语法无效》经验，为你挑选了1个好方法。 ... [详细]
程序员
断言没有Python中的回溯

如何解决《断言没有Python中的回溯》经验，为你挑选了1个好方法。 ... [详细]
程序员
在运行react-native初始项目时,watchman.plist权限被拒绝

如何解决《在运行react-native初始项目时,watchman.plist权限被拒绝》经验，为你挑选了1个好方法。 ... [详细]
程序员
只能复制到0个节点而不是minReplication(= 1).有4个数据节点在运行,并且在此操作中不排除任何节点

如何解决《只能复制到0个节点而不是minReplication(=1).有4个数据节点在运行,并且在此操作中不排除任何节点》经验，为你挑选了1个好方法。 ... [详细]
程序员
Erlang模块编译

如何解决《Erlang模块编译》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用多项式内核调整svm时出现奇怪的错误消息:"警告:达到最大迭代次数"

如何解决《使用多项式内核调整svm时出现奇怪的错误消息:"警告:达到最大迭代次数"》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果扩展一个实现Serializable"下线"的类,为什么还需要重新定义serialVersionUID？

如何解决《如果扩展一个实现Serializable"下线"的类,为什么还需要重新定义serialVersionUID？》经验，为你挑选了0个好方法。 ... [详细]
程序员
MongoDB Java API:全文搜索

如何解决《MongoDBJavaAPI:全文搜索》经验，为你挑选了1个好方法。 ... [详细]

夏晶阳--艺术

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章