9赞

我可以从S3读取多个文件到不存在的文件中吗？

作者：echo7111436 | 2023-09-07 08:12

如何解决《我可以从S3读取多个文件到不存在的文件中吗？》经验，为你挑选了1个好方法。

我想从S3将多个实木复合地板文件读取到一个数据帧中。目前，我正在使用以下方法执行此操作：

files = ['s3a://dev/2017/01/03/data.parquet',
         's3a://dev/2017/01/02/data.parquet']
df = session.read.parquet(*files)

如果所有文件都存在于S3上，则此方法有效，但是当列表中的某些文件不存在时，我想请求将文件列表加载到数据帧中而不会中断。换句话说，我希望sparkSql可以将它找到的尽可能多的文件加载到数据帧中，并返回此结果而不会抱怨。这可能吗？

1> Mariusz..：

是的，如果您将指定输入的方法更改为hadoop glob模式，则是可能的，例如：

files = 's3a://dev/2017/01/{02,03}/data.parquet'
df = session.read.parquet(files)

您可以在Hadoop javadoc中阅读有关模式的更多信息。

但是，在我看来，这不是按时间（按您的情况按天）划分的数据处理的优雅方式。如果您能够这样重命名目录：

s3a://dev/2017/01/03/data.parquet -> s3a://dev/day=2017-01-03/data.parquet

s3a://dev/2017/01/02/data.parquet -> s3a://dev/day=2017-01-02/data.parquet

那么您可以利用Spark分区模式并通过以下方式读取数据：

session.read.parquet('s3a://dev/') \
    .where(col('day').between('2017-01-02', '2017-01-03')

这种方式也将省略空目录/不存在的目录。Additionall列day将出现在您的数据框中（在spark <2.1.0中为字符串，在spark> = 2.1.0中为datetime），因此您将知道每个记录位于哪个目录中。

推荐阅读

程序员
很容易判断当前字体是否支持unicode字符？

如何解决《很容易判断当前字体是否支持unicode字符？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Laravel约会不允许我使用diffForHumans

如何解决《Laravel约会不允许我使用diffForHumans》经验，为你挑选了2个好方法。 ... [详细]
程序员
Module.exports和es6导入

如何解决《Module.exports和es6导入》经验，为你挑选了2个好方法。 ... [详细]
程序员
JAXB - 从url解组

如何解决《JAXB-从url解组》经验，为你挑选了0个好方法。 ... [详细]
程序员
在TypeScript中模拟只读Flux商店属性

如何解决《在TypeScript中模拟只读Flux商店属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
Haskell:在元组列表中查找函数

如何解决《Haskell:在元组列表中查找函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何用三个变量绘制多维数组

如何解决《如何用三个变量绘制多维数组》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在C++中的字符串之间使用cin？

如何解决《如何在C++中的字符串之间使用cin？》经验，为你挑选了4个好方法。 ... [详细]
程序员
不能移出定义`Drop`特征的类型[E0509]

如何解决《不能移出定义`Drop`特征的类型[E0509]》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从一个字符串中拉出短语

如何解决《如何从一个字符串中拉出短语》经验，为你挑选了1个好方法。 ... [详细]
程序员
仅从int值中删除csv文件中的前导零

如何解决《仅从int值中删除csv文件中的前导零》经验，为你挑选了1个好方法。 ... [详细]
程序员
在React/Flux项目中包含JointJS图

如何解决《在React/Flux项目中包含JointJS图》经验，为你挑选了1个好方法。 ... [详细]
程序员
php:// input和php:// stdin之间有什么区别？

如何解决《php://input和php://stdin之间有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
概念和声明顺序

如何解决《概念和声明顺序》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用v7工具栏上的工具栏主页按钮提供向上导航

如何解决《如何使用v7工具栏上的工具栏主页按钮提供向上导航》经验，为你挑选了2个好方法。 ... [详细]
程序员
当Redux状态更改为低于第一级时,React不会更新

如何解决《当Redux状态更改为低于第一级时,React不会更新》经验，为你挑选了0个好方法。 ... [详细]
程序员
在片段中实现RecyclerView

如何解决《在片段中实现RecyclerView》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android Google Auth登录handleSignInResult:false

如何解决《AndroidGoogleAuth登录handleSignInResult:false》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Swift中将CGFloat转换为NSNumber

如何解决《在Swift中将CGFloat转换为NSNumber》经验，为你挑选了3个好方法。 ... [详细]
程序员
在模块内实例化类时,超出了最大调用堆栈

如何解决《在模块内实例化类时,超出了最大调用堆栈》经验，为你挑选了1个好方法。 ... [详细]

echo7111436

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章