当前位置:  开发笔记 > 编程语言 > 正文

如何将pyspark数据帧写入HDFS,然后如何将其读回数据帧?

如何解决《如何将pyspark数据帧写入HDFS,然后如何将其读回数据帧?》经验,为你挑选了1个好方法。

我有一个非常大的pyspark数据帧.所以我想对它的子集执行预处理,然后将它们存储到hdfs.后来我想阅读所有这些并合并在一起.谢谢.



1> rogue-one..:

将DataFrame写入HDFS(Spark 1.6).

df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.

一些格式的选项是csv,parquet,json等.

从HDFS(Spark 1.6)读取DataFrame.

sqlContext.read.format('parquet').load('/path/to/file') 

格式方法采用参数如parquet,csv,json等.

推荐阅读
吻过彩虹的脸_378
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有