当前位置:  开发笔记 > 编程语言 > 正文

在spark.SQL DataFrame和pandas DataFrame之间转换

如何解决《在spark.SQLDataFrame和pandasDataFrame之间转换》经验,为你挑选了1个好方法。

这有可能吗?

转换为pd.DataFrame

在%pyspark环境下?



1> Thiago Baldi..:

尝试:

spark_df.toPandas()

toPandas()

Returns the contents of this DataFrame as Pandas pandas.DataFrame.

This is only available if Pandas is installed and available.

如果你想要对面:

spark_df = createDataFrame(pandas_df)


如果pandas数据帧非常大,则无法正常工作。
java堆内存不足错误。
还请记住,Spark Dataframe使用RDD,它基本上是分布在所有节点上的分布式数据集。因此可以毫无问题地处理大数据。但是,当您将此大数据集转换为Pandas数据帧时,它很可能会用完内存,因为Pandas数据帧不像spark那样分布,并且仅使用驱动程序节点的内存,而不使用所有其他可用节点。
推荐阅读
Gbom2402851125
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有