当前位置:  开发笔记 > 编程语言 > 正文

有没有办法获取Spark Dataframe的前1000行?

如何解决《有没有办法获取SparkDataframe的前1000行?》经验,为你挑选了1个好方法。

我正在使用该randomSplit函数来获取少量的数据帧以用于开发目的,我最终只取这个函数返回的第一个df.

val df_subset = data.randomSplit(Array(0.00000001, 0.01), seed = 12345)(0)

如果我使用df.take(1000)那么我最终得到一个行数组 - 而不是数据帧,所以这对我不起作用.

有没有更好,更简单的方法来说出df的前1000行并将其存储为另一个df?



1> Markon..:

您正在寻找的方法是.limit.

取前n行返回一个新的数据集.此函数与head之间的区别在于head返回一个数组,而limit返回一个新的数据集.


只是为了记录,我使用.limit并返回数据集而不是DataFrame(这不是问题)
感谢更新。似乎Spark 2.X发生了很大变化:)
推荐阅读
罗文彬2502852027
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有