当前位置:  开发笔记 > 编程语言 > 正文

Pyspark RDD首先收集163排

如何解决《PysparkRDD首先收集163排》经验,为你挑选了1个好方法。

有没有办法获得rdd的前163行而不转换为df?

我尝试了类似的东西newrdd = rdd.take(163),但返回一个列表,并rdd.collect()返回整个rdd.

有没有办法做到这一点?或者如果没有,有没有办法将列表转换为rdd?



1> zero323..:

它不是很有效但你可以zipWithIndexfilter:

rdd.zipWithIndex().filter(lambda vi: vi[1] < 163).keys()

在实践中更有意义的简单takeparallelize:

sc.parallelize(rdd.take(163))

推荐阅读
放ch养奶牛
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有