有没有办法获得rdd的前163行而不转换为df?
我尝试了类似的东西newrdd = rdd.take(163)
,但返回一个列表,并rdd.collect()
返回整个rdd.
有没有办法做到这一点?或者如果没有,有没有办法将列表转换为rdd?
它不是很有效但你可以zipWithIndex
和filter
:
rdd.zipWithIndex().filter(lambda vi: vi[1] < 163).keys()
在实践中更有意义的简单take
和parallelize
:
sc.parallelize(rdd.take(163))