当前位置:  开发笔记 > 编程语言 > 正文

为什么`getNumPartitions()`没有给我"repartition"指定的正确数量的分区?

如何解决《为什么`getNumPartitions()`没有给我"repartition"指定的正确数量的分区?》经验,为你挑选了1个好方法。

我有一个textFile和RDD一样:sc.textFile().

我尝试重新分区RDD以加快处理速度:

sc.repartition().

无论我投入什么,它似乎都没有改变,如下所示:

RDD.getNumPartitions()总是打印相同的数字,(3)无论如何.

如何更改分区数以提高性能?



1> Roberto Cong..:

那是因为RDD是不可变的.您无法更改 RDD的分区,但可以创建具有所需分区数的新分区.

scala> val a = sc.parallelize( 1 to 1000)
a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at  parallelize at :21
scala> a.partitions.size
res2: Int = 4
scala> val b = a.repartition(6)
b: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[4] at repartition at :23
scala> a.partitions.size
res3: Int = 4
scala> b.partitions.size
res4: Int = 6

推荐阅读
落单鸟人
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有