当前位置:  开发笔记 > 编程语言 > 正文

有没有办法在PySpark中读取文本文件时控制分区数

如何解决《有没有办法在PySpark中读取文本文件时控制分区数》经验,为你挑选了1个好方法。

我在PySpark中使用以下命令读取文本文件

rating_data_raw = sc.textFile("/.csv")

有没有办法指定RDD rating_data_raw应分成的分区数?我想指定大量的分区以实现更高的并发性.



1> Alberto Bons..:

正如其他用户所说,您可以在读取文件时设置将创建的最小分区数,方法是在textFile的可选参数中minPartitions进行设置.

rating_data_raw = sc.textFile("/.csv", minPartitions=128)

实现此目的的另一种方法是使用重新分区或合并,如果您需要减少可能使用的分区数coalesce,否则您可以使用repartition.

rating_data_raw = sc.textFile("/.csv").repartition(128)

推荐阅读
低调pasta_730
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有