10赞

有没有办法在PySpark中读取文本文件时控制分区数

作者：低调pasta_730 | 2023-09-10 12:24

如何解决《有没有办法在PySpark中读取文本文件时控制分区数》经验，为你挑选了1个好方法。

我在PySpark中使用以下命令读取文本文件

rating_data_raw = sc.textFile("/.csv")

有没有办法指定RDD rating_data_raw应分成的分区数？我想指定大量的分区以实现更高的并发性.

1> Alberto Bons..：

正如其他用户所说,您可以在读取文件时设置将创建的最小分区数,方法是在textFile的可选参数中minPartitions进行设置.

rating_data_raw = sc.textFile("/.csv", minPartitions=128)

实现此目的的另一种方法是使用重新分区或合并,如果您需要减少可能使用的分区数coalesce,否则您可以使用repartition.

rating_data_raw = sc.textFile("/.csv").repartition(128)

推荐阅读

程序员
微服务:如何建模相关的域对象？

如何解决《微服务:如何建模相关的域对象？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法加载类型Symfony2

如何解决《无法加载类型Symfony2》经验，为你挑选了1个好方法。 ... [详细]
程序员
java中双精度的选择排序

如何解决《java中双精度的选择排序》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么main不等到异步方法完成？

如何解决《为什么main不等到异步方法完成？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我应该在一个块中使用哪个NSAssertion？

如何解决《我应该在一个块中使用哪个NSAssertion？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Obj-c表达式错误 - 二进制表达式的操作数无效('CGFloat'(又名'double'))

如何解决《Obj-c表达式错误-二进制表达式的操作数无效('CGFloat'(又名'double'))》经验，为你挑选了1个好方法。 ... [详细]
程序员
Haskell - Ord的意思是什么？

如何解决《Haskell-Ord的意思是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用R计算字符串中的连续模式

如何解决《使用R计算字符串中的连续模式》经验，为你挑选了1个好方法。 ... [详细]
程序员
numpy.memmap:虚假的内存分配

如何解决《numpy.memmap:虚假的内存分配》经验，为你挑选了1个好方法。 ... [详细]
程序员
读完整数后,C无法读取字符串

如何解决《读完整数后,C无法读取字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
低InnoDB每秒写入 - 使用Python将AWS EC2写入MySQL RDS

如何解决《低InnoDB每秒写入-使用Python将AWSEC2写入MySQLRDS》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Agda建模ST monad

如何解决《在Agda建模STmonad》经验，为你挑选了0个好方法。 ... [详细]
程序员
将字符串转换为javascript中的操作

如何解决《将字符串转换为javascript中的操作》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果a/p输入中包含某个单词

如何解决《如果a/p输入中包含某个单词》经验，为你挑选了1个好方法。 ... [详细]
程序员
Symfony 2.7 cache:clear命令检查每个数据库连接

如何解决《Symfony2.7cache:clear命令检查每个数据库连接》经验，为你挑选了1个好方法。 ... [详细]
程序员
矢量化的基数排序与numpy - 它可以击败np.sort？

如何解决《矢量化的基数排序与numpy-它可以击败np.sort？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么`std :: forward_list :: insert_after`不返回作为其他序列容器插入的第一个元素？

如何解决《为什么`std::forward_list::insert_after`不返回作为其他序列容器插入的第一个元素？》经验，为你挑选了0个好方法。 ... [详细]
程序员
ASP.NET 5/MVC6中的VirtualPathProvider等价物？

如何解决《ASP.NET5/MVC6中的VirtualPathProvider等价物？》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过添加其他列的值,在Panda数据框中创建新列

如何解决《通过添加其他列的值,在Panda数据框中创建新列》经验，为你挑选了6个好方法。 ... [详细]
程序员
mollview:使用matplotlib色彩图并更改背景颜色

如何解决《mollview:使用matplotlib色彩图并更改背景颜色》经验，为你挑选了1个好方法。 ... [详细]

低调pasta_730

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章