14赞

在Apache Spark中删除空的DataFrame分区

作者：重庆制造漫画社 | 2023-09-06 14:42

如何解决《在ApacheSpark中删除空的DataFrame分区》经验，为你挑选了1个好方法。

我尝试根据DataFrame 在分区列中具有N(假设N=3)不同值的列重新分区DataFrame x,例如:

val myDF = sc.parallelize(Seq(1,1,2,2,3,3)).toDF("x") // create dummy data

我想实现的是repartiton myDF通过x不产生空分区.有没有比这样做更好的方法？

val numParts = myDF.select($"x").distinct().count.toInt
myDF.repartition(numParts,$"x")

(如果我没有指定numParts的repartiton,大多数我的分区是空的(如repartition创建200个分区)...)

1> mrsrinivas..：

我想到了迭代df分区并在其中获取记录计数以找到非空分区的解决方案.

val nonEmptyPart = sparkContext.longAccumulator("nonEmptyPart") 

df.foreachPartition(partition =>
  if (partition.length > 0) nonEmptyPart.add(1))

当我们得到非空分区(nonEmptyPart)时,我们可以使用coalesce()(检查coalesce()vs reparation())清理空分区.

val finalDf = df.coalesce(nonEmptyPart.value.toInt) //coalesce() accepts only Int type

它可能是也可能不是最好的,但是这个解决方案将避免因我们不使用而改组repartition()

解决评论的示例

val df1 = sc.parallelize(Seq(1, 1, 2, 2, 3, 3)).toDF("x").repartition($"x")
val nonEmptyPart = sc.longAccumulator("nonEmptyPart")

df1.foreachPartition(partition =>
  if (partition.length > 0) nonEmptyPart.add(1))

val finalDf = df1.coalesce(nonEmptyPart.value.toInt)

println(s"nonEmptyPart => ${nonEmptyPart.value.toInt}")
println(s"df.rdd.partitions.length => ${df1.rdd.partitions.length}")
println(s"finalDf.rdd.partitions.length => ${finalDf.rdd.partitions.length}")

产量

nonEmptyPart => 3
df.rdd.partitions.length => 200
finalDf.rdd.partitions.length => 3

推荐阅读

程序员
libGDX设置允许我使用在Android中崩溃的Java 8

如何解决《libGDX设置允许我使用在Android中崩溃的Java8》经验，为你挑选了0个好方法。 ... [详细]
程序员
将argparse转义字符作为选项处理

如何解决《将argparse转义字符作为选项处理》经验，为你挑选了0个好方法。 ... [详细]
程序员
Autofac/FluentValidation:从请求实例的作用域中看不到具有匹配'AutofacWebRequest'的标记的作用域

如何解决《Autofac/FluentValidation:从请求实例的作用域中看不到具有匹配'AutofacWebRequest'的标记的作用域》经验，为你挑选了1个好方法。 ... [详细]
程序员
ng-token-auth,ionic,devise_token_auth; 令牌在xhr请求中随机丢失

如何解决《ng-token-auth,ionic,devise_token_auth;令牌在xhr请求中随机丢失》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用新的Zend API升级PHP函数参数？

如何解决《如何使用新的ZendAPI升级PHP函数参数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果没有人接听,请转发twilio呼叫语音邮件

如何解决《如果没有人接听,请转发twilio呼叫语音邮件》经验，为你挑选了1个好方法。 ... [详细]
程序员
System.Zip.TZipFile.ExtractZipFile对某些文件引发错误。为什么？

如何解决《System.Zip.TZipFile.ExtractZipFile对某些文件引发错误。为什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
ValueError:使用conda命令后无法解析CPython sys.version

如何解决《ValueError:使用conda命令后无法解析CPythonsys.version》经验，为你挑选了2个好方法。 ... [详细]
程序员
Rmarkdown图像跳过文本

如何解决《Rmarkdown图像跳过文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Access中使用SQL Server存储过程的输出参数

如何解决《在Access中使用SQLServer存储过程的输出参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
ReactiveX:Group和Buffer仅为每个组中的最后一项

如何解决《ReactiveX:Group和Buffer仅为每个组中的最后一项》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用JavaScript在HTML5画布上绘制大量的点

如何解决《使用JavaScript在HTML5画布上绘制大量的点》经验，为你挑选了0个好方法。 ... [详细]
程序员
Moment.js时区-在特定时区的时间获取日期

如何解决《Moment.js时区-在特定时区的时间获取日期》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Electron中获取系统信息？

如何解决《如何在Electron中获取系统信息？》经验，为你挑选了1个好方法。 ... [详细]
程序员
许可被拒绝pip virtualenv

如何解决《许可被拒绝pipvirtualenv》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用INI文件时出现奇怪的Powershell`Set-AWSCredentials`错误

如何解决《使用INI文件时出现奇怪的Powershell`Set-AWSCredentials`错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么sequenceA需要Traversable？

如何解决《为什么sequenceA需要Traversable？》经验，为你挑选了1个好方法。 ... [详细]
程序员
远程对象中javax.json.JsonValue的Java RMI NoClassDefFoundError

如何解决《远程对象中javax.json.JsonValue的JavaRMINoClassDefFoundError》经验，为你挑选了0个好方法。 ... [详细]
程序员
有什么方法可以使用mongoose从mongodb的批量操作中获取修改后的IDS？

如何解决《有什么方法可以使用mongoose从mongodb的批量操作中获取修改后的IDS？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Composer无法识别PHP 7

如何解决《Composer无法识别PHP7》经验，为你挑选了2个好方法。 ... [详细]

重庆制造漫画社

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章