2赞

计算PySpark DataFrame列的模式？

作者：手机用户2402852307 | 2023-09-08 14:01

如何解决《计算PySparkDataFrame列的模式？》经验，为你挑选了1个好方法。

最终我想要的是DataFrame中所有列的列模式.对于其他摘要统计,我看到了几个选项:使用DataFrame聚合,或将DataFrame的列映射到向量的RDD(我也遇到了麻烦)并使用colStatsMLlib.但我不认为模式是一种选择.

1> zero323..：

模式的问题与中位数几乎相同.虽然它易于计算,但计算相当昂贵.它可以使用sort后跟本地和全局聚合或使用just-another-wordcount和filter来完成:

import numpy as np
np.random.seed(1)

df = sc.parallelize([
    (int(x), ) for x in np.random.randint(50, size=10000)
]).toDF(["x"])

cnts = df.groupBy("x").count()
mode = cnts.join(
    cnts.agg(max("count").alias("max_")), col("count") == col("max_")
).limit(1).select("x")
mode.first()[0]
## 0

无论哪种方式,它可能需要每列完全洗牌.

推荐阅读

程序员
如何按排序顺序获取重叠范围的计数？

如何解决《如何按排序顺序获取重叠范围的计数？》经验，为你挑选了0个好方法。 ... [详细]
程序员
大熊猫图中单条线的访问和更改特征

如何解决《大熊猫图中单条线的访问和更改特征》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用DateTime :: Format :: Strptime移动时区

如何解决《使用DateTime::Format::Strptime移动时区》经验，为你挑选了1个好方法。 ... [详细]
程序员
设计valid_password的奇怪问题？

如何解决《设计valid_password的奇怪问题？》经验，为你挑选了0个好方法。 ... [详细]
程序员
一次按下按钮后，如何使按钮变灰并禁用它？

如何解决《一次按下按钮后，如何使按钮变灰并禁用它？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Invoke-WebRequest设置超时

如何解决《Invoke-WebRequest设置超时》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring Autowired服务和控制器无法正常工作

如何解决《SpringAutowired服务和控制器无法正常工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
SwipeRefreshLayout阻止水平滚动的RecyclerView

如何解决《SwipeRefreshLayout阻止水平滚动的RecyclerView》经验，为你挑选了1个好方法。 ... [详细]
程序员
spark sql当前时间戳功能

如何解决《sparksql当前时间戳功能》经验，为你挑选了1个好方法。 ... [详细]
程序员
没有frameworkAssemblies,无法解决程序集引用问题

如何解决《没有frameworkAssemblies,无法解决程序集引用问题》经验，为你挑选了3个好方法。 ... [详细]
程序员
Redux - 为什么在根状态下加载状态

如何解决《Redux-为什么在根状态下加载状态》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java - 在匿名内部类中使用非最终变量？

如何解决《Java-在匿名内部类中使用非最终变量？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在使用我制作的对象为每个循环制作一个挣扎

如何解决《在使用我制作的对象为每个循环制作一个挣扎》经验，为你挑选了1个好方法。 ... [详细]
程序员
具有自签名证书的Telegram bot webhook无效

如何解决《具有自签名证书的Telegrambotwebhook无效》经验，为你挑选了0个好方法。 ... [详细]
程序员
我无法访问我的类属性

如何解决《我无法访问我的类属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
当返回类型是标记接口时使用Jackson的多态序列化

如何解决《当返回类型是标记接口时使用Jackson的多态序列化》经验，为你挑选了1个好方法。 ... [详细]
程序员
libgdx - 没有找到Intellij类的异常？

如何解决《libgdx-没有找到Intellij类的异常？》经验，为你挑选了1个好方法。 ... [详细]
程序员
CSS3动画钟摆效果

如何解决《CSS3动画钟摆效果》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在AMP HTML中创建响应式汉堡包菜单

如何解决《如何在AMPHTML中创建响应式汉堡包菜单》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何像转盘一样将标签滑入和滑出

如何解决《如何像转盘一样将标签滑入和滑出》经验，为你挑选了0个好方法。 ... [详细]

手机用户2402852307

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章