spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

作者：sx-March23 | 2023-09-09 18:03

如何解决《spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌》经验，为你挑选了1个好方法。

据我所知,distinct()散列分区RDD以识别唯一键.但它是否优化了每个分区只移动不同的元组？

想象一下具有以下分区的RDD

[1,2,2,1,4,2,2]

[1,3,3,5,4,5,5,5]

在这个RDD的一个独特的地方,所有重复的密钥(分区1中的2s和分区2中的5s)是否会被混洗到它们的目标分区,或者只有每个分区的不同密钥被洗牌到目标？

如果所有键都被洗牌,那么带有set()操作的aggregate()将减少shuffle.

def set_update(u, v):
    u.add(v)
    return u
rdd.aggregate(set(), set_update, lambda u1,u2: u1|u2)

zero323.. 6

unique通过实现 reduceByKey在(element, None)对.因此,它每个分区只会刷新唯一值.如果重复数量很少,那么仍然是相当昂贵的操作.

有些情况下使用set可能很有用.特别是如果你打电话distinct,PairwseRDD你可能更喜欢aggregateByKey/ combineByKey同时通过键同时实现重复数据删除和分区.特别考虑以下代码:

rdd1 = sc.parallelize([("foo", 1), ("foo", 1), ("bar", 1)])
rdd2 = sc.parallelize([("foo", "x"), ("bar", "y")])
rdd1.distinct().join(rdd2)

它必须洗牌rdd1两次 - 一次换distinct一次换一次join.相反,你可以使用combineByKey:

def flatten(kvs):
    (key, (left, right)) = kvs
    for v in left:
        yield (key, (v, right))

aggregated = (rdd1
    .aggregateByKey(set(), set_update, lambda u1, u2: u1 | u2))

rdd2_partitioned = rdd2.partitionBy(aggregated.getNumPartitions())

(aggregated.join(rdd2_partitioned)
    .flatMap(flatten))

注意:

joinScala中的逻辑与Python中的稍微不同(PySpark使用union后跟groupByKey,参见Spark RDD groupByKey +加入vs连接性能的Python和Scala DAG),因此我们必须RDD在调用join之前手动分区第二个.

1> zero323..：

unique通过实现 reduceByKey在(element, None)对.因此,它每个分区只会刷新唯一值.如果重复数量很少,那么仍然是相当昂贵的操作.

rdd1 = sc.parallelize([("foo", 1), ("foo", 1), ("bar", 1)])
rdd2 = sc.parallelize([("foo", "x"), ("bar", "y")])
rdd1.distinct().join(rdd2)

它必须洗牌rdd1两次 - 一次换distinct一次换一次join.相反,你可以使用combineByKey:

def flatten(kvs):
    (key, (left, right)) = kvs
    for v in left:
        yield (key, (v, right))

aggregated = (rdd1
    .aggregateByKey(set(), set_update, lambda u1, u2: u1 | u2))

rdd2_partitioned = rdd2.partitionBy(aggregated.getNumPartitions())

(aggregated.join(rdd2_partitioned)
    .flatMap(flatten))

注意:

推荐阅读

程序员
django:app x中的migration x没有Migration类

如何解决《django:appx中的migrationx没有Migration类》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果任何值为NULL,则CFPropertyListCreateDeepCopy返回nil

如何解决《如果任何值为NULL,则CFPropertyListCreateDeepCopy返回nil》经验，为你挑选了0个好方法。 ... [详细]
程序员
在一个流中进行多个"匹配"检查

如何解决《在一个流中进行多个"匹配"检查》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何在NHibernate中自动生成ID

如何解决《如何在NHibernate中自动生成ID》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Vue.js访问子组件中的api数据

如何解决《使用Vue.js访问子组件中的api数据》经验，为你挑选了0个好方法。 ... [详细]
程序员
改变事件的jquery不起作用

如何解决《改变事件的jquery不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么fork同步很有用？

如何解决《为什么fork同步很有用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在dplyr :: filter中使用变量？

如何解决《如何在dplyr::filter中使用变量？》经验，为你挑选了3个好方法。 ... [详细]
程序员
为什么显示[object HTMLCollection]而不是我创建的元素？

如何解决《为什么显示[objectHTMLCollection]而不是我创建的元素？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从selenium java中的禁用输入字段中获取文本

如何解决《如何从seleniumjava中的禁用输入字段中获取文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
这个阻塞线程如何调用"释放"自身？

如何解决《这个阻塞线程如何调用"释放"自身？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我的电子应用启动时如何启动mongodb服务

如何解决《我的电子应用启动时如何启动mongodb服务》经验，为你挑选了0个好方法。 ... [详细]
程序员
按数组元素排序数组的向量

如何解决《按数组元素排序数组的向量》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何设置PreferenceFragmentCompat的样式

如何解决《如何设置PreferenceFragmentCompat的样式》经验，为你挑选了1个好方法。 ... [详细]
程序员
Oauth2使用hd无法正常限制使用特定域名的电子邮件

如何解决《Oauth2使用hd无法正常限制使用特定域名的电子邮件》经验，为你挑选了1个好方法。 ... [详细]
程序员
在ACF选项菜单下添加我自己的自定义子页面

如何解决《在ACF选项菜单下添加我自己的自定义子页面》经验，为你挑选了1个好方法。 ... [详细]
程序员
JS&ES6:从类中访问静态字段

如何解决《JS&ES6:从类中访问静态字段》经验，为你挑选了1个好方法。 ... [详细]
程序员
在pickle中保存整数并调用它们

如何解决《在pickle中保存整数并调用它们》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么是？MODULE

如何解决《什么是？MODULE》经验，为你挑选了1个好方法。 ... [详细]
程序员
常规过程/方法指针

如何解决《常规过程/方法指针》经验，为你挑选了1个好方法。 ... [详细]

sx-March23

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章