16赞

PySpark和广播连接示例

作者：依然-狠幸福 | 2023-09-11 11:57

如何解决《PySpark和广播连接示例》经验，为你挑选了1个好方法。

我正在使用Spark 1.3

# Read from text file, parse it and then do some basic filtering to get   data1
data1.registerTempTable('data1')

# Read from text file, parse it and then do some basic filtering to get data1
data2.registerTempTable('data2')

# Perform join
data_joined = data1.join(data2, data1.id == data2.id);

我的数据非常偏斜,data2(几KB)<< data1(GB的10s),性能非常糟糕.我正在阅读有关广播加入的内容,但不确定如何使用Python API执行相同操作.

1> zero323..：

Spark 1.3不支持使用DataFrame进行广播连接.在Spark> = 1.5.0中,您可以使用broadcast函数来应用广播连接:

from pyspark.sql.functions import broadcast

data1.join(broadcast(data2), data1.id == data2.id)

对于旧版本,唯一的选择是转换为RDD并应用与其他语言相同的逻辑.大概是这样的:

from pyspark.sql import Row
from pyspark.sql.types import StructType

# Create a dictionary where keys are join keys
# and values are lists of rows
data2_bd = sc.broadcast(
    data2.map(lambda r: (r.id, r)).groupByKey().collectAsMap())


# Define a new row with fields from both DFs
output_row = Row(*data1.columns + data2.columns)

# And an output schema
output_schema = StructType(data1.schema.fields + data2.schema.fields)

# Given row x, extract a list of corresponding rows from broadcast
# and output a list of merged rows
def gen_rows(x):
    return [output_row(*x + y) for y in data2_bd.value.get(x.id, [])]

# flatMap and create a new data frame
joined = data1.rdd.flatMap(lambda row: gen_rows(row)).toDF(output_schema)

推荐阅读

程序员
将UserManager传递给ConfigureServices MVC 6中的AuthorizationHandler

如何解决《将UserManager传递给ConfigureServicesMVC6中的AuthorizationHandler》经验，为你挑选了1个好方法。 ... [详细]
程序员
无论如何在sitecore中自动接受克隆通知吗？

如何解决《无论如何在sitecore中自动接受克隆通知吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取客户端的IP地址

如何解决《获取客户端的IP地址》经验，为你挑选了2个好方法。 ... [详细]
程序员
OperationCanceledException VS任务取消时的TaskCanceledException

如何解决《OperationCanceledExceptionVS任务取消时的TaskCanceledException》经验，为你挑选了1个好方法。 ... [详细]
程序员
从孩子那里得到变数

如何解决《从孩子那里得到变数》经验，为你挑选了1个好方法。 ... [详细]
程序员
为`values_at`方法的选择器使用索引数组

如何解决《为`values_at`方法的选择器使用索引数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用步长python列出一个列表项？

如何解决《使用步长python列出一个列表项？》经验，为你挑选了0个好方法。 ... [详细]
程序员
this.value返回包含值的括号

如何解决《this.value返回包含值的括号》经验，为你挑选了1个好方法。 ... [详细]
程序员
调试Spark 1.6.0中的"检测到托管内存泄漏"

如何解决《调试Spark1.6.0中的"检测到托管内存泄漏"》经验，为你挑选了1个好方法。 ... [详细]
程序员
将'$'删除到R中的文本中

如何解决《将'$'删除到R中的文本中》经验，为你挑选了1个好方法。 ... [详细]
程序员
初始化期间无法成功更新网络信息

如何解决《初始化期间无法成功更新网络信息》经验，为你挑选了0个好方法。 ... [详细]
程序员
展平密封的案例类层次结构

如何解决《展平密封的案例类层次结构》经验，为你挑选了0个好方法。 ... [详细]
程序员
pycharm ssh interpter没有这样的文件或目录

如何解决《pycharmsshinterpter没有这样的文件或目录》经验，为你挑选了1个好方法。 ... [详细]
程序员
检查平衡分组字符时在线判断运行时错误

如何解决《检查平衡分组字符时在线判断运行时错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么C++标准为std :: bitset :: reference指定了析构函数？

如何解决《为什么C++标准为std::bitset::reference指定了析构函数？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用JUnit和Hamcrest比较双打？

如何解决《如何使用JUnit和Hamcrest比较双打？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在r中重复一些元素

如何解决《在r中重复一些元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
注释声明中String []的默认值是什么？

如何解决《注释声明中String[]的默认值是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将未知分隔符的.csv加载到Pandas DataFrame中

如何解决《将未知分隔符的.csv加载到PandasDataFrame中》经验，为你挑选了2个好方法。 ... [详细]
程序员
未捕获的ReferenceError:未定义Vue

如何解决《未捕获的ReferenceError:未定义Vue》经验，为你挑选了1个好方法。 ... [详细]

依然-狠幸福

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章