Spark：将dataframe列与数组连接

作者：oDavid_仔o_880 | 2023-09-07 15:02

如何解决《Spark：将dataframe列与数组连接》经验，为你挑选了1个好方法。

我有两个带有两列的DataFrame

df1 与模式 (key1:Long, Value)

df2 与模式 (key2:Array[Long], Value)

我需要将这些DataFrame加入键列（在key1和之间找到匹配的值key2）。但是问题在于它们的类型不同。有没有办法做到这一点？

1> 小智..：

做到这一点的最佳方法（并且不需要任何数据帧的转换或分解）是使用array_containsspark sql表达式，如下所示。

import org.apache.spark.sql.functions.expr
import spark.implicits._

val df1 = Seq((1L,"one.df1"), (2L,"two.df1"),(3L,"three.df1")).toDF("key1","Value")

val df2 = Seq((Array(1L,1L),"one.df2"), (Array(2L,2L),"two.df2"), (Array(3L,3L),"three.df2")).toDF("key2","Value")

val joinedRDD = df1.join(df2, expr("array_contains(key2, key1)")).show

+----+---------+------+---------+
|key1|    Value|  key2|    Value|
+----+---------+------+---------+
|   1|  one.df1|[1, 1]|  one.df2|
|   2|  two.df1|[2, 2]|  two.df2|
|   3|three.df1|[3, 3]|three.df2|
+----+---------+------+---------+

请注意，您不能org.apache.spark.sql.functions.array_contains直接使用该函数，因为它要求第二个参数是文字，而不是列表达式。

推荐阅读

程序员
SVG中的厚Bezier曲线没有伪影

如何解决《SVG中的厚Bezier曲线没有伪影》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取连接失败:php_network_getaddresses:getaddrinfo failed:名称或服务未知

如何解决《获取连接失败:php_network_getaddresses:getaddrinfofailed:名称或服务未知》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Python中使用.NET dll

如何解决《在Python中使用.NETdll》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android中阿拉伯文字的阿拉伯数字

如何解决《Android中阿拉伯文字的阿拉伯数字》经验，为你挑选了2个好方法。 ... [详细]
程序员
泛洪的最合适的HTTP状态代码是什么？

如何解决《泛洪的最合适的HTTP状态代码是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用数组计算每个数字的出现次数

如何解决《使用数组计算每个数字的出现次数》经验，为你挑选了0个好方法。 ... [详细]
程序员
选择一个RadioButton值并向后滚动以删除RecyclerView中的选定值

如何解决《选择一个RadioButton值并向后滚动以删除RecyclerView中的选定值》经验，为你挑选了0个好方法。 ... [详细]
程序员
从包的__init__.py中屏蔽python子模块

如何解决《从包的__init__.py中屏蔽python子模块》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用反射填充自定义类属性

如何解决《使用反射填充自定义类属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
查找列表中邻居的最有效方法

如何解决《查找列表中邻居的最有效方法》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法保持jQuery下拉列表滑落

如何解决《无法保持jQuery下拉列表滑落》经验，为你挑选了0个好方法。 ... [详细]
程序员
证明父母留下的div

如何解决《证明父母留下的div》经验，为你挑选了0个好方法。 ... [详细]
程序员
WPF PRISM 6 DelegateComand ObservesCanExecute

如何解决《WPFPRISM6DelegateComandObservesCanExecute》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用C++包装库的C#性能

如何解决《使用C++包装库的C#性能》经验，为你挑选了1个好方法。 ... [详细]
程序员
在R中按计数合并数据帧

如何解决《在R中按计数合并数据帧》经验，为你挑选了1个好方法。 ... [详细]
程序员
__uuidof（someVar）是做什么的？

如何解决《__uuidof（someVar）是做什么的？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用MATLAB将信号发送到IP地址的端口？

如何解决《如何使用MATLAB将信号发送到IP地址的端口？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何从新行设置数组的每个元素

如何解决《如何从新行设置数组的每个元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在代码优先迁移中强制删除并重新创建选定的表？

如何解决《如何在代码优先迁移中强制删除并重新创建选定的表？》经验，为你挑选了1个好方法。 ... [详细]
程序员
尝试执行迁移时模型的未处理挂起操作

如何解决《尝试执行迁移时模型的未处理挂起操作》经验，为你挑选了0个好方法。 ... [详细]

oDavid_仔o_880

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章