18赞

Spark使用上一行的值向数据框添加新列

作者：可爱的天使keven_464 | 2023-09-10 10:09

如何解决《Spark使用上一行的值向数据框添加新列》经验，为你挑选了1个好方法。

我想知道如何在Spark(Pyspark)中实现以下功能

初始数据帧:

+--+---+
|id|num|
+--+---+
|4 |9.0|
+--+---+
|3 |7.0|
+--+---+
|2 |3.0|
+--+---+
|1 |5.0|
+--+---+

结果数据帧:

+--+---+-------+
|id|num|new_Col|
+--+---+-------+
|4 |9.0|  7.0  |
+--+---+-------+
|3 |7.0|  3.0  |
+--+---+-------+
|2 |3.0|  5.0  |
+--+---+-------+

我设法通过以下方式将新列"附加"到数据框中: df.withColumn("new_Col", df.num * 10)

但是我不知道如何为新列实现这种"行的移位",以便新列具有前一行的字段值(如示例所示).我还在API文档中找不到有关如何通过索引访问DF中某一行的任何内容.

任何帮助,将不胜感激.

1> zero323..：

您可以lag按如下方式使用窗口功能

from pyspark.sql.functions import lag, col
from pyspark.sql.window import Window

df = sc.parallelize([(4, 9.0), (3, 7.0), (2, 3.0), (1, 5.0)]).toDF(["id", "num"])
w = Window().partitionBy().orderBy(col("id"))
df.select("*", lag("num").over(w).alias("new_col")).na.drop().show()

## +---+---+-------+
## | id|num|new_col|
## +---+---+-------|
## |  2|3.0|    5.0|
## |  3|7.0|    3.0|
## |  4|9.0|    7.0|
## +---+---+-------+

但是有一些重要的问题:

如果你需要一个全局操作(没有被其他一些列/列分区),那么效率非常低.

您需要一种自然的方式来订购数据.

虽然第二个问题几乎从来都不是问题,但第一个问题可能是一个交易破坏者.如果是这种情况,您应该简单地将您转换DataFrame为RDD并lag手动计算.参见例如:

如何在Pyspark中使用滑动窗口对时间序列数据进行数据转换

Apache Spark Moving Average(用Scala编写,但可以针对PySpark进行调整.请务必先阅读注释).

其他有用的链接:

https://github.com/UrbanInstitute/pyspark-tutorials/blob/master/05_moving-average-imputation.ipynb

Spark窗口函数 - rangeBetween日期

推荐阅读

程序员
从url下载映像到服务器以在asp.net 5 api中处理

如何解决《从url下载映像到服务器以在asp.net5api中处理》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Microsoft SQL Server从动态表中搜索数据

如何解决《使用MicrosoftSQLServer从动态表中搜索数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android Wear - 访问移动共享首选项

如何解决《AndroidWear-访问移动共享首选项》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Android 6(M)上以编程方式更改WiFi配置？

如何解决《如何在Android6(M)上以编程方式更改WiFi配置？》经验，为你挑选了0个好方法。 ... [详细]
程序员
R，ggplot2：如何增加特定geom_tile条之间的空间以将它们成对分组？

如何解决《R，ggplot2：如何增加特定geom_tile条之间的空间以将它们成对分组？》经验，为你挑选了0个好方法。 ... [详细]
程序员
主键是否必要？

如何解决《主键是否必要？》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用`ShouldBeEquivalentTo`,`ShouldAllBeEquivalentTo`和`BeEquivalentTo`

如何解决《使用`ShouldBeEquivalentTo`,`ShouldAllBeEquivalentTo`和`BeEquivalentTo`》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python请求:标头名称无效

如何解决《Python请求:标头名称无效》经验，为你挑选了1个好方法。 ... [详细]
程序员
Appinvite_styles.xml:5:错误将Google Play服务库包含在eclipse中

如何解决《Appinvite_styles.xml:5:错误将GooglePlay服务库包含在eclipse中》经验，为你挑选了0个好方法。 ... [详细]
程序员
Tensorflow教程:输入管道中的重复混洗

如何解决《Tensorflow教程:输入管道中的重复混洗》经验，为你挑选了1个好方法。 ... [详细]
程序员
g ++和clang ++ - 删除由重载转换运算符歧义获取的指针

如何解决《g++和clang++-删除由重载转换运算符歧义获取的指针》经验，为你挑选了1个好方法。 ... [详细]
程序员
django,属性更新模型实例

如何解决《django,属性更新模型实例》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用JavaScript进行多项左手分配,真的是正确的关联吗？

如何解决《使用JavaScript进行多项左手分配,真的是正确的关联吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Rails中为link_to方法发送特定变量值

如何解决《在Rails中为link_to方法发送特定变量值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何区分火花中的操作是转换还是动作？

如何解决《如何区分火花中的操作是转换还是动作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
企业服务总线与BPM

如何解决《企业服务总线与BPM》经验，为你挑选了1个好方法。 ... [详细]
程序员
RStudio shiny runApp在工作目录中失败

如何解决《RStudioshinyrunApp在工作目录中失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
AsyncStorage数据在Android设备上的物理位置在哪里？

如何解决《AsyncStorage数据在Android设备上的物理位置在哪里？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Android.mk应该在哪里？

如何解决《Android.mk应该在哪里？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为SSL配置SSRS

如何解决《为SSL配置SSRS》经验，为你挑选了1个好方法。 ... [详细]

可爱的天使keven_464

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章