如何使用sqlContext计算累积和

作者：惬听风吟jyy_802 | 2023-09-07 19:13

如何解决《如何使用sqlContext计算累积和》经验，为你挑选了2个好方法。

我知道我们可以在pyspark中使用Window函数来计算累积和.但是Window仅在HiveContext中支持,而不在SQLContext中支持.我需要使用SQLContext,因为HiveContext无法在多个进程中运行.

有没有有效的方法来使用SQLContext计算累积和？一种简单的方法是将数据加载到驱动程序的内存中并使用numpy.cumsum,但con是需要能够装入内存的数据

1> Dat Tran..：

不确定这是否是您正在寻找的,但这里有两个示例如何使用sqlContext来计算累积总和:

首先,当您想按某些类别对其进行分区时:

from pyspark.sql.types import StructType, StringType, LongType
from pyspark.sql import SQLContext

rdd = sc.parallelize([
    ("Tablet", 6500), 
    ("Tablet", 5500), 
    ("Cell Phone", 6000), 
    ("Cell Phone", 6500), 
    ("Cell Phone", 5500)
    ])

schema = StructType([
    StructField("category", StringType(), False),
    StructField("revenue", LongType(), False)
    ])

df = sqlContext.createDataFrame(rdd, schema)

df.registerTempTable("test_table")

df2 = sqlContext.sql("""
SELECT
    category,
    revenue,
    sum(revenue) OVER (PARTITION BY category ORDER BY revenue) as cumsum
FROM
test_table
""")

输出:

[Row(category='Tablet', revenue=5500, cumsum=5500),
 Row(category='Tablet', revenue=6500, cumsum=12000),
 Row(category='Cell Phone', revenue=5500, cumsum=5500),
 Row(category='Cell Phone', revenue=6000, cumsum=11500),
 Row(category='Cell Phone', revenue=6500, cumsum=18000)]

第二,当你只想取一个变量的cumsum时.将df2更改为:

df2 = sqlContext.sql("""
SELECT
    category,
    revenue,
    sum(revenue) OVER (ORDER BY revenue, category) as cumsum
FROM
test_table
""")

输出:

[Row(category='Cell Phone', revenue=5500, cumsum=5500),
 Row(category='Tablet', revenue=5500, cumsum=11000),
 Row(category='Cell Phone', revenue=6000, cumsum=17000),
 Row(category='Cell Phone', revenue=6500, cumsum=23500),
 Row(category='Tablet', revenue=6500, cumsum=30000)]

希望这可以帮助.收集数据后使用np.cumsum效率不高,尤其是在数据集很大的情况下.您可以探索的另一种方法是使用简单的RDD转换,例如groupByKey(),然后使用map通过某个键计算每个组的累积总和,然后在最后减少它.

2> muon..：

这是一个简单的示例：

import pyspark
from pyspark.sql import window
import pyspark.sql.functions as sf


sc = pyspark.SparkContext(appName="test")
sqlcontext = pyspark.SQLContext(sc)

data = sqlcontext.createDataFrame([("Bob", "M", "Boston", 1, 20),
                                   ("Cam", "F", "Cambridge", 1, 25),
                                  ("Lin", "F", "Cambridge", 1, 25),
                                  ("Cat", "M", "Boston", 1, 20),
                                  ("Sara", "F", "Cambridge", 1, 15),
                                  ("Jeff", "M", "Cambridge", 1, 25),
                                  ("Bean", "M", "Cambridge", 1, 26),
                                  ("Dave", "M", "Cambridge", 1, 21),], 
                                 ["name", 'gender', "city", 'donation', "age"])


data.show()

提供输出

+----+------+---------+--------+---+
|name|gender|     city|donation|age|
+----+------+---------+--------+---+
| Bob|     M|   Boston|       1| 20|
| Cam|     F|Cambridge|       1| 25|
| Lin|     F|Cambridge|       1| 25|
| Cat|     M|   Boston|       1| 20|
|Sara|     F|Cambridge|       1| 15|
|Jeff|     M|Cambridge|       1| 25|
|Bean|     M|Cambridge|       1| 26|
|Dave|     M|Cambridge|       1| 21|
+----+------+---------+--------+---+

定义一个窗口

win_spec = (window.Window
                  .partitionBy(['gender', 'city'])
                  .rowsBetween(window.Window.unboundedPreceding, 0))

＃window.Window.unboundedPreceding-组的第一行＃.rowsBetween（...，0）- 0引用当前行，如果-2指定则在当前行之前最多2行

现在，这是一个陷阱：

temp = data.withColumn('cumsum',sum(data.donation).over(win_spec))

出现错误：

TypeErrorTraceback (most recent call last)
 in ()
----> 1 temp = data.withColumn('cumsum',sum(data.donation).over(win_spec))

/Users/mupadhye/spark-2.1.0-bin-hadoop2.7/python/pyspark/sql/column.pyc in __iter__(self)
    238 
    239     def __iter__(self):
--> 240         raise TypeError("Column is not iterable")
    241 
    242     # string methods

TypeError: Column is not iterable

这是由于使用python的sum函数而不是pyspark's。解决此问题的方法是使用sum来自的功能pyspark.sql.functions.sum：

temp = data.withColumn('AgeSum',sf.sum(data.donation).over(win_spec))
temp.show()

会给：

+----+------+---------+--------+---+--------------+
|name|gender|     city|donation|age|CumSumDonation|
+----+------+---------+--------+---+--------------+
|Sara|     F|Cambridge|       1| 15|             1|
| Cam|     F|Cambridge|       1| 25|             2|
| Lin|     F|Cambridge|       1| 25|             3|
| Bob|     M|   Boston|       1| 20|             1|
| Cat|     M|   Boston|       1| 20|             2|
|Dave|     M|Cambridge|       1| 21|             1|
|Jeff|     M|Cambridge|       1| 25|             2|
|Bean|     M|Cambridge|       1| 26|             3|
+----+------+---------+--------+---+--------------+

@Mike我已经更新了`win_spec`，感谢您指出

推荐阅读

程序员
如何重新安排在scrapy中稍后要抓取的403 HTTP状态代码？

如何解决《如何重新安排在scrapy中稍后要抓取的403HTTP状态代码？》经验，为你挑选了1个好方法。 ... [详细]
程序员
ngf-pattern不适用于ng-file-upload

如何解决《ngf-pattern不适用于ng-file-upload》经验，为你挑选了1个好方法。 ... [详细]
程序员
具体化css模态不起作用

如何解决《具体化css模态不起作用》经验，为你挑选了0个好方法。 ... [详细]
程序员
按第一个元素分组数组

如何解决《按第一个元素分组数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
等效于InsertonSubmit的实体框架

如何解决《等效于InsertonSubmit的实体框架》经验，为你挑选了1个好方法。 ... [详细]
程序员
AngularJS:检测表单更改

如何解决《AngularJS:检测表单更改》经验，为你挑选了1个好方法。 ... [详细]
程序员
Elasticsearch中的加权随机抽样

如何解决《Elasticsearch中的加权随机抽样》经验，为你挑选了1个好方法。 ... [详细]
程序员
priority_queue中第一个模板参数的用途是什么

如何解决《priority_queue中第一个模板参数的用途是什么》经验，为你挑选了2个好方法。 ... [详细]
程序员
警告:[history] pushState已弃用; 用而不是推

如何解决《警告:[history]pushState已弃用;用而不是推》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用python反转单词字符串的顺序

如何解决《如何使用python反转单词字符串的顺序》经验，为你挑选了2个好方法。 ... [详细]
程序员
谷歌protobuf最大尺寸

如何解决《谷歌protobuf最大尺寸》经验，为你挑选了1个好方法。 ... [详细]
程序员
MapStyle更改时,GoogleMaps会更改图标的标记

如何解决《MapStyle更改时,GoogleMaps会更改图标的标记》经验，为你挑选了2个好方法。 ... [详细]
程序员
JavaScript:hasOwnProperty vs dot语法

如何解决《JavaScript:hasOwnPropertyvsdot语法》经验，为你挑选了1个好方法。 ... [详细]
程序员
Javascript dom操纵内存泄漏

如何解决《Javascriptdom操纵内存泄漏》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在迭代pandas数据帧时创建新列并插入行值

如何解决《如何在迭代pandas数据帧时创建新列并插入行值》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么当表达式中有另一个长值时,我的整数文字没有被提升为long类型？

如何解决《为什么当表达式中有另一个长值时,我的整数文字没有被提升为long类型？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在循环时退出此操作？

如何解决《如何在循环时退出此操作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
PatternSyntaxException:Windows下`.split(File.separator)`的索引1附近出现意外的内部错误

如何解决《PatternSyntaxException:Windows下`.split(File.separator)`的索引1附近出现意外的内部错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
将人[0] .email拆分为['person','0','email']

如何解决《将人[0].email拆分为['person','0','email']》经验，为你挑选了1个好方法。 ... [详细]
程序员
HBase中的命名空间？

如何解决《HBase中的命名空间？》经验，为你挑选了1个好方法。 ... [详细]

惬听风吟jyy_802

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章