13赞

Pyspark 1.6 - 使用多个聚合旋转后别名列

作者：拾味湖 | 2023-09-06 15:45

如何解决《Pyspark1.6-使用多个聚合旋转后别名列》经验，为你挑选了0个好方法。

我正在尝试对Pyspark数据帧上的值进行旋转后得到的列的别名.这里的问题是我没有正确设置我在别名调用中放置的列名.

一个具体的例子:

从此数据框开始:

import pyspark.sql.functions as func

df = sc.parallelize([
    (217498, 100000001, 'A'), (217498, 100000025, 'A'), (217498, 100000124, 'A'),
    (217498, 100000152, 'B'), (217498, 100000165, 'C'), (217498, 100000177, 'C'),
    (217498, 100000182, 'A'), (217498, 100000197, 'B'), (217498, 100000210, 'B'),
    (854123, 100000005, 'A'), (854123, 100000007, 'A')
]).toDF(["user_id", "timestamp", "actions"])

这使

+-------+--------------------+------------+
|user_id|     timestamp      |  actions   |
+-------+--------------------+------------+
| 217498|           100000001|    'A'     |
| 217498|           100000025|    'A'     |
| 217498|           100000124|    'A'     |
| 217498|           100000152|    'B'     |
| 217498|           100000165|    'C'     |
| 217498|           100000177|    'C'     |
| 217498|           100000182|    'A'     |
| 217498|           100000197|    'B'     |
| 217498|           100000210|    'B'     |
| 854123|           100000005|    'A'     |
| 854123|           100000007|    'A'     |

问题是打电话

df = df.groupby('user_id')\
       .pivot('actions')\
       .agg(func.count('timestamp').alias('ts_count'),
            func.mean('timestamp').alias('ts_mean'))

给出列名

df.columns

['user_id',
 'A_(count(timestamp),mode=Complete,isDistinct=false) AS ts_count#4L',
 'A_(avg(timestamp),mode=Complete,isDistinct=false) AS ts_mean#5',
 'B_(count(timestamp),mode=Complete,isDistinct=false) AS ts_count#4L',
 'B_(avg(timestamp),mode=Complete,isDistinct=false) AS ts_mean#5',
 'C_(count(timestamp),mode=Complete,isDistinct=false) AS ts_count#4L',
 'C_(avg(timestamp),mode=Complete,isDistinct=false) AS ts_mean#5']

这是完全不切实际的.

我可以使用这里显示的方法清理我的列名- (正则表达式) 或这里 - (使用withColumnRenamed().但是这些是更新后很容易破解的解决方法.

总结一下:如何使用数据透视表生成的列而不必解析它们？(例如'A_(count(timestamp),mode = Complete,isDistinct = false)AS ts_count#4L'生成的名称)？

任何帮助,将不胜感激 !谢谢

推荐阅读

程序员
应该在左侧或右侧检查null

如何解决《应该在左侧或右侧检查null》经验，为你挑选了1个好方法。 ... [详细]
程序员
与RxJava结合了解Android内存泄漏

如何解决《与RxJava结合了解Android内存泄漏》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以在Prolog找到一本关于"确定条款文法"的详尽书籍吗？

如何解决《我可以在Prolog找到一本关于"确定条款文法"的详尽书籍吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
.htaccess:非www到www(带https)在Firefox中显示ssl_error_bad_cert_domain

如何解决《.htaccess:非www到www(带https)在Firefox中显示ssl_error_bad_cert_domain》经验，为你挑选了0个好方法。 ... [详细]
程序员
当我指定1px时,为什么我的SVG线条模糊或高度为2px？

如何解决《当我指定1px时,为什么我的SVG线条模糊或高度为2px？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在golang中执行linux内置命令

如何解决《如何在golang中执行linux内置命令》经验，为你挑选了1个好方法。 ... [详细]
程序员
javascript-slice（-1）中slice的用途是什么

如何解决《javascript-slice（-1）中slice的用途是什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法在4.1中的弹出窗口中选择列表视图中的行但在android 5.0中工作

如何解决《无法在4.1中的弹出窗口中选择列表视图中的行但在android5.0中工作》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在CSS中纵向和横向对齐？

如何解决《如何在CSS中纵向和横向对齐？》经验，为你挑选了0个好方法。 ... [详细]
程序员
从SQL数据库读取时如何指定字段数据类型

如何解决《从SQL数据库读取时如何指定字段数据类型》经验，为你挑选了0个好方法。 ... [详细]
程序员
Golang:在哪里调用接口方法？

如何解决《Golang:在哪里调用接口方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用jasmine对karma运行超过10次测试会导致:"错误:您的某些测试会重新加载整页!"

如何解决《使用jasmine对karma运行超过10次测试会导致:"错误:您的某些测试会重新加载整页!"》经验，为你挑选了0个好方法。 ... [详细]
程序员
在引导中的spring安全过滤器链之前调用过滤器

如何解决《在引导中的spring安全过滤器链之前调用过滤器》经验，为你挑选了1个好方法。 ... [详细]
程序员
以下Scala代码有什么问题？

如何解决《以下Scala代码有什么问题？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在spritekit中创建垂直滚动菜单？

如何解决《如何在spritekit中创建垂直滚动菜单？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Android Web视图显示白屏

如何解决《AndroidWeb视图显示白屏》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将div中的元素居中？

如何解决《如何将div中的元素居中？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio 2015 - 在程序包管理器控制台中停止进程

如何解决《VisualStudio2015-在程序包管理器控制台中停止进程》经验，为你挑选了0个好方法。 ... [详细]
程序员
我们可以选择在sklearn中使用什么决策树算法吗？

如何解决《我们可以选择在sklearn中使用什么决策树算法吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用matplotlib平滑imshow情节

如何解决《使用matplotlib平滑imshow情节》经验，为你挑选了1个好方法。 ... [详细]

拾味湖

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章