如何融化Spark DataFrame？

作者：依然-狠幸福 | 2023-09-07 11:21

如何解决《如何融化SparkDataFrame？》经验，为你挑选了2个好方法。

PySpark中的Apache Spark中是否存在等效的Pandas Melt函数,或者至少在Scala中？

我到目前为止在python中运行了一个示例数据集,现在我想将Spark用于整个数据集.

提前致谢.

1> user6910411..：

没有内置函数(如果你使用SQL和Hive支持,你可以使用stack函数,但它没有在Spark中公开,也没有本机实现),但滚动你自己的功能是微不足道的.所需进口:

from pyspark.sql.functions import array, col, explode, lit, struct
from pyspark.sql import DataFrame
from typing import Iterable

示例实现:

def melt(
        df: DataFrame, 
        id_vars: Iterable[str], value_vars: Iterable[str], 
        var_name: str="variable", value_name: str="value") -> DataFrame:
    """Convert :class:`DataFrame` from wide to long format."""

    # Create array>
    _vars_and_vals = array(*(
        struct(lit(c).alias(var_name), col(c).alias(value_name)) 
        for c in value_vars))

    # Add to the DataFrame and explode
    _tmp = df.withColumn("_vars_and_vals", explode(_vars_and_vals))

    cols = id_vars + [
            col("_vars_and_vals")[x].alias(x) for x in [var_name, value_name]]
    return _tmp.select(*cols)

还有一些测试(基于Pandas doctests):

import pandas as pd

pdf = pd.DataFrame({'A': {0: 'a', 1: 'b', 2: 'c'},
                   'B': {0: 1, 1: 3, 2: 5},
                   'C': {0: 2, 1: 4, 2: 6}})

pd.melt(pdf, id_vars=['A'], value_vars=['B', 'C'])

   A variable  value
0  a        B      1
1  b        B      3
2  c        B      5
3  a        C      2
4  b        C      4
5  c        C      6



sdf = spark.createDataFrame(pdf)
melt(sdf, id_vars=['A'], value_vars=['B', 'C']).show()


+---+--------+-----+
|  A|variable|value|
+---+--------+-----+
|  a|       B|    1|
|  a|       C|    2|
|  b|       B|    3|
|  b|       C|    4|
|  c|       B|    5|
|  c|       C|    6|
+---+--------+-----+


注意:要与旧版Python一起使用,请删除类型注释.

有关:


r sparkR  - 相当于熔化功能
聚集闪闪发光

        

2> Ahue..：
在我搜索meltSpark for Scala 的实现时遇到了这个问题.

发布我的Scala端口,万一有人也偶然发现了这个问题. 



import org.apache.spark.sql.functions._
import org.apache.spark.sql.{DataFrame}
/** Extends the [[org.apache.spark.sql.DataFrame]] class
 *
 *  @param df the data frame to melt
 */
implicit class DataFrameFunctions(df: DataFrame) {

    /** Convert [[org.apache.spark.sql.DataFrame]] from wide to long format.
     * 
     *  melt is (kind of) the inverse of pivot
     *  melt is currently (02/2017) not implemented in spark
     *
     *  @see reshape packe in R (https://cran.r-project.org/web/packages/reshape/index.html)
     *  @see this is a scala adaptation of http://stackoverflow.com/questions/41670103/pandas-melt-function-in-apache-spark
     *  
     *  @todo method overloading for simple calling
     *
     *  @param id_vars the columns to preserve
     *  @param value_vars the columns to melt
     *  @param var_name the name for the column holding the melted columns names
     *  @param value_name the name for the column holding the values of the melted columns
     *
     */

    def melt(
            id_vars: Seq[String], value_vars: Seq[String], 
            var_name: String = "variable", value_name: String = "value") : DataFrame = {

        // Create array>
        val _vars_and_vals = array((for (c <- value_vars) yield { struct(lit(c).alias(var_name), col(c).alias(value_name)) }): _*)

        // Add to the DataFrame and explode
        val _tmp = df.withColumn("_vars_and_vals", explode(_vars_and_vals))

        val cols = id_vars.map(col _) ++ { for (x <- List(var_name, value_name)) yield { col("_vars_and_vals")(x).alias(x) }}

        return _tmp.select(cols: _*)

    }
}


由于我不是那么先进考虑Scala,我相信还有改进的余地.

欢迎任何评论.



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        使用form_tag在Rails中上传文件
                    

                    
                                                
                        如何解决《使用form_tag在Rails中上传文件》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        验证来自iOS transactionReceipt的签名
                    

                    
                                                
                        如何解决《验证来自iOStransactionReceipt的签名》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        无法启动'./qemu/windows-x86_64/qemu-system-i386.exe':没有此类文件或目录
                    

                    
                                                
                            
                        
                                                
                        如何解决《无法启动'./qemu/windows-x86_64/qemu-system-i386.exe':没有此类文件或目录》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在python dask中使用分隔符读取csv
                    

                    
                                                
                        如何解决《在pythondask中使用分隔符读取csv》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        JavaScript显示/隐藏边框/线条
                    

                    
                                                
                        如何解决《JavaScript显示/隐藏边框/线条》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        C++模板部分特化由指针函数/ const指针函数没有不同？
                    

                    
                                                
                        如何解决《C++模板部分特化由指针函数/const指针函数没有不同？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Docker容器中的Java进程不会在main()的末尾退出
                    

                    
                                                
                        如何解决《Docker容器中的Java进程不会在main()的末尾退出》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么可以在Go中的多个return语句中重新定义err
                    

                    
                                                
                        如何解决《为什么可以在Go中的多个return语句中重新定义err》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用Wifi将Lua脚本上传到NodeMCU
                    

                    
                                                
                        如何解决《使用Wifi将Lua脚本上传到NodeMCU》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        是没有价值的选择选项,有效吗？
                    

                    
                                                
                        如何解决《是没有价值的选择选项,有效吗？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在Dynamics Ax中获取文件名
                    

                    
                                                
                        如何解决《在DynamicsAx中获取文件名》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在iTunesConnect中禁用了创建新版本
                    

                    
                                                
                        如何解决《在iTunesConnect中禁用了创建新版本》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        命名空间的多个别名？
                    

                    
                                                
                        如何解决《命名空间的多个别名？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        一次安装多个NuGet包
                    

                    
                                                
                        如何解决《一次安装多个NuGet包》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        wp_title过滤器对<title>标记没有任何影响
                    

                    
                                                
                        如何解决《wp_title过滤器对<title>标记没有任何影响》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        绘制一些不等式作为平面
                    

                    
                                                
                        如何解决《绘制一些不等式作为平面》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        SVG中的厚Bezier曲线没有伪影
                    

                    
                                                
                            
                        
                                                
                        如何解决《SVG中的厚Bezier曲线没有伪影》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        获取连接失败:php_network_getaddresses:getaddrinfo failed:名称或服务未知
                    

                    
                                                
                        如何解决《获取连接失败:php_network_getaddresses:getaddrinfofailed:名称或服务未知》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在Python中使用.NET dll
                    

                    
                                                
                        如何解决《在Python中使用.NETdll》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Android中阿拉伯文字的阿拉伯数字
                    

                    
                                                
                        如何解决《Android中阿拉伯文字的阿拉伯数字》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                依然-狠幸福            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1python延迟函数调用
                
                                
                    2如何删除滚动RecyclerView上的阴影
                
                                
                    3在<URL>中阻止脚本执行.因为文档的框架是沙箱,并且未设置"allow-scripts"权限
                
                                
                    4检测ListView何时"向上"或"向下"滚动？Windows Phone 8.1 ListView
                
                                
                    5Telegram bot api键盘
                
                                
                    6链接是什么:功能"参数"(范围,元素,attrs)？AngularJS
                
                                
                    7添加id并使用它的jquery脚本不起作用
                
                                
                    8plotly js:如何在加载绘图图像后运行我的javascript
                
                                
                    9Stata访问元素作为标量或宏的矩阵
                
                                
                    10重构Ruby
                
                                
                    11java:如何为变量自动生成自定义方法
                
                                
                    12自定义URI方案和Skype链接
                
                                
                    13有没有办法关闭JIT编译器,这样做会对性能产生影响吗？
                
                                
                    14因大小而无法上传文件
                
                                
                    15当键盘出现在swift中时,向上滚动UITableView
                
                                
                    16Android上的Cordova全屏启动画面仍显示标题栏
                
                                
                    17Swing Ui倍增面板重影
                
                                
                    18移动到vim中行中给定字符的最后一个实例？
                
                                
                    19应用程序在HttpLoggingInterceptor上崩溃
                
                                
                    20docker组合中'image'和'build'之间的区别