16赞

Spark数据帧reducebykey就像操作一样

作者：mobiledu2402851173 | 2023-09-10 13:27

如何解决《Spark数据帧reducebykey就像操作一样》经验，为你挑选了1个好方法。

我有一个带有以下数据的Spark数据帧(我使用spark-csv来加载数据):

key,value
1,10
2,12
3,0
1,20



有什么类似于spark RDD reduceByKey可以返回Spark DataFrame :(基本上,总结相同的键值)

key,value
1,30
2,12
3,0


(我可以将数据转换为RDD并执行reduceByKey操作,但是有更多Spark DataFrame API方法可以执行此操作吗？)


1> zero323..：
如果您不关心列名,可以使用groupBy后跟sum:

df.groupBy($"key").sum("value")


否则最好更换sum为agg:

df.groupBy($"key").agg(sum($"value").alias("value"))


最后你可以使用原始SQL:

df.registerTempTable("df")
sqlContext.sql("SELECT key, SUM(value) AS value FROM df GROUP BY key")


另请参见DataFrame/Dataset groupBy行为/优化

        
在RDD API中，我使用`reduceByKey`，因为`groupByKey`会将键的所有值收集到内存中-如果键与许多值相关联，则工作程序可能会耗尽内存。`groupBy`也有这个限制吗？



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        在Swift 2.0中正确实现cellForRowAtIndexPath
                    

                    
                                                
                        如何解决《在Swift2.0中正确实现cellForRowAtIndexPath》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        编译输出中的TypeScript依赖项未按正确顺序解析
                    

                    
                                                
                        如何解决《编译输出中的TypeScript依赖项未按正确顺序解析》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        64位平台的效率:指针与32位数组索引
                    

                    
                                                
                        如何解决《64位平台的效率:指针与32位数组索引》经验，为你挑选了3个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        访问数据和连接字符串？
                    

                    
                                                
                        如何解决《访问数据和连接字符串？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        根据方案设置默认模型值
                    

                    
                                                
                        如何解决《根据方案设置默认模型值》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        是否可以将套接字映射到虚拟内存？
                    

                    
                                                
                        如何解决《是否可以将套接字映射到虚拟内存？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        从Javascript中的Kendo网格中的列名获取列索引
                    

                    
                                                
                        如何解决《从Javascript中的Kendo网格中的列名获取列索引》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        基于系统时间(DAY)触发
                    

                    
                                                
                        如何解决《基于系统时间(DAY)触发》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        WP rest api jwt auth
                    

                    
                                                
                        如何解决《WPrestapijwtauth》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Ionic/Cordova:如何强制应用程序在开始时刷新,即使它在后台？
                    

                    
                                                
                        如何解决《Ionic/Cordova:如何强制应用程序在开始时刷新,即使它在后台？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Azure  -  BlobStore SAS uri命令执行失败.
                    

                    
                                                
                        如何解决《Azure-BlobStoreSASuri命令执行失败.》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在django admin中实现搜索
                    

                    
                                                
                        如何解决《如何在djangoadmin中实现搜索》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        无法找到相对于目录"web/static/js"的预设"es2015"
                    

                    
                                                
                        如何解决《无法找到相对于目录"web/static/js"的预设"es2015"》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        提供非子域路由
                    

                    
                                                
                        如何解决《提供非子域路由》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        设置公共Juypter服务器时SSL:WRONG_VERSION_NUMBER
                    

                    
                                                
                        如何解决《设置公共Juypter服务器时SSL:WRONG_VERSION_NUMBER》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在PHP中将多个值从视图传递到控制器
                    

                    
                                                
                        如何解决《如何在PHP中将多个值从视图传递到控制器》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        C中的getlocale()函数
                    

                    
                                                
                        如何解决《C中的getlocale()函数》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Mongoose  - 无法在快速路线中检索虚拟场
                    

                    
                                                
                        如何解决《Mongoose-无法在快速路线中检索虚拟场》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        git stash drop最旧的存储（例如最旧的5个存储）
                    

                    
                                                
                        如何解决《gitstashdrop最旧的存储（例如最旧的5个存储）》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        强类型的url动作
                    

                    
                                                
                        如何解决《强类型的url动作》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                mobiledu2402851173            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1外部CSS样式表未加载
                
                                
                    2如何在PHP字符串中替换表意空间？
                
                                
                    3如何在Assembly.LoadFile()之前从DLL读取属性
                
                                
                    4如何解决"错误:无法读取应用程序的Info.plist(无法加载DVTFilePath的信息字典)"
                
                                
                    5如何在等待JS加载内容后解析HTML页面？
                
                                
                    6如果可能的话，如何使Momentjs不是Angularjs中的全局变量
                
                                
                    7如何在meanjs中获得基本网址？
                
                                
                    8有没有办法从一个点填充,直到它使用HTML Canvas和JavaScript到达边框？
                
                                
                    9如何从WPF RichTextBox中删除特定字符串？
                
                                
                    10如何在visual studio上以管理员身份运行最近的项目或解决方案
                
                                
                    11使用正则表达式替换字符串中的参数
                
                                
                    12Python Scatter Plot,每个X都有多个Y值
                
                                
                    13删除由角度组件创建的主机HTML元素选择器
                
                                
                    14如何设置'crates.io'的本地存储库？
                
                                
                    15Azure Portal无法创建新的os磁盘,vm映像等
                
                                
                    16如何管理iOS apns令牌更改
                
                                
                    17使用Javascript在每个第二个字符后添加冒号(:)
                
                                
                    18IB Designables:无法更新自动布局状态:代理引发了"CALayerInvalidGeometry"异常
                
                                
                    19SQLSTATE [HY000] [2002] php_network_getaddresses:getaddrinfo失败:提供nodename或servname,或者不知道
                
                                
                    20抛出constexpr功能