6赞

从PySpark DataFrame中的Python列表中删除元素

作者：linjiabin43 | 2023-09-07 13:39

如何解决《从PySparkDataFrame中的Python列表中删除元素》经验，为你挑选了1个好方法。

我试图从Python列表中删除一个元素:

+---------------+
|        sources|
+---------------+
|           [62]|
|        [7, 32]|
|           [62]|
|   [18, 36, 62]|
|[7, 31, 36, 62]|
|    [7, 32, 62]|



我希望能够rm从上面列表中的每个列表中删除元素.我写了一个函数,可以为列表列表做到这一点:

def asdf(df, rm):
    temp = df
    for n in range(len(df)):
        temp[n] = [x for x in df[n] if x != rm]
    return(temp)


哪个删除rm = 1:

a = [[1,2,3],[1,2,3,4],[1,2,3,4,5]]
In:  asdf(a,1)
Out: [[2, 3], [2, 3, 4], [2, 3, 4, 5]]


但我不能让它适用于DataFrame:

asdfUDF = udf(asdf, ArrayType(IntegerType()))

In: df.withColumn("src_ex", asdfUDF("sources", 32))

Out: Py4JError: An error occurred while calling z:org.apache.spark.sql.functions.col. Trace:
py4j.Py4JException: Method col([class java.lang.Integer]) does not exist


期望的行为:

In: df.withColumn("src_ex", asdfUDF("sources", 32))
Out: 

+---------------+
|         src_ex|
+---------------+
|           [62]|
|            [7]|
|           [62]|
|   [18, 36, 62]|
|[7, 31, 36, 62]|
|        [7, 62]|


(除了将上面的新列附加到PySpark DataFrame之外df)

有什么建议或想法吗？


1> user6910411..：
Spark> = 2.4

你可以使用array_remove:

from pyspark.sql.functions import array_remove

df.withColumn("src_ex", array_remove("sources", 32)).show()


+---------------+---------------+
|        sources|         src_ex|
+---------------+---------------+
|           [62]|           [62]|
|        [7, 32]|            [7]|
|           [62]|           [62]|
|   [18, 36, 62]|   [18, 36, 62]|
|[7, 31, 36, 62]|[7, 31, 36, 62]|
|    [7, 32, 62]|        [7, 62]|
+---------------+---------------+


或者filter:

from pyspark.sql.functions import expr

df.withColumn("src_ex", expr("filter(sources, x -> not(x <=> 32))")).show()


+---------------+---------------+
|        sources|         src_ex|
+---------------+---------------+
|           [62]|           [62]|
|        [7, 32]|            [7]|
|           [62]|           [62]|
|   [18, 36, 62]|   [18, 36, 62]|
|[7, 31, 36, 62]|[7, 31, 36, 62]|
|    [7, 32, 62]|        [7, 62]|
+---------------+---------------+


Spark <2.4

很多事情:


DataFrame不是列表列表.在实践中,它甚至不是普通的Python对象,它没有len,也没有Iterable.
您拥有的列看起来像普通array类型.
您无法引用DataFrame(或UDF中的任何其他分布式数据结构).
直接传递给UDF调用的每个参数都必须是str(列名)或Column对象.传递文字使用lit功能.


唯一剩下的就是列表理解:

from pyspark.sql.functions import lit, udf

def drop_from_array_(arr, item):
    return [x for x in arr if x != item]

drop_from_array = udf(drop_from_array_, ArrayType(IntegerType()))


用法示例:

df = sc.parallelize([
    [62], [7, 32], [62], [18, 36, 62], [7, 31, 36, 62], [7, 32, 62]
]).map(lambda x: (x, )).toDF(["sources"])

df.withColumn("src_ex", drop_from_array("sources", lit(32)))


结果:

+---------------+---------------+
|        sources|         src_ex|
+---------------+---------------+
|           [62]|           [62]|
|        [7, 32]|            [7]|
|           [62]|           [62]|
|   [18, 36, 62]|   [18, 36, 62]|
|[7, 31, 36, 62]|[7, 31, 36, 62]|
|    [7, 32, 62]|        [7, 62]|
+---------------+---------------+



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        log4net elasticsearch使用自定义参数进行日志记录
                    

                    
                                                
                        如何解决《log4netelasticsearch使用自定义参数进行日志记录》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在PromiseKit 3.0和Swift 2中链接承诺
                    

                    
                                                
                        如何解决《在PromiseKit3.0和Swift2中链接承诺》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么构造函数优先于用户定义的运算符？
                    

                    
                                                
                        如何解决《为什么构造函数优先于用户定义的运算符？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用#defines时,我得到的结果不同
                    

                    
                                                
                        如何解决《使用#defines时,我得到的结果不同》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Laravel中的异步队列
                    

                    
                                                
                        如何解决《Laravel中的异步队列》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Salt:使用脚本输出作为"源字符串"
                    

                    
                                                
                        如何解决《Salt:使用脚本输出作为"源字符串"》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Qt可用于开发Windows IoT核心应用程序吗？
                    

                    
                                                
                        如何解决《Qt可用于开发WindowsIoT核心应用程序吗？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        错误:Azure CLI没有有效的访问天花板
                    

                    
                                                
                        如何解决《错误:AzureCLI没有有效的访问天花板》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        匿名函数VS const函数--javascript
                    

                    
                                                
                        如何解决《匿名函数VSconst函数--javascript》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用MPAndroid图表绘制立方线图
                    

                    
                                                
                            
                        
                                                
                        如何解决《使用MPAndroid图表绘制立方线图》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        我可以在Cloudwatch仪表板的同一轴上绘制一个指标的多个统计信息吗？
                    

                    
                                                
                            
                        
                                                
                        如何解决《我可以在Cloudwatch仪表板的同一轴上绘制一个指标的多个统计信息吗？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在Parquet Data上使用Avro架构动态创建Hive外部表
                    

                    
                                                
                        如何解决《在ParquetData上使用Avro架构动态创建Hive外部表》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        每个屏幕/ ViewModel的DbContext Lifestyle(WPF +简单注入器)
                    

                    
                                                
                        如何解决《每个屏幕/ViewModel的DbContextLifestyle(WPF+简单注入器)》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        获取数据:image/png; base64,{{image}} net :: ERR_INVALID_URL
                    

                    
                                                
                        如何解决《获取数据:image/png;base64,{{image}}net::ERR_INVALID_URL》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        grails spring安全角色和组
                    

                    
                                                
                        如何解决《grailsspring安全角色和组》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        SQLAlchemy按子代数进行多对多筛选器行
                    

                    
                                                
                        如何解决《SQLAlchemy按子代数进行多对多筛选器行》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        "无法验证php文件.找不到php程序"
                    

                    
                                                
                            
                        
                                                
                        如何解决《"无法验证php文件.找不到php程序"》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何使residentadvisor API工作？
                    

                    
                                                
                        如何解决《如何使residentadvisorAPI工作？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么`:type`有时会显示`a`而有时会显示`t`？
                    

                    
                                                
                        如何解决《为什么`:type`有时会显示`a`而有时会显示`t`？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        按另一个列表过滤Python列表
                    

                    
                                                
                        如何解决《按另一个列表过滤Python列表》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                linjiabin43            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1为什么这个正则表达式只在Python的行开头匹配？
                
                                
                    2为什么'typeof(string).FullName'给'System.String'而不是'string'？
                
                                
                    3引导程序中自适应行类中的基本居中元素
                
                                
                    4如何在节点js中转发http请求
                
                                
                    5UITableView线分隔符可用于iOS 9中的备用单元格
                
                                
                    6使用Jackson自定义反序列化List
                
                                
                    7android:如何在折叠工具栏中添加带文本的按钮
                
                                
                    8使一个类不变
                
                                
                    9如何将大型tar.gz文件的内容传递给STDOUT？
                
                                
                    10在日期时间格式之间转换
                
                                
                    11单击除指定类之外的任何位置
                
                                
                    12Tomcat  - 当我尝试在两个不同的端口上共享两个项目时出现异常
                
                                
                    13Babel ES6模块:为什么babel重命名进口
                
                                
                    14sitecore输出缓存是否缓存整个图像
                
                                
                    15调试android数据绑定？
                
                                
                    16输入第一个字符时UISearchBar无法正常工作？
                
                                
                    17如何将Eigen :: Matrix4f转换为Eigen :: Affine3f
                
                                
                    18使用go将文件流上传到AWS S3
                
                                
                    19Laravel 5+中模块化编程的最佳实践
                
                                
                    20Perl  - 用单引号加入'\ t'