是否可以在Pyspark中继承DataFrame？

作者：放ch养奶牛 | 2023-09-07 14:53

如何解决《是否可以在Pyspark中继承DataFrame？》经验，为你挑选了1个好方法。

对于Pyspark文档显示被构造DataFrames sqlContext,sqlContext.read()和各种的其他方法.

(参见https://spark.apache.org/docs/1.6.2/api/python/pyspark.sql.html)

是否有可能将Dataframe子类化并独立实例化它？我想为基本DataFrame类添加方法和功能.

1> user6910411..：

这真的取决于你的目标.

从技术上讲,这是可能的.pyspark.sql.DataFrame只是一个简单的Python类.如果需要,您可以扩展它或猴子补丁.

from pyspark.sql import DataFrame

class DataFrameWithZipWithIndex(DataFrame):
     def __init__(self, df):
         super(self.__class__, self).__init__(df._jdf, df.sql_ctx)

     def zipWithIndex(self):
         return (self.rdd
             .zipWithIndex()
             .map(lambda row: (row[1], ) + row[0])
             .toDF(["_idx"] + self.columns))

用法示例:

df = sc.parallelize([("a", 1)]).toDF(["foo", "bar"])

with_zipwithindex = DataFrameWithZipWithIndex(df)

isinstance(with_zipwithindex, DataFrame)

True



with_zipwithindex.zipWithIndex().show()


+----+---+---+
|_idx|foo|bar|
+----+---+---+
|   0|  a|  1|
+----+---+---+

实际上,你在这里做不了多少.DataFrame是一个围绕JVM对象的瘦包装器,除了提供文档字符串,将参数转换为本机所需的表单,调用JVM方法以及在必要时使用Python适配器包装结果之外,没有多大帮助.

使用普通的Python代码,您甚至无法靠近DataFrame/ Dataset内部或修改其核心行为.如果你正在寻找独立的,Python只有Spark DataFrame实现,那是不可能的.



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        将Django升级到1.8会产生不相关的站点框架警告
                    

                    
                                                
                        如何解决《将Django升级到1.8会产生不相关的站点框架警告》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Python AttributeError:'str'对象没有属性'DataFrame'
                    

                    
                                                
                        如何解决《PythonAttributeError:'str'对象没有属性'DataFrame'》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在几列中拆分一列字符串
                    

                    
                                                
                        如何解决《在几列中拆分一列字符串》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        GoogleSignIn iOS  - 禁用SFSafariViewController
                    

                    
                                                
                        如何解决《GoogleSignIniOS-禁用SFSafariViewController》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        ExpressJS限制对公共文件的访问
                    

                    
                                                
                        如何解决《ExpressJS限制对公共文件的访问》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        处理"取决于非NOTIFYable属性"警告
                    

                    
                                                
                        如何解决《处理"取决于非NOTIFYable属性"警告》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在天蓝色中是否有任何原生的断路器模式实现？
                    

                    
                                                
                        如何解决《在天蓝色中是否有任何原生的断路器模式实现？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Google Drive API的一致性保证是什么？
                    

                    
                                                
                        如何解决《GoogleDriveAPI的一致性保证是什么？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Lumen(Laravel)Eloquent php工匠制作:模型没有定义
                    

                    
                                                
                        如何解决《Lumen(Laravel)Eloquentphp工匠制作:模型没有定义》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Google maps API:如何检查地址或位置是否有效？
                    

                    
                                                
                        如何解决《GooglemapsAPI:如何检查地址或位置是否有效？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在新选项卡中打开Base64
                    

                    
                                                
                        如何解决《在新选项卡中打开Base64》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        循环中单个像素的渲染速度
                    

                    
                                                
                        如何解决《循环中单个像素的渲染速度》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        where子句中case子句的用法
                    

                    
                                                
                        如何解决《where子句中case子句的用法》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在边缘的图像中放置文本
                    

                    
                                                
                            
                        
                                                
                        如何解决《在边缘的图像中放置文本》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        我想对我的天蓝网站进行负载均衡
                    

                    
                                                
                        如何解决《我想对我的天蓝网站进行负载均衡》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        C#中BackgroundWorker的性能问题
                    

                    
                                                
                        如何解决《C#中BackgroundWorker的性能问题》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        这个字段怎么样？
                    

                    
                                                
                        如何解决《这个字段怎么样？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Sql语法:在select(subselect)中选择不带from子句作为子查询
                    

                    
                                                
                        如何解决《Sql语法:在select(subselect)中选择不带from子句作为子查询》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Div向下移动而不是隐藏
                    

                    
                                                
                        如何解决《Div向下移动而不是隐藏》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        iOS和Android无法连接的蓝牙设备是否有唯一标识符？
                    

                    
                                                
                        如何解决《iOS和Android无法连接的蓝牙设备是否有唯一标识符？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                放ch养奶牛            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1如何在不刷新Chrome页面的情况下查看HTML源代码
                
                                
                    2Anypoint Studio  - 调试器未启动
                
                                
                    3为什么节点服务器必须在文件更改时重新启动？
                
                                
                    4需要帮助计算得分的胜负
                
                                
                    5我不能从已经使用GROUP BY的表中循环记录
                
                                
                    6如何在Swift中添加UICollectionView的页眉和页脚视图
                
                                
                    7为什么我需要将模型传递给视图？
                
                                
                    8RegEx匹配M/YYYY,MM/YYYY,M/YY或MM/YY格式但不匹配MM/DD/YYYY
                
                                
                    9Android Studio 1.5.1在APK META-INF/NOTICE.txt中复制的重复文件commons-codec-1.9.jar ...？
                
                                
                    10如何从Google Places API中的位置ID中获取位置详细信息
                
                                
                    11启动模拟器时出错
                
                                
                    12箭头不能处理输入类型="数字"
                
                                
                    13为什么这个正则表达式查询没有返回任何结果？
                
                                
                    14为什么Number('')返回0而parseInt('')返回NaN
                
                                
                    15打印第二个命令行参数
                
                                
                    16javax.xml.stream.XMLStreamException:不允许使用DOCTYPE
                
                                
                    17为什么逗号,地址,逻辑AND和逻辑OR运算符不应该在c ++中重载？
                
                                
                    18使用ArrayBlockingQueue会使进程变慢
                
                                
                    19使用mysql-python执行Select语句给出None
                
                                
                    20当页面滚动到达特定ID时添加类