12赞

在PySpark 2.0中读取序列文件

作者：mobiledu2402851377 | 2023-09-07 17:02

如何解决《在PySpark2.0中读取序列文件》经验，为你挑选了1个好方法。

我有一个序列文件,其值如下

(string_value, json_value)

我不关心字符串值.

在Scala我可以通过阅读文件

val reader = sc.sequenceFile[String, String]("/path...")
val data = reader.map{case (x, y) => (y.toString)}
val jsondata = spark.read.json(data)



我很难将其转换为PySpark.我试过用

reader= sc.sequenceFile("/path","org.apache.hadoop.io.Text", "org.apache.hadoop.io.Text")
data = reader.map(lambda x,y: str(y))
jsondata = spark.read.json(data)


这些错误很神秘,但如果有帮助我可以提供.我的问题是,在pySpark2中读取这些序列文件的正确语法是什么？

我想我没有正确地将数组元素转换为字符串.如果我做一些简单的事情,我会得到类似的错误

m = sc.parallelize([(1, 2), (3, 4)])
m.map(lambda x,y: y.toString).collect()


要么 

m = sc.parallelize([(1, 2), (3, 4)])
m.map(lambda x,y: str(y)).collect()


谢谢!


1> user6910411..：
您的代码的基本问题是您使用的功能.传递给的函数map应该采用单个参数.使用:

reader.map(lambda x: x[1])


要不就:

reader.values()


只要keyClass和valueClass匹配数据,这应该是你需要的所有内容,并且不需要额外的类型转换(这由内部处理sequenceFile).用Scala写:

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/

Using Scala version 2.11.8 (OpenJDK 64-Bit Server VM, Java 1.8.0_111)
Type in expressions to have them evaluated.
Type :help for more information.


scala> :paste
// Entering paste mode (ctrl-D to finish)

sc
  .parallelize(Seq(
    ("foo", """{"foo": 1}"""), ("bar", """{"bar": 2}""")))
  .saveAsSequenceFile("example")

// Exiting paste mode, now interpreting.


读入Python:

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/

Using Python version 3.5.1 (default, Dec  7 2015 11:16:01)
SparkSession available as 'spark'.


In [1]: Text = "org.apache.hadoop.io.Text"

In [2]: (sc
   ...:     .sequenceFile("example", Text, Text)
   ...:     .values()  
   ...:     .first())
Out[2]: '{"bar": 2}'


注意:

旧版Python版本支持元组参数解包:

reader.map(lambda (_, v): v)


不要将它用于应向前兼容的代码.



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        sklearn使用prob_a进行逻辑二进制分类
                    

                    
                                                
                        如何解决《sklearn使用prob_a进行逻辑二进制分类》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Python  - 如何在Mac OS X上使用GUI应用程序制作守护程序？
                    

                    
                                                
                        如何解决《Python-如何在MacOSX上使用GUI应用程序制作守护程序？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        单击时,angular-ui bootstap选项卡选择功能
                    

                    
                                                
                        如何解决《单击时,angular-uibootstap选项卡选择功能》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Yocto中的"sh ::未知操作数"
                    

                    
                                                
                        如何解决《Yocto中的"sh::未知操作数"》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        将JavaScript函数应用于除第i个元素之外的所有Array元素
                    

                    
                                                
                        如何解决《将JavaScript函数应用于除第i个元素之外的所有Array元素》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在GCC中使用-O3有什么缺点吗？
                    

                    
                                                
                        如何解决《在GCC中使用-O3有什么缺点吗？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用另一个向量中的值对矢量进行排序
                    

                    
                                                
                        如何解决《使用另一个向量中的值对矢量进行排序》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        多数独木舟AI方法
                    

                    
                                                
                            
                        
                                                
                        如何解决《多数独木舟AI方法》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何将存储文件分配给ByteArray？
                    

                    
                                                
                        如何解决《如何将存储文件分配给ByteArray？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        有没有办法在Android Studio中使用Maven插件禁用javadoc崩溃？
                    

                    
                                                
                        如何解决《有没有办法在AndroidStudio中使用Maven插件禁用javadoc崩溃？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        适用于将效果顺序颠倒的仿函数
                    

                    
                                                
                        如何解决《适用于将效果顺序颠倒的仿函数》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        实现泛型类型的均值函数
                    

                    
                                                
                        如何解决《实现泛型类型的均值函数》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Rails:如何在collection_select中添加自定义数据属性
                    

                    
                                                
                        如何解决《Rails:如何在collection_select中添加自定义数据属性》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何读取CSV文件并分配给Eigen Matrix？
                    

                    
                                                
                        如何解决《如何读取CSV文件并分配给EigenMatrix？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        芹菜工作,但花不起作用
                    

                    
                                                
                        如何解决《芹菜工作,但花不起作用》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用javascript从图像中删除灰度css过滤器
                    

                    
                                                
                        如何解决《使用javascript从图像中删除灰度css过滤器》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        球拍相当于/ dev/null？
                    

                    
                                                
                        如何解决《球拍相当于/dev/null？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Laravel查询生成器 - 日期现在使用碳
                    

                    
                                                
                            
                        
                                                
                        如何解决《Laravel查询生成器-日期现在使用碳》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Swift中的全局变量和可选绑定
                    

                    
                                                
                            
                        
                                                
                        如何解决《Swift中的全局变量和可选绑定》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在O(1)中查找数组值大于x的第一个索引
                    

                    
                                                
                        如何解决《在O(1)中查找数组值大于x的第一个索引》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                mobiledu2402851377            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1从Python smtplib捕获调试输出
                
                                
                    2ColdFusion中的UTF-8标志
                
                                
                    3在循环中使用Jsoup connect().第一个请求总是比其他所有请求慢得多
                
                                
                    4使用参数'()'和找不到关键字参数'{}来反向'login'.尝试过0种模式:[]
                
                                
                    5在Visual Studio 2015中添加SSDT BI模板
                
                                
                    6如何在同一个php脚本中销毁两个不同的会话？
                
                                
                    7如何在excel vba中加入从两个不同数据源创建的两个记录集
                
                                
                    8如何从RasterBrick中提取数据？
                
                                
                    9使用图层列表显示一些可绘制的图像
                
                                
                    10如何使用Dot在GraphViz中的标签中使用？
                
                                
                    11python中有序字典的有序字典
                
                                
                    12Android Google Plus API  -  PeopleApi.loadConnected返回0个人
                
                                
                    13Mongoose模式方法是"不是函数"
                
                                
                    14检查Javascript中是否存在活动超时
                
                                
                    15ol.overlay未正确设置位置
                
                                
                    16Swift 2和Linux/OS X的区别
                
                                
                    17无法导入flup.server.fcgi
                
                                
                    18CSS转换比例允许的最大小数位数？
                
                                
                    19Xamarin  -  Android  -  Visual Studio  - 无法启动应用程序
                
                                
                    20Java中的大数字计算？