16赞

在spark中访问嵌套数据

作者：喜生-Da | 2023-09-11 12:34

如何解决《在spark中访问嵌套数据》经验，为你挑选了1个好方法。

我有一组嵌套的case类.我有一个使用这些案例类生成数据集的作业,并将输出写入镶木地板.

我非常恼火地发现我必须手动加载并加载这些数据并将其转换回案例类以便在后续作业中使用它.无论如何,这就是我现在要做的事情.

我的案例类如下:

case class Person(userId: String, tech: Option[Tech])
case class Tech(browsers: Seq[Browser], platforms: Seq[Platform])
case class Browser(family: String, version: Int)

所以我正在加载我的镶木地板数据.我可以将tech数据作为Row:

val df = sqlContext.load("part-r-00716.gz.parquet")
val x = df.head
val tech = x.getStruct(x.fieldIndex("tech"))

但现在我找不到如何实际迭代浏览器.如果我尝试val browsers = tech.getStruct(tech.fieldIndex("browsers"))我得到一个例外:

java.lang.ClassCastException: scala.collection.mutable.WrappedArray$ofRef cannot be cast to org.apache.spark.sql.Row

如何使用spark 1.5.2迭代我的嵌套浏览器数据？

更新实际上,我的case类包含可选值,所以Browser实际上是:

case class Browser(family: String,
               major: Option[String] = None, 
               minor: Option[String] = None,
               patch: Option[String] = None, 
               language: String,
               timesSeen: Long = 1,
               firstSeenAt: Long,
               lastSeenAt: Long)

我也有类似的Os:

case class Os(family: String,
          major: Option[String] = None,
          minor: Option[String] = None,
          patch: Option[String] = None,
          patchMinor: Option[String],
          override val timesSeen: Long = 1,
          override val firstSeenAt: Long,
          override val lastSeenAt: Long)

所以Tech真的是:

case class Technographic(browsers: Seq[Browser], 
                     devices: Seq[Device],
                     oss: Seq[Os])

现在,鉴于某些值是可选的,我需要一个允许我正确重构我的case类的解决方案.当前解决方案不支持None值,因此例如给定输入数据:

Tech(browsers=Seq(
    Browser(family=Some("IE"), major=Some(7), language=Some("en"), timesSeen=3),
    Browser(family=None, major=None, language=Some("en-us"), timesSeen=1),
    Browser(family=Some("Firefox), major=None, language=None, timesSeen=1)
  )
)

我需要它来加载数据如下:

family=IE, major=7, language=en, timesSeen=3,
family=None, major=None, language=en-us, timesSeen=1,
family=Firefox, major=None, language=None, timesSeen=1

因为当前解决方案不支持None值,所以它实际上每个列表项具有任意数量的值,即:

browsers.family = ["IE", "Firefox"]
browsers.major = [7]
browsers.language = ["en", "en-us"]
timesSeen = [3, 1, 1]

如您所见,无法将最终数据(由spark返回)转换为生成它的案例类.

我该如何解决这种疯狂？

1> Beryllium..：

一些例子

// Select two columns
df.select("userId", "tech.browsers").show()

// Select the nested values only
df.select("tech.browsers").show(truncate = false)
+-------------------------+
|browsers                 |
+-------------------------+
|[[Firefox,4], [Chrome,2]]|
|[[Firefox,4], [Chrome,2]]|
|[[IE,25]]                |
|[]                       |
|null                     |
+-------------------------+

// Extract the family (nested value)
// This way you can iterate over the persons, and get their browsers
// Family values are nested
df.select("tech.browsers.family").show()
+-----------------+
|           family|
+-----------------+
|[Firefox, Chrome]|
|[Firefox, Chrome]|
|             [IE]|
|               []|
|             null|
+-----------------+

// Normalize the family: One row for each family
// Then you can iterate over all families
// Family values are un-nested, empty values/null/None are handled by explode()
df.select(explode(col("tech.browsers.family")).alias("family")).show()
+-------+
| family|
+-------+
|Firefox|
| Chrome|
|Firefox|
| Chrome|
|     IE|
+-------+



基于最后一个例子:

val families = df.select(explode(col("tech.browsers.family")))
  .map(r => r.getString(0)).distinct().collect().toList
println(families)


在"普通"本地Scala列表中提供唯一的浏览器列表:


  列表(IE,Firefox,Chrome)



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        为什么不能在编译时解决运行时多态？
                    

                    
                                                
                        如何解决《为什么不能在编译时解决运行时多态？》经验，为你挑选了5个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Web服务连接超时和请求超时之间的差异
                    

                    
                                                
                        如何解决《Web服务连接超时和请求超时之间的差异》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        命名列表时使用粘贴
                    

                    
                                                
                        如何解决《命名列表时使用粘贴》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        ImportError:无法导入名称Pubnub
                    

                    
                                                
                        如何解决《ImportError:无法导入名称Pubnub》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Spring Data是否支持OrientDB？
                    

                    
                                                
                        如何解决《SpringData是否支持OrientDB？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Robolectric测试抛出RuntimeException:java.lang.ClassNotFoundException
                    

                    
                                                
                            
                        
                                                
                        如何解决《Robolectric测试抛出RuntimeException:java.lang.ClassNotFoundException》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Spring Security java.lang.IllegalArgumentException:输入中的非十六进制字符
                    

                    
                                                
                        如何解决《SpringSecurityjava.lang.IllegalArgumentException:输入中的非十六进制字符》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么我的IF声明不能显示我想要的结果？
                    

                    
                                                
                        如何解决《为什么我的IF声明不能显示我想要的结果？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        你如何确认一个字符串只包含Swift中的数字？
                    

                    
                                                
                        如何解决《你如何确认一个字符串只包含Swift中的数字？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        CSS边框底部的曲线
                    

                    
                                                
                            
                        
                                                
                        如何解决《CSS边框底部的曲线》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在道具更新时调用组件上的自定义方法
                    

                    
                                                
                        如何解决《在道具更新时调用组件上的自定义方法》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Javascript:避免重新加载窗口
                    

                    
                                                
                        如何解决《Javascript:避免重新加载窗口》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        返回false不工作,单击h:commandButton会触发操作
                    

                    
                                                
                        如何解决《返回false不工作,单击h:commandButton会触发操作》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Laravel创建5.2版本项目问题
                    

                    
                                                
                        如何解决《Laravel创建5.2版本项目问题》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        开始使用nodemailer和mandrill smtp报错。CERT_HAS_EXPIRED错误：证书已过期
                    

                    
                                                
                        如何解决《开始使用nodemailer和mandrillsmtp报错。CERT_HAS_EXPIRED错误：证书已过期》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        ReadAsAsync和JsonConvert之间的区别
                    

                    
                                                
                        如何解决《ReadAsAsync和JsonConvert之间的区别》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在一个充满零的矩阵中的一个 -  R.
                    

                    
                                                
                        如何解决《在一个充满零的矩阵中的一个-R.》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        SWIFT iOS中的崩溃报告
                    

                    
                                                
                        如何解决《SWIFTiOS中的崩溃报告》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Scala Try的toOption方法返回Some(null)
                    

                    
                                                
                        如何解决《ScalaTry的toOption方法返回Some(null)》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何使用Scanner类中的hasNext()？
                    

                    
                                                
                        如何解决《如何使用Scanner类中的hasNext()？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                喜生-Da            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1ng-map拖动标记后获取地址
                
                                
                    2调试时NodeJS没有响应(在VS代码中)
                
                                
                    3R,如何将此操作矢量化
                
                                
                    4结合多个Linq Where语句
                
                                
                    5Google Map:InvalidValueError:setLabel:不是字符串; 没有文字属性
                
                                
                    6在列表对象中排序
                
                                
                    7PHP:如何解析JSON字符串并获取变量？
                
                                
                    8Django-自定义装饰器，仅允许ajax请求
                
                                
                    9使用PHP 7和WAMP
                
                                
                    10如何从Linux内核维护者的开发分支下载最新的Linux内核代码？
                
                                
                    11Mongodb多文档插入忽略自定义重复字段错误
                
                                
                    12Laravel 5.1:将数据传递给View Composer
                
                                
                    13快速r连续匹配(基于位置相似性)
                
                                
                    14开源Redis集群和Redis labs企业集群之间有什么区别？
                
                                
                    15Google Compute Engine：直接从gcloud控制台在vm中执行shell命令
                
                                
                    16数组索引打印错误值
                
                                
                    17Laravel 5 PHPUnit  - 路由返回了无效的JSON
                
                                
                    18MKMapView内存管理
                
                                
                    19字体很棒,没有使用webpack和cordova
                
                                
                    20如果由jQuery添加,Google会看到rel = nofollow吗？