20赞

Spark中的嵌套JSON

作者：kikokikolove | 2023-09-11 13:41

如何解决《Spark中的嵌套JSON》经验，为你挑选了1个好方法。

我将以下JSON作为DataFrame加载:

root
 |-- data: struct (nullable = true)
 |    |-- field1: string (nullable = true)
 |    |-- field2: string (nullable = true)
 |-- moreData: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- more1: string (nullable = true)
 |    |    |-- more2: string (nullable = true)
 |    |    |-- more3: string (nullable = true)



我想从这个DataFrame中获取以下RDD:

RDD[(more1, more2, more3, field1, field2)]


我怎样才能做到这一点？我想我必须使用flatMap嵌套的JSON？


1> zero323..：
结合使用explode和点语法应该可以解决问题:

import org.apache.spark.sql.functions.explode

case class Data(field1: String, field2: String)
case class MoreData(more1: String, more2: String, more3: String)

val df = sc.parallelize(Seq(
  (Data("foo", "bar"), Array(MoreData("a", "b", "c"), MoreData("d", "e", "f")))
)).toDF("data", "moreData")

df.printSchema
// root
//  |-- data: struct (nullable = true)
//  |    |-- field1: string (nullable = true)
//  |    |-- field2: string (nullable = true)
//  |-- moreData: array (nullable = true)
//  |    |-- element: struct (containsNull = true)
//  |    |    |-- more1: string (nullable = true)
//  |    |    |-- more2: string (nullable = true)
//  |    |    |-- more3: string (nullable = true)

val columns = Seq(
  $"moreData.more1", $"moreData.more2", $"moreData.more3",
  $"data.field1", $"data.field2")

val aRDD = df.withColumn("moreData", explode($"moreData"))
  .select(columns: _*)
  .rdd

aRDD.collect
// Array[org.apache.spark.sql.Row] = Array([a,b,c,foo,bar], [d,e,f,foo,bar])


根据您的要求,您可以使用map来提取行中的值:

import org.apache.spark.sql.Row

aRDD.map{case Row(m1: String, m2: String, m3: String, f1: String, f2: String) =>
  (m1, m2, m3, f1, f2)}


另请参阅使用复杂类型查询Spark SQL DataFrame



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        xsl遍历字母表列表
                    

                    
                                                
                        如何解决《xsl遍历字母表列表》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        还有另一个MVVM问题......我的理解是否正确？
                    

                    
                                                
                        如何解决《还有另一个MVVM问题我的理解是否正确？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Church Retreat在线注册/付款
                    

                    
                                                
                        如何解决《ChurchRetreat在线注册/付款》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        用于查找冗余索引的T-SQL
                    

                    
                                                
                        如何解决《用于查找冗余索引的T-SQL》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        让git rerere自动将文件标记为已解决？
                    

                    
                                                
                        如何解决《让gitrerere自动将文件标记为已解决？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Berkeley DB Java版 - 调整大量数据
                    

                    
                                                
                        如何解决《BerkeleyDBJava版-调整大量数据》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        没有服务器的浏览器到浏览器通信？
                    

                    
                                                
                        如何解决《没有服务器的浏览器到浏览器通信？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        github没有与名称相关的地址
                    

                    
                                                
                        如何解决《github没有与名称相关的地址》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何将Spring Roo和GWT结合在一起
                    

                    
                                                
                        如何解决《如何将SpringRoo和GWT结合在一起》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        sql解析器(更改解析方法)
                    

                    
                                                
                        如何解决《sql解析器(更改解析方法)》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        区别于特定领域
                    

                    
                                                
                        如何解决《区别于特定领域》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在django admin change_form中更改外键字段中的排序
                    

                    
                                                
                        如何解决《如何在djangoadminchange_form中更改外键字段中的排序》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        调用函数时将列表转换为*args
                    

                    
                                                
                        如何解决《调用函数时将列表转换为*args》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        通过引用递归函数
                    

                    
                                                
                        如何解决《通过引用递归函数》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        获取.net 4中的连接字符串
                    

                    
                                                
                        如何解决《获取.net4中的连接字符串》经验，为你挑选了3个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Visual C++/CLI(CLR)空指针
                    

                    
                                                
                        如何解决《VisualC++/CLI(CLR)空指针》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用Javascript变量设置Cookie域
                    

                    
                                                
                        如何解决《使用Javascript变量设置Cookie域》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        用"&nbsp;"替换空白区域 使用Jquery
                    

                    
                                                
                        如何解决《用"&nbsp;"替换空白区域使用Jquery》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        我可以从Firebug的Net面板中复制网页发出的HTTP请求列表吗？
                    

                    
                                                
                        如何解决《我可以从Firebug的Net面板中复制网页发出的HTTP请求列表吗？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Oracle"(+)"运算符
                    

                    
                                                
                            
                        
                                                
                        如何解决《Oracle"(+)"运算符》经验，为你挑选了4个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                kikokikolove            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1python逻辑回归(初学者)
                
                                
                    2使用C++将结构复制到数组中
                
                                
                    3如何从方法中打印指针的值？
                
                                
                    4在C中安全二进制搜索
                
                                
                    5匹配列表后修复类型擦除
                
                                
                    6Object.wait()超过了超时
                
                                
                    7强制SQL Server查询不返回任何行
                
                                
                    8如何从COBOL中的COMP-3字段读取Java中的日期？
                
                                
                    9WinSCP .NET程序集:如何下载目录
                
                                
                    10确定最大开放空间的高效算法
                
                                
                    11如果孩子的总数是偶数,如何将样式添加到倒数第二？
                
                                
                    12Jupyter和Common Lisp
                
                                
                    13即时添加/删除组件
                
                                
                    14滚动淡出div
                
                                
                    15如何按顺序刷新IPython Notebook中的图？
                
                                
                    16扩展"读取"式行为
                
                                
                    17将前导零添加到varchar字段
                
                                
                    18在swift中将阴影应用于导航栏
                
                                
                    19如何调试React Router？
                
                                
                    20更快地解析代码文件