17赞

Spark 2 Dataset Null值异常

作者：个性2402852463 | 2023-09-07 11:36

如何解决《Spark2DatasetNull值异常》经验，为你挑选了1个好方法。

在spark Dataset.filter中获取此null错误

输入CSV:

name,age,stat
abc,22,m
xyz,,s

工作代码:

case class Person(name: String, age: Long, stat: String)

val peopleDS = spark.read.option("inferSchema","true")
  .option("header", "true").option("delimiter", ",")
  .csv("./people.csv").as[Person]
peopleDS.show()
peopleDS.createOrReplaceTempView("people")
spark.sql("select * from people where age > 30").show()

失败的代码(添加以下行返回错误):

val filteredDS = peopleDS.filter(_.age > 30)
filteredDS.show()

返回null错误

java.lang.RuntimeException: Null value appeared in non-nullable field:
- field (class: "scala.Long", name: "age")
- root class: "com.gcp.model.Person"
If the schema is inferred from a Scala tuple/case class, or a Java bean, please try to use scala.Option[_] or other nullable types (e.g. java.lang.Integer instead of int/scala.Int).

user6910411.. 19

你得到的例外应该解释一切,但让我们一步一步走:

使用csv数据源加载数据时,所有字段都标记为nullable:

val path: String = ???

val peopleDF = spark.read
  .option("inferSchema","true")
  .option("header", "true")
  .option("delimiter", ",")
  .csv(path)

peopleDF.printSchema



root
|-- name: string (nullable = true)
|-- age: integer (nullable = true)
|-- stat: string (nullable = true)

缺少的字段表示为SQL NULL

peopleDF.where($"age".isNull).show


+----+----+----+
|name| age|stat|
+----+----+----+
| xyz|null|   s|
+----+----+----+

接下来转换Dataset[Row]为Dataset[Person]使用Long编码age字段.Long在Scala中不可能null.因为输入模式是nullable,输出模式保持不变nullable:

val peopleDS = peopleDF.as[Person]

peopleDS.printSchema


root
 |-- name: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- stat: string (nullable = true)


请注意,它as[T]根本不会影响架构.

当您Dataset使用SQL 查询(在已注册的表上)或DataFrameAPI时,Spark不会反序列化该对象.由于架构仍然nullable可以执行:

peopleDS.where($"age" > 30).show


+----+---+----+
|name|age|stat|
+----+---+----+
+----+---+----+


没有任何问题.这只是一个简单的SQL逻辑,NULL是一个有效的值.

当我们使用静态类型的DatasetAPI时:

peopleDS.filter(_.age > 30)


Spark必须反序列化对象.因为Long不能null(SQL NULL)它会失败,你会看到异常.

如果不是因为你得到了NPE. 

更正数据的静态类型表示应使用以下Optional类型:

case class Person(name: String, age: Option[Long], stat: String)


调整过滤功能:

peopleDS.filter(_.age.map(_ > 30).getOrElse(false))


+----+---+----+
|name|age|stat|
+----+---+----+
+----+---+----+


如果您愿意,可以使用模式匹配:

peopleDS.filter {
  case Some(age) => age > 30
  case _         => false     // or case None => false
}


请注意,您不必(但无论如何都会建议)为name和使用可选类型stat.因为Scala String只是一个Java,String它可以null.当然,如果你采用这种方法,你必须明确检查访问的值是否是null.



相关的Spark 2.0 Dataset与DataFrame相关


1> user6910411..：
你得到的例外应该解释一切,但让我们一步一步走:


使用csv数据源加载数据时,所有字段都标记为nullable:

val path: String = ???

val peopleDF = spark.read
  .option("inferSchema","true")
  .option("header", "true")
  .option("delimiter", ",")
  .csv(path)

peopleDF.printSchema


root
|-- name: string (nullable = true)
|-- age: integer (nullable = true)
|-- stat: string (nullable = true)

缺少的字段表示为SQL NULL

peopleDF.where($"age".isNull).show


+----+----+----+
|name| age|stat|
+----+----+----+
| xyz|null|   s|
+----+----+----+

接下来转换Dataset[Row]为Dataset[Person]使用Long编码age字段.Long在Scala中不可能null.因为输入模式是nullable,输出模式保持不变nullable:

val peopleDS = peopleDF.as[Person]

peopleDS.printSchema


root
 |-- name: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- stat: string (nullable = true)


请注意,它as[T]根本不会影响架构.

当您Dataset使用SQL 查询(在已注册的表上)或DataFrameAPI时,Spark不会反序列化该对象.由于架构仍然nullable可以执行:

peopleDS.where($"age" > 30).show


+----+---+----+
|name|age|stat|
+----+---+----+
+----+---+----+


没有任何问题.这只是一个简单的SQL逻辑,NULL是一个有效的值.

当我们使用静态类型的DatasetAPI时:

peopleDS.filter(_.age > 30)


Spark必须反序列化对象.因为Long不能null(SQL NULL)它会失败,你会看到异常.

如果不是因为你得到了NPE. 

更正数据的静态类型表示应使用以下Optional类型:

case class Person(name: String, age: Option[Long], stat: String)


调整过滤功能:

peopleDS.filter(_.age.map(_ > 30).getOrElse(false))


+----+---+----+
|name|age|stat|
+----+---+----+
+----+---+----+


如果您愿意,可以使用模式匹配:

peopleDS.filter {
  case Some(age) => age > 30
  case _         => false     // or case None => false
}


请注意,您不必(但无论如何都会建议)为name和使用可选类型stat.因为Scala String只是一个Java,String它可以null.当然,如果你采用这种方法,你必须明确检查访问的值是否是null.



相关的Spark 2.0 Dataset与DataFrame相关



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        Golang客户为Cassandra
                    

                    
                                                
                        如何解决《Golang客户为Cassandra》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Kotlin:尚不支持Java 8的哪些功能？
                    

                    
                                                
                        如何解决《Kotlin:尚不支持Java8的哪些功能？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在单个页面上创建多个p:确认对话框
                    

                    
                                                
                        如何解决《如何在单个页面上创建多个p:确认对话框》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在列表视图中设置选定的索引
                    

                    
                                                
                        如何解决《在列表视图中设置选定的索引》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如果它正在运行,则停止并删除docker容器
                    

                    
                                                
                        如何解决《如果它正在运行,则停止并删除docker容器》经验，为你挑选了4个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么这个导入工作？
                    

                    
                                                
                        如何解决《为什么这个导入工作？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        不要使用CSS显示空的内联块元素
                    

                    
                                                
                        如何解决《不要使用CSS显示空的内联块元素》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Java泛型和流
                    

                    
                                                
                        如何解决《Java泛型和流》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在switch语句中通过引用返回
                    

                    
                                                
                        如何解决《在switch语句中通过引用返回》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Visual Studio 2015 IIS Express 500错误
                    

                    
                                                
                        如何解决《VisualStudio2015IISExpress500错误》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        从snake_case到camel
                    

                    
                                                
                        如何解决《从snake_case到camel》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何找到哪个Java/Scala线程锁定了文件？
                    

                    
                                                
                        如何解决《如何找到哪个Java/Scala线程锁定了文件？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        swift .framework更新导致'使用未声明的类型错误'
                    

                    
                                                
                        如何解决《swift.framework更新导致'使用未声明的类型错误'》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        无法绑定到'ng-forOf',因为它不是已知的本机属性
                    

                    
                                                
                        如何解决《无法绑定到'ng-forOf',因为它不是已知的本机属性》经验，为你挑选了5个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何将一些使用语句设置为不冗余,即使它们是多余的？
                    

                    
                                                
                            
                        
                                                
                        如何解决《如何将一些使用语句设置为不冗余,即使它们是多余的？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        我可以安全地使用Amazon的Elasticsearch和Rails searchkick gem吗？
                    

                    
                                                
                            
                        
                                                
                        如何解决《我可以安全地使用Amazon的Elasticsearch和Railssearchkickgem吗？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Spring @RequestParam和控制器接口
                    

                    
                                                
                        如何解决《Spring@RequestParam和控制器接口》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        将ES6"import"转换为nodejs"require"的正确方法
                    

                    
                                                
                        如何解决《将ES6"import"转换为nodejs"require"的正确方法》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        当另一组CompletableFutures完成后,您如何完成CompletableFuture？
                    

                    
                                                
                        如何解决《当另一组CompletableFutures完成后,您如何完成CompletableFuture？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何访问Angular2中的HTML视频元素
                    

                    
                                                
                        如何解决《如何访问Angular2中的HTML视频元素》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                个性2402852463            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1在哪里可以找到已翻译的Linq to Entity查询到Sql
                
                                
                    2django在已清理的数据上形成预取
                
                                
                    3在Unity插件中使用android jar中的context.getClassLoader.getResaurceAsStream无法访问图像
                
                                
                    4mvn release:在java 8中执行失败 - 添加了javadoc插件
                
                                
                    5使用数组值将数组转换为不同的结构
                
                                
                    6"使用HttpClient根据验证程序,远程证书无效"
                
                                
                    7awk在输出中打印一个额外的行{print $ x}
                
                                
                    8如何为qtcreator编写调试助手？
                
                                
                    9Angular ui-router:按下浏览器中的后退按钮,停止控制器重新加载
                
                                
                    10为什么不能在编译时解决运行时多态？
                
                                
                    11Web服务连接超时和请求超时之间的差异
                
                                
                    12命名列表时使用粘贴
                
                                
                    13ImportError:无法导入名称Pubnub
                
                                
                    14Spring Data是否支持OrientDB？
                
                                
                    15Robolectric测试抛出RuntimeException:java.lang.ClassNotFoundException
                
                                
                    16Spring Security java.lang.IllegalArgumentException:输入中的非十六进制字符
                
                                
                    17为什么我的IF声明不能显示我想要的结果？
                
                                
                    18你如何确认一个字符串只包含Swift中的数字？
                
                                
                    19CSS边框底部的曲线
                
                                
                    20在道具更新时调用组件上的自定义方法