14赞

Spark DataFrame Schema Nullable Fields

作者：个性2402852463 | 2023-09-07 09:00

如何解决《SparkDataFrameSchemaNullableFields》经验，为你挑选了1个好方法。

我在Scala和Python中编写了以下代码,但是返回的DataFrame似乎并未应用我正在应用的架构中的非可空字段.italianVotes.csv是一个csv文件,带有'〜'作为分隔符和四个字段.我正在使用Spark 2.1.0.

italianVotes.csv

2657~135~2~2013-11-22 00:00:00.0
2658~142~2~2013-11-22 00:00:00.0
2659~142~1~2013-11-22 00:00:00.0
2660~140~2~2013-11-22 00:00:00.0
2661~140~1~2013-11-22 00:00:00.0
2662~1354~2~2013-11-22 00:00:00.0
2663~1356~2~2013-11-22 00:00:00.0
2664~1353~2~2013-11-22 00:00:00.0
2665~1351~2~2013-11-22 00:00:00.0
2667~1357~2~2013-11-22 00:00:00.0



斯卡拉

import org.apache.spark.sql.types._
val schema =  StructType(
StructField("id", IntegerType, false) ::
StructField("postId", IntegerType, false) ::
StructField("voteType", IntegerType, true) ::
StructField("time", TimestampType, true) :: Nil)

val fileName = "italianVotes.csv"

val italianDF = spark.read.schema(schema).option("sep", "~").csv(fileName)

italianDF.printSchema()

// output
root
 |-- id: integer (nullable = true)
 |-- postId: integer (nullable = true)
 |-- voteType: integer (nullable = true)
 |-- time: timestamp (nullable = true)


蟒蛇

from pyspark.sql.types import *

schema = StructType([
    StructField("id", IntegerType(), False),
    StructField("postId", IntegerType(), False),
    StructField("voteType", IntegerType(), True),
    StructField("time", TimestampType(), True),
])

file_name = "italianVotes.csv"

italian_df = spark.read.csv(file_name, schema = schema, sep = "~")

# print schema
italian_df.printSchema()


root
 |-- id: integer (nullable = true)
 |-- postId: integer (nullable = true)
 |-- voteType: integer (nullable = true)
 |-- time: timestamp (nullable = true)


我的主要问题是,当我在模式中将它们设置为不可为空时,为什么前两个字段可以为空？


1> user6910411..：
通常,Spark Datasets要么nullable从其父项继承属性,要么根据外部数据类型进行推断.

你可以争论它是否是一种好的方法,但最终它是明智的.如果数据源的语义不支持可空性约束,那么模式的应用也不能.在一天结束null时,如果相反的假设结果不正确,那么假设事情可能比运行时失败更好.



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        特定键的映射中的值的总和
                    

                    
                                                
                        如何解决《特定键的映射中的值的总和》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        像Lmax Disruptor一样可以批量观察
                    

                    
                                                
                        如何解决《像LmaxDisruptor一样可以批量观察》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        woocommerce webhooks没有解雇
                    

                    
                                                
                        如何解决《woocommercewebhooks没有解雇》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        while循环使用嵌套的if语句--C
                    

                    
                                                
                        如何解决《while循环使用嵌套的if语句--C》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        IPython Notebook：在下一步之前“实时”显示循环图像
                    

                    
                                                
                        如何解决《IPythonNotebook：在下一步之前“实时”显示循环图像》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Cython中的并行性不起作用
                    

                    
                                                
                        如何解决《Cython中的并行性不起作用》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        C＃错误CS1061：类型“ System.Collections.Generic.List &lt;int&gt;”不包含“长度”的定义
                    

                    
                                                
                        如何解决《C＃错误CS1061：类型“System.Collections.Generic.List&lt;int&gt;”不包含“长度”的定义》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Gstreamer:为什么在显示某些过滤器之前我需要一个视频转换？
                    

                    
                                                
                            
                        
                                                
                        如何解决《Gstreamer:为什么在显示某些过滤器之前我需要一个视频转换？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Reactive Banana 1.0.0  -  MomentIO()Monad中的单元测试
                    

                    
                                                
                        如何解决《ReactiveBanana1.0.0-MomentIO()Monad中的单元测试》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        等到回调
                    

                    
                                                
                        如何解决《等到回调》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        寻找设计模式以减少虚拟方法过载
                    

                    
                                                
                        如何解决《寻找设计模式以减少虚拟方法过载》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        并行聚合集合
                    

                    
                                                
                        如何解决《并行聚合集合》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        有没有更好的方法来填充多个下拉列表？
                    

                    
                                                
                        如何解决《有没有更好的方法来填充多个下拉列表？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        是否可以将std :: array移动到std :: vector中？
                    

                    
                                                
                        如何解决《是否可以将std::array移动到std::vector中？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在div内部进行内联CKEditor滚动？
                    

                    
                                                
                        如何解决《如何在div内部进行内联CKEditor滚动？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        什么放入〜/ .gitconfig来暗示支持它的每个git子命令的--show-signature？
                    

                    
                                                
                        如何解决《什么放入〜/.gitconfig来暗示支持它的每个git子命令的--show-signature？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        滑动抽屉项之间滑动后,TabLayout和ViewPager -Tabs不起作用
                    

                    
                                                
                        如何解决《滑动抽屉项之间滑动后,TabLayout和ViewPager-Tabs不起作用》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Oracle:=和in有一个选项有什么区别？
                    

                    
                                                
                        如何解决《Oracle:=和in有一个选项有什么区别？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Swift将String转换为NSDate将返回nil
                    

                    
                                                
                        如何解决《Swift将String转换为NSDate将返回nil》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        偏移量存储为Kafka时如何检查消费者偏移量？
                    

                    
                                                
                        如何解决《偏移量存储为Kafka时如何检查消费者偏移量？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                个性2402852463            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1Jenkins powershell插件总是成功构建
                
                                
                    2RxJava和Retrofit2:NetworkOnMainThreadException
                
                                
                    3如何使用php从mysql数据库访问特定值？
                
                                
                    4'x << ~y'在JavaScript中代表什么？
                
                                
                    5gulp local和CLI版本不匹配
                
                                
                    6在不使用jQuery的情况下将表转换为JavaScript中的数组
                
                                
                    7重载C++ new运算符时的大小信息
                
                                
                    8Java接口:根据对象类型调用实现类
                
                                
                    9python如何在列表中返回第一个value = true？
                
                                
                    10非控制器类的ActionResult
                
                                
                    11Jquery  - 双击时遇到麻烦,因为课堂上有变化
                
                                
                    12使用WooCommerce产品搜索搜索特定的post_type表单post_type列时出错
                
                                
                    13C++:洛伦兹因子方程
                
                                
                    14D3.js折线图工具提示问题
                
                                
                    15SynchronizationContext.Post的处理顺序
                
                                
                    16从服务器收听iCal事件更改
                
                                
                    17关于更新当前时间戳的Mysql 5.6列在hibernate中不起作用
                
                                
                    18SpriteKit如何获得正确的屏幕尺寸
                
                                
                    19计算php中关联数组中值的出现次数
                
                                
                    20带有notifyAll()的多个线程