DataFrame到spark scala中的HDFS

作者：贴进你的心聆听你的世界 | 2023-09-09 18:15

如何解决《DataFrame到sparkscala中的HDFS》经验，为你挑选了1个好方法。

我有一个格式为org.apache.spark.sql.DataFrame = [user_key:string,field1:string]的spark数据框.当我使用saveAsTextFile将文件保存在hdfs结果时,看起来像[12345,xxxxx].我不希望将开始和结束括号写入输出文件.如果我使用.rdd转换为RDD仍然在RDD中存在括号.

谢谢

1> zero323..：

只需连接值和存储字符串:

import org.apache.spark.sql.functions.{concat_ws, col}
import org.apache.spark.sql.Row

val expr = concat_ws(",", df.columns.map(col): _*)
df.select(expr).map(_.getString(0)).saveAsTextFile("some_path")



甚至更好用spark-csv:

selectedData.write
  .format("com.databricks.spark.csv")
  .option("header", "false")
  .save("some_path")


另一种方法是简单地map:

df.rdd.map(_.toSeq.map(_.toString).mkString(","))


然后保存.



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        缺少Type.GetMember和MemberInfo.GetCustomAttributes（C＃PCL .NET 4.6）
                    

                    
                                                
                        如何解决《缺少Type.GetMember和MemberInfo.GetCustomAttributes（C＃PCL.NET4.6）》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        转储Postgres DB，时间和.sql文件的权重
                    

                    
                                                
                        如何解决《转储PostgresDB，时间和.sql文件的权重》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何直接写入模仿scalar_summary的摘要？
                    

                    
                                                
                        如何解决《如何直接写入模仿scalar_summary的摘要？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        更改左侧的ToolBar默认图标
                    

                    
                                                
                            
                        
                                                
                        如何解决《更改左侧的ToolBar默认图标》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        BufferedWriter类的writeLine方法
                    

                    
                                                
                        如何解决《BufferedWriter类的writeLine方法》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        部分索引的局限性是什么？
                    

                    
                                                
                        如何解决《部分索引的局限性是什么？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        我怎样才能简单地添加一个Spring Data REST实体的链接
                    

                    
                                                
                        如何解决《我怎样才能简单地添加一个SpringDataREST实体的链接》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么这个函数返回NaN？
                    

                    
                                                
                        如何解决《为什么这个函数返回NaN？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        由于约束错误,无法在C#中实现VB接口
                    

                    
                                                
                            
                        
                                                
                        如何解决《由于约束错误,无法在C#中实现VB接口》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        从SPARK中的另一个RDD返回最大N值的RDD
                    

                    
                                                
                        如何解决《从SPARK中的另一个RDD返回最大N值的RDD》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Try-catch创建无限循环
                    

                    
                                                
                        如何解决《Try-catch创建无限循环》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        E_UNEXPECTED UWP灾难性失败
                    

                    
                                                
                        如何解决《E_UNEXPECTEDUWP灾难性失败》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何识别向量中一系列NA的索引
                    

                    
                                                
                        如何解决《如何识别向量中一系列NA的索引》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        由2个分支共享的Git rebase 2提交
                    

                    
                                                
                        如何解决《由2个分支共享的Gitrebase2提交》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        一种方法在几种方法中调用
                    

                    
                                                
                        如何解决《一种方法在几种方法中调用》经验，为你挑选了3个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在flask-migrate迁移中自动导入模块
                    

                    
                                                
                        如何解决《如何在flask-migrate迁移中自动导入模块》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        纵向和横向模式下的不同布局
                    

                    
                                                
                            
                        
                                                
                        如何解决《纵向和横向模式下的不同布局》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何将变量从BeforeTest传递给Test annotation
                    

                    
                                                
                        如何解决《如何将变量从BeforeTest传递给Testannotation》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        通过Javascript函数打开和关闭对话框元素
                    

                    
                                                
                        如何解决《通过Javascript函数打开和关闭对话框元素》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        将TextWatcher与自定义适配器连接以通过EditText过滤文本
                    

                    
                                                
                        如何解决《将TextWatcher与自定义适配器连接以通过EditText过滤文本》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                贴进你的心聆听你的世界            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    elasticsearch
                
                                
                    json
                
                                
                    mariadb
                
                                
                    memcached
                
                                
                    mongodb
                
                                
                    mysql
                
                                
                    nosql
                
                                
                    redis
                
                                
                    sql
                
                                
                    sqlite
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1部署到Visual Studio中找不到的Android设备
                
                                
                    2如何压缩我的git分支提交到相同的分支没有变基？
                
                                
                    3如何在android中的文本视图中添加动画
                
                                
                    4如何在Docker Registry v2中创建只读用户？
                
                                
                    5使用服务器端加密上传到S3期间的数据完整性检查
                
                                
                    6Swift.org与开源swift项目的问题.错误:xcrun:错误:无法找到实用程序"launch-with-toolchain",而不是开发人员工具或PATH
                
                                
                    7SmtpClient无法发送; 雷鸟可以
                
                                
                    8将Future [List [String]]转换为List [String]
                
                                
                    9通过JsonConvert和自定义TypeConverter反序列化对象
                
                                
                    10Kafka如何处理运行速度比其他消费者慢的消费者？
                
                                
                    11selenium-server-standalone.jar和chromedriver之间的版本兼容性？
                
                                
                    12来自调试器的Ios Xcode消息:由于内存问题而终止
                
                                
                    13如何在Odoo中重新计算存储的功能字段值？
                
                                
                    14django-pytest setup_method数据库问题
                
                                
                    15CoordinatorLayout + ActionBar + Fragments
                
                                
                    16在yaml的空的领域
                
                                
                    17在R中的行中交换值
                
                                
                    18寻找`if px然后x else empty`构造的概括
                
                                
                    19从Array(保持整数)创建ArrayBuffer并再次返回
                
                                
                    20在错误抛出的上下文中oracle调用和执行之间的区别