当前位置:  开发笔记 > 编程语言 > 正文

将RDD保存为pyspark中的序列文件

如何解决《将RDD保存为pyspark中的序列文件》经验,为你挑选了1个好方法。



1> zero323..:

序列文件用于存储键值对,因此您无法简单地存储RDD[String].根据你的数据,我猜你正在寻找这样的东西:

rdd = sc.parallelize([
    "2,Fitness", "3,Footwear", "4,Apparel"
])
rdd.map(lambda x: tuple(x.split(",", 1))).saveAsSequenceFile("testSeq")

如果你想保持整个字符串只需使用None键:

rdd.map(lambda x: (None, x)).saveAsSequenceFile("testSeqNone")

推荐阅读
周扒pi
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有