序列文件用于存储键值对,因此您无法简单地存储RDD[String]
.根据你的数据,我猜你正在寻找这样的东西:
rdd = sc.parallelize([ "2,Fitness", "3,Footwear", "4,Apparel" ]) rdd.map(lambda x: tuple(x.split(",", 1))).saveAsSequenceFile("testSeq")
如果你想保持整个字符串只需使用None
键:
rdd.map(lambda x: (None, x)).saveAsSequenceFile("testSeqNone")