当前位置:  开发笔记 > 编程语言 > 正文

scala数据帧到RDD [array [String]]

如何解决《scala数据帧到RDD[array[String]]》经验,为你挑选了1个好方法。

如何转换具有多列的数据帧我可以获得RDD [org.apache.spark.sql.Row],但我需要一些我可以用于org.apache.spark.mllib.fpm.FPGrowth,ei RDD [Array] [String]]如何转换?

df.head
org.apache.spark.sql.Row = [blabla,128323,23843,11.23,blabla,null,null,..]

df.printSchema    
 |-- source: string (nullable = true)
 |-- b1: string (nullable = true)
 |-- b2: string (nullable = true)
 |-- b3: long (nullable = true)
 |-- amount: decimal(30,2) (nullable = true)
and so on

谢谢



1> Roberto Cong..:

问题很模糊,但一般来说,您可以通过Sequence将RDD从Row更改为Array.以下代码将获取RDD中的所有列,将它们转换为字符串,并将它们作为数组返回.

df.first
res1: org.apache.spark.sql.Row = [blah1,blah2]
df.map { _.toSeq.map {_.toString}.toArray }.first
res2: Array[String] = Array(blah1, blah2)

然而,这可能不足以让它以你想要的方式使用MLib,因为你没有提供足够的细节,但这是一个开始.

推荐阅读
周扒pi
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有