我们可以在从HDFS读取数据时使用DataFrame.我在HDFS中有一个制表符分隔数据.
我用Google搜索,但看到它可以与NoSQL数据一起使用
DataFrame当然不仅限于NoSQL数据源.Parquet,ORC和JSON支持本机提供1.4到1.6.1; 使用spark-cvs包支持文本分隔文件.
如果你的tsv文件在HDFS// demo/data中,那么下面的代码会将文件读入DataFrame
sqlContext.read. format("com.databricks.spark.csv"). option("delimiter","\t"). option("header","true"). load("hdfs:///demo/data/tsvtest.tsv").show
要从spark-shell运行代码,请使用以下命令:
--packages com.databricks:spark-csv_2.10:1.4.0
在Spark 2.0中,本机支持csv,因此您应该可以执行以下操作:
spark.read. option("delimiter","\t"). option("header","true"). csv("hdfs:///demo/data/tsvtest.tsv").show