我对火花和熊猫有一个Noob问题.我想用pandas,numpy等...用火花但是当我导入一个lib时我有一个错误.你能帮帮我吗?这是我的代码
from pyspark import SparkContext, SQLContext from pyspark import SparkConf import pandas # Config conf = SparkConf().setAppName("Script") sc = SparkContext(conf=conf) log4j = sc._jvm.org.apache.log4j log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR) sqlCtx = SQLContext(sc) # Importation of csv out of HDFS data_name = "file_on_hdfs.csv" data_textfile = sc.textFile(data_name)
这是错误:
ImportError: No module named pandas
我怎么用熊猫?这不是本地模式.
Spark拥有自己的Dataframe对象,可以从RDD创建.
您仍然可以使用numpy等库,但必须先安装它们.