当前位置:  开发笔记 > 编程语言 > 正文

将pandas与Spark一起使用

如何解决《将pandas与Spark一起使用》经验,为你挑选了1个好方法。

我对火花和熊猫有一个Noob问题.我想用pandas,numpy等...用火花但是当我导入一个lib时我有一个错误.你能帮帮我吗?这是我的代码

from pyspark import SparkContext, SQLContext
from pyspark import SparkConf
import pandas

# Config
conf = SparkConf().setAppName("Script")
sc = SparkContext(conf=conf)
log4j = sc._jvm.org.apache.log4j
log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR)
sqlCtx = SQLContext(sc)

# Importation of csv out of HDFS
data_name = "file_on_hdfs.csv"
data_textfile = sc.textFile(data_name)

这是错误:

ImportError: No module named pandas

我怎么用熊猫?这不是本地模式.



1> 小智..:

Spark拥有自己的Dataframe对象,可以从RDD创建.

您仍然可以使用numpy等库,但必须先安装它们.

推荐阅读
低调pasta_730
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有