这是我正在遵循的教程中的确切代码.我的同学没有用相同的代码得到这个错误:
ImportError Traceback (most recent call last)in () ----> 1 from pyspark import SparkContext 2 sc = SparkContext('local', 'Exam_3') 3 4 from pyspark.sql import SQLContext 5 sqlContext = SQLContext(sc) ImportError: No module named pyspark
这是代码:
from pyspark import SparkContext sc = SparkContext('local', 'Exam_3') from pyspark.sql import SQLContext sqlContext = SQLContext(sc) data = sc.textFile("exam3") parsedData = data.map(lambda line: [float(x) for x in line.split(',')]) retail = sqlContext.createDataFrame(parsedData, ['category_name','product_id', 'product_name', 'product_price']) retail.registerTempTable("exam3") print parsedData.take(3)
Nathaniel Fo.. 16
您没有pyspark
安装在您正在使用的python安装的可用位置.要确认这一点,请在命令行终端上virtualenv
激活,输入REPL(python
)并键入import pyspark
:
$ python Python 3.5.0 (default, Dec 3 2015, 09:58:14) [GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.1.76)] on darwin Type "help", "copyright", "credits" or "license" for more information. >>> import pyspark Traceback (most recent call last): File "", line 1, in ImportError: No module named 'pyspark'
如果您看到No module name 'pyspark'
ImportError,则需要安装该库.退出REPL并键入:
pip install pyspark
然后重新输入repl以确认它是否有效:
$ python Python 3.5.0 (default, Dec 3 2015, 09:58:14) [GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.1.76)] on darwin Type "help", "copyright", "credits" or "license" for more information. >>> import pyspark >>>
需要注意的是,激活虚拟环境至关重要.在虚拟环境的目录中时:
$ source bin/activate
这些说明适用于基于unix的计算机,并且因Windows而异.
您没有pyspark
安装在您正在使用的python安装的可用位置.要确认这一点,请在命令行终端上virtualenv
激活,输入REPL(python
)并键入import pyspark
:
$ python Python 3.5.0 (default, Dec 3 2015, 09:58:14) [GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.1.76)] on darwin Type "help", "copyright", "credits" or "license" for more information. >>> import pyspark Traceback (most recent call last): File "", line 1, in ImportError: No module named 'pyspark'
如果您看到No module name 'pyspark'
ImportError,则需要安装该库.退出REPL并键入:
pip install pyspark
然后重新输入repl以确认它是否有效:
$ python Python 3.5.0 (default, Dec 3 2015, 09:58:14) [GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.1.76)] on darwin Type "help", "copyright", "credits" or "license" for more information. >>> import pyspark >>>
需要注意的是,激活虚拟环境至关重要.在虚拟环境的目录中时:
$ source bin/activate
这些说明适用于基于unix的计算机,并且因Windows而异.
您可以用来findspark
在运行时访问spark。通常findspark
会找到您安装了spark的目录,但是如果安装在非标准位置,则可以将其指向正确的目录。一旦安装findspark
,如果/path/to/spark_home
只是安装了spark
import findspark findspark.init('/path/to/spark_home')
在脚本/笔记本的最上方,您现在应该可以访问pyspark模块。