当前位置:  开发笔记 > 编程语言 > 正文

没有模块名称pyspark错误

如何解决《没有模块名称pyspark错误》经验,为你挑选了2个好方法。

这是我正在遵循的教程中的确切代码.我的同学没有用相同的代码得到这个错误:

ImportError                                Traceback (most recent call last)

 in ()
----> 1 from pyspark import SparkContext
      2 sc = SparkContext('local', 'Exam_3')
      3 
      4 from pyspark.sql import SQLContext
      5 sqlContext = SQLContext(sc)

ImportError: No module named pyspark

这是代码:

from pyspark import SparkContext
sc = SparkContext('local', 'Exam_3')
from pyspark.sql import SQLContext    
sqlContext = SQLContext(sc)
data = sc.textFile("exam3")
parsedData = data.map(lambda line: [float(x) for x in line.split(',')])
retail = sqlContext.createDataFrame(parsedData, 
     ['category_name','product_id', 'product_name', 'product_price'])
retail.registerTempTable("exam3")
print parsedData.take(3)

Nathaniel Fo.. 16

您没有pyspark安装在您正在使用的python安装的可用位置.要确认这一点,请在命令行终端上virtualenv激活,输入REPL(python)并键入import pyspark:

$ python
Python 3.5.0 (default, Dec  3 2015, 09:58:14) 
[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.1.76)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import pyspark
Traceback (most recent call last):
  File "", line 1, in 
ImportError: No module named 'pyspark'

如果您看到No module name 'pyspark'ImportError,则需要安装该库.退出REPL并键入:

pip install pyspark

然后重新输入repl以确认它是否有效:

$ python
Python 3.5.0 (default, Dec  3 2015, 09:58:14) 
[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.1.76)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import pyspark
>>>

需要注意的是,激活虚拟环境至关重要.在虚拟环境的目录中时:

$ source bin/activate

这些说明适用于基于unix的计算机,并且因Windows而异.



1> Nathaniel Fo..:

您没有pyspark安装在您正在使用的python安装的可用位置.要确认这一点,请在命令行终端上virtualenv激活,输入REPL(python)并键入import pyspark:

$ python
Python 3.5.0 (default, Dec  3 2015, 09:58:14) 
[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.1.76)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import pyspark
Traceback (most recent call last):
  File "", line 1, in 
ImportError: No module named 'pyspark'

如果您看到No module name 'pyspark'ImportError,则需要安装该库.退出REPL并键入:

pip install pyspark

然后重新输入repl以确认它是否有效:

$ python
Python 3.5.0 (default, Dec  3 2015, 09:58:14) 
[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.1.76)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import pyspark
>>>

需要注意的是,激活虚拟环境至关重要.在虚拟环境的目录中时:

$ source bin/activate

这些说明适用于基于unix的计算机,并且因Windows而异.



2> DavidWayne..:

您可以用来findspark在运行时访问spark。通常findspark会找到您安装了spark的目录,但是如果安装在非标准位置,则可以将其指向正确的目录。一旦安装findspark,如果/path/to/spark_home只是安装了spark

import findspark
findspark.init('/path/to/spark_home')

在脚本/笔记本的最上方,您现在应该可以访问pyspark模块。

推荐阅读
coco2冰冰
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有