14赞

来自python worker的错误:/ bin/python:没有名为pyspark的模块

作者：围脖上的博博_771 | 2023-09-11 12:22

如何解决《来自pythonworker的错误:/bin/python:没有名为pyspark的模块》经验，为你挑选了1个好方法。

我正在尝试使用ipython建立一个漂亮的spark开发环境.首先启动ipython,然后:

import findspark
findspark.init()

from pyspark.conf import SparkConf
from pyspark.context import SparkContext
conf = SparkConf()
conf.setMaster('yarn-client')
sc = SparkContext(conf=conf)

这是来自应用程序UI,我可以看到执行程序在工作节点上.

申请ui

但是,当我尝试这个:

rdd = sc.textFile("/LOGS/201511/*/*")
rdd.first()

我明白了:

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 3, d142.dtvhadooptest.com): org.apache.spark.SparkException:
Error from python worker:
  /bin/python: No module named pyspark
PYTHONPATH was:
  /data/sdb/hadoop/yarn/local/usercache/hdfs/filecache/64/spark-assembly-1.4.1.2.3.2.0-2950-hadoop2.7.1.2.3.2.0-2950.jar
java.io.EOFException
        at java.io.DataInputStream.readInt(DataInputStream.java:392)
        at org.apache.spark.api.python.PythonWorkerFactory.startDaemon(PythonWorkerFactory.scala:163)
        at org.apache.spark.api.python.PythonWorkerFactory.createThroughDaemon(PythonWorkerFactory.scala:86)
        at org.apache.spark.api.python.PythonWorkerFactory.create(PythonWorkerFactory.scala:62)
        at org.apache.spark.SparkEnv.createPythonWorker(SparkEnv.scala:130)
        at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:73)
        at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:277)
        at org.apache.spark.rdd.RDD.iterator(RDD.scala:244)
        at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:63)
        at org.apache.spark.scheduler.Task.run(Task.scala:70)
        at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:213)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
        at java.lang.Thread.run(Thread.java:745)

Driver stacktrace:
        at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1273)
        at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1264)
        at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1263)
        at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
        at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47)
        at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1263)
        at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:730)
        at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:730)
        at scala.Option.foreach(Option.scala:236)
        at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:730)
        at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1457)
        at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1418)
        at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:48)

谁能帮我吗？

1> gunererd..：

因此,设置这两个额外配置就可以了.

conf.set('spark.yarn.dist.files','file:/usr/hdp/2.3.2.0-2950/spark/python/lib/pyspark.zip,file:/usr/hdp/2.3.2.0-2950/spark/python/lib/py4j-0.8.2.1-src.zip')
conf.setExecutorEnv('PYTHONPATH','pyspark.zip:py4j-0.8.2.1-src.zip')

推荐阅读

程序员
Bash脚本 - if和else if语句

如何解决《Bash脚本-if和elseif语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#DataGridView复选框已检查事件

如何解决《C#DataGridView复选框已检查事件》经验，为你挑选了1个好方法。 ... [详细]
程序员
在一个站点上区分多种形式以实现自动完成

如何解决《在一个站点上区分多种形式以实现自动完成》经验，为你挑选了0个好方法。 ... [详细]
程序员
找到蒸汽游戏文件夹

如何解决《找到蒸汽游戏文件夹》经验，为你挑选了1个好方法。 ... [详细]
程序员
你可以强制屏幕阅读器将数字作为单独的数字读取吗？

如何解决《你可以强制屏幕阅读器将数字作为单独的数字读取吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
仅当搜索项为偶数时,二进制搜索才会创建infinte循环

如何解决《仅当搜索项为偶数时,二进制搜索才会创建infinte循环》经验，为你挑选了1个好方法。 ... [详细]
程序员
Redis与redis.abc.abc的连接失败-写入EPIPE

如何解决《Redis与redis.abc.abc的连接失败-写入EPIPE》经验，为你挑选了0个好方法。 ... [详细]
程序员
获取用户并填写所有权限

如何解决《获取用户并填写所有权限》经验，为你挑选了0个好方法。 ... [详细]
程序员
C++宏元编程

如何解决《C++宏元编程》经验，为你挑选了2个好方法。 ... [详细]
程序员
Azure AD B2C-多个子域

如何解决《AzureADB2C-多个子域》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过强制转换或Convert.ToSingle()将double转换为float？

如何解决《通过强制转换或Convert.ToSingle()将double转换为float？》经验，为你挑选了1个好方法。 ... [详细]
程序员
VectorDrawable已缩放且不清晰

如何解决《VectorDrawable已缩放且不清晰》经验，为你挑选了1个好方法。 ... [详细]
程序员
我不明白这个表达式树

如何解决《我不明白这个表达式树》经验，为你挑选了1个好方法。 ... [详细]
程序员
C函数,反向字符串

如何解决《C函数,反向字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用sudo:当前用户仍然无法写入注册表目录.为什么？

如何解决《使用sudo:当前用户仍然无法写入注册表目录.为什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
计算特定年份的总周数 - ISO 8601 - VBA Access

如何解决《计算特定年份的总周数-ISO8601-VBAAccess》经验，为你挑选了1个好方法。 ... [详细]
程序员
Swift函数范围 - 引用self(表示"self as the enveloping function")

如何解决《Swift函数范围-引用self(表示"selfastheenvelopingfunction")》经验，为你挑选了0个好方法。 ... [详细]
程序员
WordPress,nginx代理和子目录:wp-login.php重定向到域

如何解决《WordPress,nginx代理和子目录:wp-login.php重定向到域》经验，为你挑选了2个好方法。 ... [详细]
程序员
Django ManyToMany字段的bulk_create的正确方法？

如何解决《DjangoManyToMany字段的bulk_create的正确方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Erlang:检查两个值是否为零的最短方法？

如何解决《Erlang:检查两个值是否为零的最短方法？》经验，为你挑选了1个好方法。 ... [详细]

围脖上的博博_771

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章