3赞

无法让pyspark作业在hadoop群集的所有节点上运行

作者：ar_wen2402851455 | 2023-09-10 08:08

如何解决《无法让pyspark作业在hadoop群集的所有节点上运行》经验，为你挑选了1个好方法。

摘要：我无法让我的python-spark作业在hadoop集群的所有节点上运行。我已经安装了hadoop'spark-1.5.2-bin-hadoop2.6'的火花。启动java spark作业时，负载分布在所有节点上，而启动python spark作业时，只有一个节点承担负载。

设置：

为xen虚拟服务器上运行的4个节点配置的hdfs和yarn：nk01（namenode），nk02，nk03，nk04

版本：jdk1.8.0_66，hadoop-2.7.1，spark-1.5.2-bin-hadoop2.6

hadoop已安装所有4个节点

仅在nk01上安装了spark

我将一堆古腾堡文件（谢谢约翰内斯！）复制到hdfs上，并尝试使用Java和python在文件的子集（以'e'开头的文件）上进行单词计数：

Python：

使用自制的python脚本进行字数统计：

/opt/spark/bin/spark-submit wordcount.py --master yarn-cluster \
    --num-executors 4 --executor-cores 1

Python代码分配了4个部分：

tt=sc.textFile('/user/me/gutenberg/text/e*.txt',4)

在60秒内在4个节点上加载：

Java的：

使用在spark发行版中找到的JavaWordCount：

/opt/spark/bin/spark-submit --class JavaWordCount --master yarn-cluster \
    --num-executors 4 jwc.jar '/user/me/gutenberg/text/e*.txt'

结论：java版本将其负载分布在整个群集中，而python版本仅在1个节点上运行。

问题：如何同时获得python版本以在所有节点之间分配负载？

1> WillemM..：

正如肖恩·郭（Shawn Guo）所建议的那样，Python程序名称的位置确实错误。应该以这种方式运行：

/opt/spark/bin/spark-submit --master yarn-cluster --num-executors 4 
       --executor-cores 1 wordcount.py

这会在节点上产生此负载：

推荐阅读

程序员
为什么我需要models.py用于Flask应用程序？

如何解决《为什么我需要models.py用于Flask应用程序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用'gdb'在函数内的特定行中设置断点

如何解决《使用'gdb'在函数内的特定行中设置断点》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法通过Homebrew安装Ruby,Permission denied错误

如何解决《无法通过Homebrew安装Ruby,Permissiondenied错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何解析另一个Observable中的Observable？ - rxjs

如何解决《如何解析另一个Observable中的Observable？-rxjs》经验，为你挑选了1个好方法。 ... [详细]
程序员
UI测试tvOS文本字段

如何解决《UI测试tvOS文本字段》经验，为你挑选了0个好方法。 ... [详细]
程序员
单元测试Angular指令访问外部元素

如何解决《单元测试Angular指令访问外部元素》经验，为你挑选了0个好方法。 ... [详细]
程序员
在键盘上方设置FAB(浮动操作按钮)

如何解决《在键盘上方设置FAB(浮动操作按钮)》经验，为你挑选了1个好方法。 ... [详细]
程序员
根据当前操作系统更新makefile中的CFLAGS或LDFLAGS

如何解决《根据当前操作系统更新makefile中的CFLAGS或LDFLAGS》经验，为你挑选了0个好方法。 ... [详细]
程序员
左移一个正整数给我一个负数

如何解决《左移一个正整数给我一个负数》经验，为你挑选了1个好方法。 ... [详细]
程序员
慢速gulp-inject排除故障

如何解决《慢速gulp-inject排除故障》经验，为你挑选了0个好方法。 ... [详细]
程序员
Roboelectric给了我一个java.lang.IllegalArgumentException:需要INTERNET权限

如何解决《Roboelectric给了我一个java.lang.IllegalArgumentException:需要INTERNET权限》经验，为你挑选了1个好方法。 ... [详细]
程序员
在MATLAB中矢量化线性方程组的解

如何解决《在MATLAB中矢量化线性方程组的解》经验，为你挑选了1个好方法。 ... [详细]
程序员
文件中的字数,c ++

如何解决《文件中的字数,c++》经验，为你挑选了1个好方法。 ... [详细]
程序员
句子的情感分析-正面，负面和中性

如何解决《句子的情感分析-正面，负面和中性》经验，为你挑选了1个好方法。 ... [详细]
程序员
为不透明度和体积编写关键帧插入的脚本

如何解决《为不透明度和体积编写关键帧插入的脚本》经验，为你挑选了1个好方法。 ... [详细]
程序员
与Android 6.0的Adb wifi连接

如何解决《与Android6.0的Adbwifi连接》经验，为你挑选了0个好方法。 ... [详细]
程序员
控制isOpen in angular ui bootstrap

如何解决《控制isOpeninangularuibootstrap》经验，为你挑选了1个好方法。 ... [详细]
程序员
新Azure门户中的"下载发布配置文件"在哪里？

如何解决《新Azure门户中的"下载发布配置文件"在哪里？》经验，为你挑选了3个好方法。 ... [详细]
程序员
Prototype构造函数上下文中的JavaScript类型检查和异常？

如何解决《Prototype构造函数上下文中的JavaScript类型检查和异常？》经验，为你挑选了1个好方法。 ... [详细]
程序员
来自splm的乳胶回归表

如何解决《来自splm的乳胶回归表》经验，为你挑选了0个好方法。 ... [详细]

ar_wen2402851455

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章