19赞

Google Cloud Dataproc配置问题

作者：pan2502851807 | 2023-09-10 19:44

如何解决《GoogleCloudDataproc配置问题》经验，为你挑选了1个好方法。

我一直在遇到一些Spark LDA主题建模中的各种问题(主要是看似随机间隔的解除错误)我一直在运行,我认为这主要与我的执行器上的内存分配不足有关.这似乎与有问题的自动群集配置有关.我的最新尝试使用n1-standard-8机器(8核,30GB RAM)用于主节点和工作节点(6个工作站,因此总共48个核心).

但是当我看到时,/etc/spark/conf/spark-defaults.conf我看到了这个:

spark.master yarn-client
spark.eventLog.enabled true
spark.eventLog.dir hdfs://cluster-3-m/user/spark/eventlog

# Dynamic allocation on YARN
spark.dynamicAllocation.enabled true
spark.dynamicAllocation.minExecutors 1
spark.dynamicAllocation.initialExecutors 100000
spark.dynamicAllocation.maxExecutors 100000
spark.shuffle.service.enabled true
spark.scheduler.minRegisteredResourcesRatio 0.0

spark.yarn.historyServer.address cluster-3-m:18080
spark.history.fs.logDirectory hdfs://cluster-3-m/user/spark/eventlog

spark.executor.cores 4
spark.executor.memory 9310m
spark.yarn.executor.memoryOverhead 930

# Overkill
spark.yarn.am.memory 9310m
spark.yarn.am.memoryOverhead 930

spark.driver.memory 7556m
spark.driver.maxResultSize 3778m
spark.akka.frameSize 512

# Add ALPN for Bigtable
spark.driver.extraJavaOptions -Xbootclasspath/p:/usr/local/share/google/alpn/alpn-boot-8.1.3.v20150130.jar
spark.executor.extraJavaOptions -Xbootclasspath/p:/usr/local/share/google/alpn/alpn-boot-8.1.3.v20150130.jar

但这些价值观没有多大意义.为什么只使用4/8执行器核心？并且只有9.3/30GB RAM？我的印象是所有这些配置都应该自动处理,但即使是我手动调整的尝试也没有让我到处都是.

例如,我尝试使用以下命令启动shell:

spark-shell --conf spark.executor.cores=8 --conf spark.executor.memory=24g

但后来失败了

java.lang.IllegalArgumentException: Required executor memory (24576+930 MB) is above the max threshold (22528 MB) of this cluster! Please increase the value of 'yarn.scheduler.maximum-allocation-mb'.

我尝试更改相关值/etc/hadoop/conf/yarn-site.xml,无效.即使我尝试不同的群集设置(例如使用具有60+ GB RAM的执行程序),我也会遇到同样的问题.出于某种原因,最大阈值保持在22528MB.

我在这里做错了什么,或者这是谷歌自动配置的问题？

1> Dennis Huo..：

群集中的默认内存配置存在一些已知问题,其中主机类型与工作机类型不同,但在您的情况下似乎不是主要问题.

当您看到以下内容时:

spark.executor.cores 4
spark.executor.memory 9310m

这实际上意味着每个工作节点将运行2个执行程序,每个执行程序将使用4个核心,这样所有8个核心确实在每个工作程序上用完.这样,如果我们将AppMaster给予一台机器的一半,AppMaster就可以成功地打包在执行程序旁边.

给NodeManager的内存量需要为NodeManager守护进程本身和misc留下一些开销.其他守护进程服务,如DataNode,所以~80%留给NodeManagers.此外,分配必须是最小YARN分配的倍数,因此在铺设到最近的分配倍数之后,这就是22528MB来自n1-standard-8的地方.

如果添加具有60 GB以上RAM的工作程序,则只要使用相同内存大小的主节点,就应该看到更高的最大阈值数.

无论哪种方式,如果你看到OOM问题,那么内存每个执行程序并不是最重要的,而是每个任务的内存.如果你spark.executor.cores在同一时间增加spark.executor.memory,那么每个任务的内存实际上并没有增加,所以在这种情况下你不会给你的应用程序逻辑提供更多的空间; Spark将用于spark.executor.cores确定在同一内存空间中运行的并发任务数.

要实际为每个任务获得更多内存,您应该主要尝试:

使用n1-highmem-*机器类型

尝试减少 spark.executor.cores,同时保持spark.executor.memory相同

尝试增加spark.executor.memory,同时保留spark.executor.cores

如果您执行上面的(2)或(3),那么与尝试占用所有内核的默认配置相比,您确实会让内核空闲,但这实际上是除了转到highmem实例之外每个任务获得更多内存的唯一方法.

推荐阅读

程序员
如何实现Typescript异步等待模式:Promise在哪里

如何解决《如何实现Typescript异步等待模式:Promise在哪里》经验，为你挑选了0个好方法。 ... [详细]
程序员
最佳优先搜索和A*搜索之间有什么区别？

如何解决《最佳优先搜索和A*搜索之间有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Laravel 5.1中使用NOT FIND_IN_SET？

如何解决《如何在Laravel5.1中使用NOTFIND_IN_SET？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法理解序列的类型[Just,Just]

如何解决《无法理解序列的类型[Just,Just]》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Amazon Linux上安装OpenCV？

如何解决《如何在AmazonLinux上安装OpenCV？》经验，为你挑选了1个好方法。 ... [详细]
程序员
.fadeOut()不起作用

如何解决《.fadeOut()不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
Unity 5.3:UnitEngine.Application.loadedLevel的等价物是什么？

如何解决《Unity5.3:UnitEngine.Application.loadedLevel的等价物是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Pycharm和Kivy中使用while循环

如何解决《在Pycharm和Kivy中使用while循环》经验，为你挑选了0个好方法。 ... [详细]
程序员
如果字段数组和参数数组相交,则过滤MongoDb集合

如何解决《如果字段数组和参数数组相交,则过滤MongoDb集合》经验，为你挑选了1个好方法。 ... [详细]
程序员
不会执行php 7文件而不是执行

如何解决《不会执行php7文件而不是执行》经验，为你挑选了0个好方法。 ... [详细]
程序员
Viewmodel没有定义键

如何解决《Viewmodel没有定义键》经验，为你挑选了1个好方法。 ... [详细]
程序员
git-lfs:致命:无法处理这么大的文件(4.3G)

如何解决《git-lfs:致命:无法处理这么大的文件(4.3G)》经验，为你挑选了0个好方法。 ... [详细]
程序员
Common Lisp中struct和class的区别

如何解决《CommonLisp中struct和class的区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
Swift NSEvent无法正常工作

如何解决《SwiftNSEvent无法正常工作》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何配置ESLint以允许胖箭头类方法

如何解决《如何配置ESLint以允许胖箭头类方法》经验，为你挑选了4个好方法。 ... [详细]
程序员
将零添加到列表中

如何解决《将零添加到列表中》经验，为你挑选了1个好方法。 ... [详细]
程序员
ruby 2.3安全运算符"&."之间的差异.和CoffeeScript存在运算符".？"

如何解决《ruby2.3安全运算符"&."之间的差异.和CoffeeScript存在运算符".？"》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何优化1000个MySQL查询？

如何解决《如何优化1000个MySQL查询？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过Intellij的查找功能替换整行代码？

如何解决《如何通过Intellij的查找功能替换整行代码？》经验，为你挑选了2个好方法。 ... [详细]
程序员
需要在数组中找到唯一的数字

如何解决《需要在数组中找到唯一的数字》经验，为你挑选了1个好方法。 ... [详细]

pan2502851807

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章