10赞

在Amazon EMR上使用Spark时,如何分配驱动程序内存和执行程序内存的大小

作者：贴进你的心聆听你的世界 | 2023-09-06 15:01

如何解决《在AmazonEMR上使用Spark时,如何分配驱动程序内存和执行程序内存的大小》经验，为你挑选了1个好方法。

我使用AWS EMR 5.2实例m4.2x large,包含10个节点,用于使用Spark 2.0.2运行我的Spark应用程序.我用过的属性maximizeResourceAllocation=true.我在spark-defaults.conf中看到我在哪里看到以下属性:

spark.executor.instances         10
spark.executor.cores             16
spark.driver.memory              22342M
spark.executor.memory            21527M
spark.default.parallelism        320

在yarn-site.xml中,我看到yarn.nodemanager.resource.memory-mb=24576(24GB).我只知道spark.executor.instances设置为10,因为我正在使用10个节点集群.但有人可以向我解释如何设置其他属性,如驱动程序内存和执行程序内存的计算方式？我也使用了属性.maximizeResourceAllocation=true这会影响内存吗？

1> FaigB..：

我建议使用Spark in Action这本书.简而言之,执行程序是运行驱动程序传递给它们的任务的容器.群集中的一个节点可以根据资源分配启动多个执行程序.CPU分配可以并行运行任务,因此最好为执行程序提供更多内核.因此,更多CPU核心意味着更多任务槽.执行程序的内存分配应该以合理的方式进行,该方式应该适合YARN容器内存.YARN容器内存> =执行程序内存+执行程序内存开销.

Spark为缓存数据存储和临时shuffle数据保留了该内存的一部分.使用参数spark.storage.memoryFraction(默认值为0.6)和spark.shuffle.memoryFraction(默认值为0.2)为这些设置堆.由于堆的这些部分可以在Spark测量和限制它们之前增长,因此必须设置两个额外的安全参数:( spark.storage.safetyFraction默认值为0.9)和spark.shuffle.safetyFraction(默认值为0.8).安全参数将内存分数降低指定的量.默认情况下用于存储的堆的实际部分是0.6×0.9(安全分数乘以存储内存分数),等于54%.类似地,用于shuffle数据的堆的部分是0.2×0.8(安全分数乘以shuffle memory fraction),等于16%.然后,您有30%的堆保留用于运行任务所需的其他Java对象和资源.但是,你应该只占20%.

驱动程序在执行者之间协调阶段和任务.执行程序的结果将返回给驱动程序,因此驱动程序的内存也应该被视为处理所有可以从所有执行程序收集的数据.

推荐阅读

程序员
将快速结构暴露给ObjC

如何解决《将快速结构暴露给ObjC》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用组运算符时的时间假型而不是ISO8601

如何解决《使用组运算符时的时间假型而不是ISO8601》经验，为你挑选了0个好方法。 ... [详细]
程序员
Find()的Javascript代码优化

如何解决《Find()的Javascript代码优化》经验，为你挑选了0个好方法。 ... [详细]
程序员
矢量化代码时缓存未命中数增加

如何解决《矢量化代码时缓存未命中数增加》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在JavaFX的Textfield中添加提示文本

如何解决《如何在JavaFX的Textfield中添加提示文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
哪个版本的Windows支持/需要哪些CPU多媒体扩展？

如何解决《哪个版本的Windows支持/需要哪些CPU多媒体扩展？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java:如何调用主类中的方法,该方法在另一个扩展抽象类的类中

如何解决《Java:如何调用主类中的方法,该方法在另一个扩展抽象类的类中》经验，为你挑选了1个好方法。 ... [详细]
程序员
大纲文字Android Studio

如何解决《大纲文字AndroidStudio》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用数组作为索引增加numpy数组元素

如何解决《使用数组作为索引增加numpy数组元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
线程安全事件 - 这是一种"干净"的方式吗？

如何解决《线程安全事件-这是一种"干净"的方式吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
DDD-使用Doctrine 2的有界上下文之间的关联映射

如何解决《DDD-使用Doctrine2的有界上下文之间的关联映射》经验，为你挑选了1个好方法。 ... [详细]
程序员
FirefoxDriver始终在"firstrun"页面上启动,打破所有测试脚本

如何解决《FirefoxDriver始终在"firstrun"页面上启动,打破所有测试脚本》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Spark DataFrames查询JSON数据列？

如何解决《如何使用SparkDataFrames查询JSON数据列？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在断开事件中重新连接套接字

如何解决《在断开事件中重新连接套接字》经验，为你挑选了1个好方法。 ... [详细]
程序员
更新Liferay用户锁定

如何解决《更新Liferay用户锁定》经验，为你挑选了1个好方法。 ... [详细]
程序员
Linux内核 - "放置"inode是什么意思？

如何解决《Linux内核-"放置"inode是什么意思？》经验，为你挑选了1个好方法。 ... [详细]
程序员
尝试从命令行获取星号*作为main的输入

如何解决《尝试从命令行获取星号*作为main的输入》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在Swift中调用AWS Lambda函数

如何解决《如何在Swift中调用AWSLambda函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Visual Studio Code中调试从Grunt运行的Jasmine测试？

如何解决《如何在VisualStudioCode中调试从Grunt运行的Jasmine测试？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Symfony 3,DI - 为参数添加服务

如何解决《Symfony3,DI-为参数添加服务》经验，为你挑选了1个好方法。 ... [详细]

贴进你的心聆听你的世界

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章