溢出到磁盘并随机写入火花

作者：手机用户2502851955 | 2023-09-07 11:44

如何解决《溢出到磁盘并随机写入火花》经验，为你挑选了1个好方法。

我越来越感到困惑spill to disk和shuffle write.使用默认的Sort shuffle管理器,我们使用appendOnlyMapfor聚合和组合分区记录,对吗？然后当执行内存填满时,我们开始排序地图,将其溢出到磁盘,然后清理地图以进行下一次泄漏(如果发生),我的问题是:

溢出到磁盘和shuffle写入有什么区别？它们主要包括在本地文件系统上创建文件以及记录.

承认是不同的,因此Spill记录被排序,因为它们通过地图传递,而不是随机写入记录,因为它们没有从地图传递.

我有一个想法,溢出文件的总大小,应该等于Shuffle写的大小,也许我错过了一些东西,请帮助理解那个阶段.

谢谢.

乔治

1> Yaron..：

spill to disk并且shuffle write是两件不同的事情

spill to disk- 数据从主机RAM移动到主机磁盘 - 在计算机上没有足够的RAM时使用,并将其部分RAM放入磁盘

http://spark.apache.org/faq.html

我的数据是否需要适合内存才能使用Spark？

不会.如果Spark的运算符不适合内存,它会将数据溢出到磁盘,从而可以在任何大小的数据上运行良好.同样,不适合内存的缓存数据集要么溢出到磁盘,要么在需要时动态重新计算,这由RDD的存储级别决定.

shuffle write- 数据从执行程序移动到另一个执行程序 - 在数据需要在执行程序之间移动时使用(例如,由于JOIN,groupBy等)

可在此处找到更多数据:

https://0x0fff.com/spark-architecture-shuffle/

http://blog.cloudera.com/blog/2015/05/working-with-apache-spark-or-how-i-learned-to-stop-worrying-and-love-the-shuffle/

边缘案例可能有助于解决此问题:

你有10个遗嘱执行人

每个执行器具有100GB RAM

数据大小为1280MB,分为10个分区

每个执行器都拥有128MB的数据.

假设数据包含一个密钥,Performing groupByKey,将把所有数据放入一个分区.Shuffle size将是9*128MB(9个执行者将他们的数据转移到最后一个执行者),并且没有任何spill to disk因为执行者有100GB的RAM和只有1GB的数据

关于AppendOnlyMap:

如AppendOnlyMap代码中所写(参见上文) - 此函数是针对仅附加用例优化的简单开放哈希表的低级实现,其中键永远不会被删除,但每个键的值可能会更改.

两个不同模块使用相同的低级功能的事实并不意味着这些功能在高级别中是相关的.

推荐阅读

程序员
Golang导入包内包

如何解决《Golang导入包内包》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用PyDrive(Python)访问文件夹,子文件夹和子文件

如何解决《使用PyDrive(Python)访问文件夹,子文件夹和子文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
你为什么要在AngularJS中使用lodash？

如何解决《你为什么要在AngularJS中使用lodash？》经验，为你挑选了1个好方法。 ... [详细]
程序员
用于线程池的lambda函数内的编译器错误变量"未捕获"

如何解决《用于线程池的lambda函数内的编译器错误变量"未捕获"》经验，为你挑选了1个好方法。 ... [详细]
程序员
Amazon AWS S3通过Wget签名URL

如何解决《AmazonAWSS3通过Wget签名URL》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在tableViewCell中运行imagePicker

如何解决《如何在tableViewCell中运行imagePicker》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Parse Twitter/Facebook身份验证注销或切换帐户

如何解决《使用ParseTwitter/Facebook身份验证注销或切换帐户》经验，为你挑选了0个好方法。 ... [详细]
程序员
尝试语句语法

如何解决《尝试语句语法》经验，为你挑选了0个好方法。 ... [详细]
程序员
Webpack热模块替换服务器代码

如何解决《Webpack热模块替换服务器代码》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将svg集中在div容器中

如何解决《如何将svg集中在div容器中》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Greasemonkey/Tampermonkey保存数据以便以后检索

如何解决《使用Greasemonkey/Tampermonkey保存数据以便以后检索》经验，为你挑选了1个好方法。 ... [详细]
程序员
试图理解Django源代码和缺少参数TypeError的原因

如何解决《试图理解Django源代码和缺少参数TypeError的原因》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何切割Python列表,以便将列移动为单独的元素列？

如何解决《如何切割Python列表,以便将列移动为单独的元素列？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将getUserMedia流式传输到服务器

如何解决《将getUserMedia流式传输到服务器》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spark Job错误:YarnAllocator:退出状态:-100.诊断:在*lost*节点上发布容器

如何解决《SparkJob错误:YarnAllocator:退出状态:-100.诊断:在*lost*节点上发布容器》经验，为你挑选了0个好方法。 ... [详细]
程序员
F#中严格的通用枚举转换

如何解决《F#中严格的通用枚举转换》经验，为你挑选了1个好方法。 ... [详细]
程序员
在vim中使用tsconfig.json进行tsc with syntastic

如何解决《在vim中使用tsconfig.json进行tscwithsyntastic》经验，为你挑选了1个好方法。 ... [详细]
程序员
在混合Android应用程序中导航时,在chrome设备中看到多个分离的webview实例

如何解决《在混合Android应用程序中导航时,在chrome设备中看到多个分离的webview实例》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过基于两列随机选择值来子集数据帧

如何解决《通过基于两列随机选择值来子集数据帧》经验，为你挑选了1个好方法。 ... [详细]
程序员
旋转UIButton 360度

如何解决《旋转UIButton360度》经验，为你挑选了4个好方法。 ... [详细]

手机用户2502851955

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章