为什么我必须明确告诉Spark要缓存什么？

作者：家具销售_903 | 2023-09-10 22:51

如何解决《为什么我必须明确告诉Spark要缓存什么？》经验，为你挑选了1个好方法。

1> zero323..：

一个主观的原因列表:

实际上,很少需要缓存,主要用于迭代算法,打破长谱系.例如,典型的ETL管道可能根本不需要缓存.缓存大多数RDD绝对不是正确的选择.

没有通用的缓存策略.实际选择取决于可用的资源,如内存量,磁盘(本地,远程,存储服务),文件系统(内存,磁盘)和特定应用程序.

磁盘持久性很昂贵,内存持久性会给JVM带来更多压力,并且正在使用Spark中最有价值的资源

如果不对应用程序语义做出假设,就不可能自动缓存.特别是:

数据源更改时的预期行为.没有通用答案,在许多情况下,无法自动跟踪更改

区分确定性和非确定性转换以及在缓存和重新计算之间进行选择

将Spark缓存与OS级别缓存进行比较没有意义.操作系统缓存的主要目标是减少延迟.在Spark中,延迟通常不是最重要的因素,缓存用于其他目的,如一致性,正确性和减少系统不同部分的压力.

如果缓存不使用堆外存储,则缓存会给垃圾收集器带来额外的压力.GC成本实际上可能高于重新计算数据的成本.

取决于数据和缓存方法,从缓存中读取数据可能在内存方面明显降低效率.

缓存会干扰Spark SQL中可用的更高级优化,从而有效地禁用分区修剪或谓词和投影下推.

还值得注意的是:

使用LRU自动处理删除缓存的数据

一些数据(如中间混洗数据)会自动保留.我承认它使一些先前的论点至少部分无效.

Spark缓存不会影响系统级别或JVM级别机制

推荐阅读

程序员
我可以使用TensorFlow测量单个操作的执行时间吗？

如何解决《我可以使用TensorFlow测量单个操作的执行时间吗？》经验，为你挑选了5个好方法。 ... [详细]
程序员
类型动画师的预期资源[ResourceType]

如何解决《类型动画师的预期资源[ResourceType]》经验，为你挑选了1个好方法。 ... [详细]
程序员
Jekyll：在SCSS部分中使用_config.yml中的值

如何解决《Jekyll：在SCSS部分中使用_config.yml中的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用HttpsUrlConnection而不是DefaultHttpClient

如何解决《如何使用HttpsUrlConnection而不是DefaultHttpClient》经验，为你挑选了3个好方法。 ... [详细]
程序员
使用RxAndroid安排

如何解决《使用RxAndroid安排》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Python中创建类的不同实例？

如何解决《如何在Python中创建类的不同实例？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用.translate()从Python 3.x中的字符串中删除标点符号？

如何解决《如何使用.translate()从Python3.x中的字符串中删除标点符号？》经验，为你挑选了3个好方法。 ... [详细]
程序员
Jmeter MarshalException:错误编组参数

如何解决《JmeterMarshalException:错误编组参数》经验，为你挑选了0个好方法。 ... [详细]
程序员
C ++ JSON解串器

如何解决《C++JSON解串器》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何用CSS实现单行省略号

如何解决《如何用CSS实现单行省略号》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何让UITextView检测主题标签？

如何解决《如何让UITextView检测主题标签？》经验，为你挑选了2个好方法。 ... [详细]
程序员
删除重复项而不覆盖hashCode()

如何解决《删除重复项而不覆盖hashCode()》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么OpenCL工作组是三维的？

如何解决《为什么OpenCL工作组是三维的？》经验，为你挑选了1个好方法。 ... [详细]
程序员
BCNF分解算法说明

如何解决《BCNF分解算法说明》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从PySpark中的map方法返回一个空(null？)项？

如何解决《如何从PySpark中的map方法返回一个空(null？)项？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将fmt.Print和log.Print保存到Golang中的同一文件中

如何解决《如何将fmt.Print和log.Print保存到Golang中的同一文件中》经验，为你挑选了1个好方法。 ... [详细]
程序员
处理开始但不显示窗口

如何解决《处理开始但不显示窗口》经验，为你挑选了0个好方法。 ... [详细]
程序员
Heroku Build失败:"node_modules已检入源代码管理"

如何解决《HerokuBuild失败:"node_modules已检入源代码管理"》经验，为你挑选了1个好方法。 ... [详细]
程序员
删除R中一组行中的某些行

如何解决《删除R中一组行中的某些行》经验，为你挑选了1个好方法。 ... [详细]
程序员
django视图从另一个应用程序渲染为模板

如何解决《django视图从另一个应用程序渲染为模板》经验，为你挑选了1个好方法。 ... [详细]

家具销售_903

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章