来自我的Spark UI.跳过是什么意思?
通常,这意味着已从缓存中提取数据,并且无需重新执行给定的阶段.它与您的DAG一致,表明下一阶段需要改组(reduceByKey).每当有混乱时,Spark会自动缓存生成的数据:
reduceByKey
Shuffle还会在磁盘上生成大量中间文件.从Spark 1.3开始,这些文件将被保留,直到不再使用相应的RDD并进行垃圾回收.这样做是为了在重新计算谱系时不需要重新创建shuffle文件.