针对DStream的Spark流检查点

作者：echo7111436 | 2023-09-08 17:55

如何解决《针对DStream的Spark流检查点》经验，为你挑选了1个好方法。

在Spark Streaming中,可以(并且必须使用有状态操作)将StreamingContext检查点设置为(AND)的可靠数据存储(S3,HDFS,...):

元数据

DStream 血统

如上所述这里,设置输出数据存储需要调用yourSparkStreamingCtx.checkpoint(datastoreURL)

另一方面,可以DataStream通过调用checkpoint(timeInterval)它们来为每个设置谱系检查点间隔.实际上,建议将谱系检查点间隔设置为DataStream滑动间隔的5到10倍:

dstream.checkpoint(checkpointInterval).通常,DStream的5-10个滑动间隔的检查点间隔是一个很好的设置.

我的问题是:

当流上下文设置为执行检查点并且没有ds.checkpoint(interval)被调用时,是否为所有数据流启用了谱系检查点,默认值checkpointInterval等于batchInterval？或者,相反,只有元数据检查点启用了什么？

1> Pablo Franci..：

检查Spark代码(v1.5)我发现DStream在两种情况下启用了s'检查点:

通过显式调用他们的checkpoint方法(不是StreamContext):

/**
* Enable periodic checkpointing of RDDs of this DStream
* @param interval Time interval after which generated RDD will be checkpointed
*/
def checkpoint(interval: Duration): DStream[T] = {
    if (isInitialized) {
        throw new UnsupportedOperationException(
            "Cannot change checkpoint interval of an DStream after streaming context has started")
    }
    persist()
    checkpointDuration = interval
    this
}

在DStream初始化时,只要具体的'DStream'子类具有重写mustCheckpoint属性(将其设置为true):

 private[streaming] def initialize(time: Time) {
  ...
  ...   
   // Set the checkpoint interval to be slideDuration or 10 seconds, which ever is larger
   if (mustCheckpoint && checkpointDuration == null) {
     checkpointDuration = slideDuration * math.ceil(Seconds(10) / slideDuration).toInt
     logInfo("Checkpoint interval automatically set to " + checkpointDuration)
   }
  ...

第一种情况很明显.对Spark Streaming代码执行简单的分析:

grep "val mustCheckpoint = true" $(find -type f -name "*.scala")

> ./org/apache/spark/streaming/api/python/PythonDStream.scala:  override     val mustCheckpoint = true
>./org/apache/spark/streaming/dstream/ReducedWindowedDStream.scala:  override val mustCheckpoint = true
>./org/apache/spark/streaming/dstream/StateDStream.scala:  override val mustCheckpoint = true

我可以发现,通常(忽略PythonDStream),StreamingContext检查点仅启用StateDStream和ReducedWindowedDStream实例的谱系检查点.这些实例是转换的结果(分别为AND):

updateStateByKey:即通过多个窗口提供状态的流.

reduceByKeyAndWindow

推荐阅读

程序员
WinSCP .NET程序集:如何下载目录

如何解决《WinSCP.NET程序集:如何下载目录》经验，为你挑选了0个好方法。 ... [详细]
程序员
确定最大开放空间的高效算法

如何解决《确定最大开放空间的高效算法》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果孩子的总数是偶数,如何将样式添加到倒数第二？

如何解决《如果孩子的总数是偶数,如何将样式添加到倒数第二？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Jupyter和Common Lisp

如何解决《Jupyter和CommonLisp》经验，为你挑选了1个好方法。 ... [详细]
程序员
即时添加/删除组件

如何解决《即时添加/删除组件》经验，为你挑选了1个好方法。 ... [详细]
程序员
滚动淡出div

如何解决《滚动淡出div》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何按顺序刷新IPython Notebook中的图？

如何解决《如何按顺序刷新IPythonNotebook中的图？》经验，为你挑选了0个好方法。 ... [详细]
程序员
扩展"读取"式行为

如何解决《扩展"读取"式行为》经验，为你挑选了1个好方法。 ... [详细]
程序员
将前导零添加到varchar字段

如何解决《将前导零添加到varchar字段》经验，为你挑选了2个好方法。 ... [详细]
程序员
在swift中将阴影应用于导航栏

如何解决《在swift中将阴影应用于导航栏》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何调试React Router？

如何解决《如何调试ReactRouter？》经验，为你挑选了1个好方法。 ... [详细]
程序员
更快地解析代码文件

如何解决《更快地解析代码文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
让Spark,Java和MongoDB协同工作

如何解决《让Spark,Java和MongoDB协同工作》经验，为你挑选了0个好方法。 ... [详细]
程序员
记录Tomcat服务器的所有HTTP请求？

如何解决《记录Tomcat服务器的所有HTTP请求？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在方法参数中使用NotNull Annotation

如何解决《在方法参数中使用NotNullAnnotation》经验，为你挑选了4个好方法。 ... [详细]
程序员
是否可以使用window.onerror获取局部变量和参数值

如何解决《是否可以使用window.onerror获取局部变量和参数值》经验，为你挑选了2个好方法。 ... [详细]
程序员
检查excel 2010 vba中是否存在目录

如何解决《检查excel2010vba中是否存在目录》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何动态转换为使用Swift 2.0在字符串中命名的Type？

如何解决《如何动态转换为使用Swift2.0在字符串中命名的Type？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Cycle.js HTTP在添加加载指示符后发送多个请求

如何解决《Cycle.jsHTTP在添加加载指示符后发送多个请求》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何获取materializecss复选框以使用@ Html.CheckBoxFor？

如何解决《如何获取materializecss复选框以使用@Html.CheckBoxFor？》经验，为你挑选了1个好方法。 ... [详细]

echo7111436

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章