当前位置:  开发笔记 > 编程语言 > 正文

Spark的累加器使我感到困惑。

如何解决《Spark的累加器使我感到困惑。》经验,为你挑选了1个好方法。

我正在练习Apache Spark,但遇到以下问题。

val accum = sc.accumulator( 0, "My Accumulator.")
println (accum)  // print out: 0

sc.parallelize( Array(1, 2, 3, 4, 5) ).foreach( x => accum += x ) 
// sc.parallelize( Array(1, 2, 3, 4, 5) ).foreach( x => accum = accum + x )
println( accum.value ) // print out: 15

这行代码sc.parallelize( Array(1, 2, 3, 4, 5) ).foreach( x => accum += x )运行良好,但是下面注释掉的代码行不通。区别在于:

x => accum += x

x => accum = accum + x

为什么第二个不起作用?



1> zero323..:

无效的三个原因:

    accum 是一个值,因此无法重新分配

    Accumulable类,它是Accumulator仅提供+=方法而不提供方法的基类+

    从worker的角度来看,累加器是只写的,因此您无法读取操作内的值。从理论上讲,该+方法可以accum进行适当的修改,但会造成混乱。

推荐阅读
小白也坚强_177
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有