当前位置:  开发笔记 > 大数据 > 正文

Spark中的RDD示例

如何解决《Spark中的RDD示例》经验,为你挑选了1个好方法。

RDD SAMPLE如何在spark中工作?它的不同参数的功能是什么,即样本(withReplacement,fraction,seed).

我在网上找不到与'withReplacement'和'seed'参数相关的任何内容.请举例说明.



1> MK...:

分数和种子非常容易猜测 - 它们是您希望在样本中看到的元素的一部分(即.5的样本将为您提供包含一半元素的初始RDD样本).种子是随机数发生器种子.这很重要,因为您可能希望能够为测试硬编码相同的种子,以便在测试中始终获得相同的结果,但在prod代码中将其替换为当前时间(以毫秒为单位)或来自良好熵源的随机数.

随着替换抽样是谷歌搜索,例如https://www.ma.utexas.edu/users/parker/sampling/repl.htm.简而言之,如果您使用替换品进行采样,则可以在样品中获得相同的元素两次,而无需更换,您只能获得一次.因此,如果您的RDD有[Bob,Alice和Carol],那么您的"替换"样本可以是[Alice,Alice],但是没有替换样本不能有这样的重复.


在SO,如果它完全回答了你的问题,你通常会点击左侧的复选标记来接受答案.
推荐阅读
贴进你的心聆听你的世界
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有