Spark中的RDD示例

作者：贴进你的心聆听你的世界 | 2023-09-06 17:54

如何解决《Spark中的RDD示例》经验，为你挑选了1个好方法。

RDD SAMPLE如何在spark中工作？它的不同参数的功能是什么,即样本(withReplacement,fraction,seed).

我在网上找不到与'withReplacement'和'seed'参数相关的任何内容.请举例说明.

1> MK...：

分数和种子非常容易猜测 - 它们是您希望在样本中看到的元素的一部分(即.5的样本将为您提供包含一半元素的初始RDD样本).种子是随机数发生器种子.这很重要,因为您可能希望能够为测试硬编码相同的种子,以便在测试中始终获得相同的结果,但在prod代码中将其替换为当前时间(以毫秒为单位)或来自良好熵源的随机数.

随着替换抽样是谷歌搜索,例如https://www.ma.utexas.edu/users/parker/sampling/repl.htm.简而言之,如果您使用替换品进行采样,则可以在样品中获得相同的元素两次,而无需更换,您只能获得一次.因此,如果您的RDD有[Bob,Alice和Carol],那么您的"替换"样本可以是[Alice,Alice],但是没有替换样本不能有这样的重复.

在SO,如果它完全回答了你的问题,你通常会点击左侧的复选标记来接受答案.

推荐阅读

程序员
尽管在表创建/更改后创建了还原点,但"表定义已更改"

如何解决《尽管在表创建/更改后创建了还原点,但"表定义已更改"》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何考虑请求和响应范围标头流式传输视频或文件？

如何解决《如何考虑请求和响应范围标头流式传输视频或文件？》经验，为你挑选了2个好方法。 ... [详细]
程序员
当其shared_ptr被销毁时,weak_ptr会发生什么？

如何解决《当其shared_ptr被销毁时,weak_ptr会发生什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用sbt编译spark项目时未解决的依赖问题

如何解决《使用sbt编译spark项目时未解决的依赖问题》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用Powershell在远程数据库上运行Entity Framework 7迁移？

如何解决《如何使用Powershell在远程数据库上运行EntityFramework7迁移？》经验，为你挑选了1个好方法。 ... [详细]
程序员
金属中的大块渲染

如何解决《金属中的大块渲染》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从visual studio 2013的输出窗口中显示"排除未选择构建此解决方案配置的项目"消息

如何解决《如何从visualstudio2013的输出窗口中显示"排除未选择构建此解决方案配置的项目"消息》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在不使用边框的情况下更改a-tag的下划线厚度？

如何解决《如何在不使用边框的情况下更改a-tag的下划线厚度？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python群集的“纯度”指标

如何解决《Python群集的“纯度”指标》经验，为你挑选了1个好方法。 ... [详细]
程序员
Apache Flink中的并行度

如何解决《ApacheFlink中的并行度》经验，为你挑选了1个好方法。 ... [详细]
程序员
删除R中数据框中所有列名的前两个字符

如何解决《删除R中数据框中所有列名的前两个字符》经验，为你挑选了1个好方法。 ... [详细]
程序员
XPathEvalError:lxml中matches()的未注册函数

如何解决《XPathEvalError:lxml中matches()的未注册函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
参数化类型的方法在制作通用接口工厂时不得使用本地符号错误

如何解决《参数化类型的方法在制作通用接口工厂时不得使用本地符号错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过.ajax以base64编码发布图像？

如何解决《如何通过.ajax以base64编码发布图像？》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以为Safari View Controller提供自定义标头

如何解决《是否可以为SafariViewController提供自定义标头》经验，为你挑选了0个好方法。 ... [详细]
程序员
std ::为2D点设置自定义比较器

如何解决《std::为2D点设置自定义比较器》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用pandas创建虚拟变量时,Jupyter笔记本内核会死掉

如何解决《使用pandas创建虚拟变量时,Jupyter笔记本内核会死掉》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将.each()中的值推送到jQuery中的一个数组？

如何解决《如何将.each()中的值推送到jQuery中的一个数组？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Imageview上有selectableItemBackground？

如何解决《如何在Imageview上有selectableItemBackground？》经验，为你挑选了1个好方法。 ... [详细]
程序员
scipy.ndimage.interpolation.zoom使用类似最近邻居的算法进行缩减

如何解决《scipy.ndimage.interpolation.zoom使用类似最近邻居的算法进行缩减》经验，为你挑选了0个好方法。 ... [详细]

贴进你的心聆听你的世界

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章