如何使用Map/Reduce选择随机(小)数据样本？

作者：360691894_8a5c48 | 2023-08-06 02:18

如何解决《如何使用Map/Reduce选择随机(小)数据样本？》经验，为你挑选了2个好方法。

我想编写一个map/reduce作业,根据行级条件从大型数据集中选择一些随机样本.我想最小化中间键的数量.

伪代码:

for each row 
  if row matches condition
    put the row.id in the bucket if the bucket is not already large enough

你做过这样的事吗？有没有众所周知的算法？

包含连续行的样本也足够好.

谢谢.

1> Karl Anderso..：

映射器:输出所有符合条件的值,每个值都带有一个随机整数键.

单个减速器:输出前N个值,丢弃键.

分拣机将为您随机化映射器输出顺序.您不知道映射器将找到多少个限定值,因此每个映射器必须从其分区输出所有合格值.

总的来说,我喜欢建立这样简单的映射器/缩减器工具,尽可能多地使用Hadoop机器; 我最终在不同的任务中重复使用它们.

2> Bkkbrad..：

Karl的方法运行得很好,但我们可以大大减少映射器生成的数据量.

设K为您想要的样本数.我们假设它足够小,可以保存在你的一个节点上.我们将为每个匹配的行分配一个随机值,然后使用选择算法的修改来查找K个最小值.

在每个映射器的设置部分,创建一个优先级队列 ; 一个Fibonnacci堆是一个很好的选择.我们将使用花车作为优先事项; 如果你有大量的数据,双打可能更适合避免存在关系.对于符合条件的每一行,将该行插入优先级队列,并将随机选择的0到1之间的浮点作为优先级.如果队列中有多个K项,请删除最高值的项(这与标准Fibonnacci堆的术语相反).

最后,在映射器的末尾,发出队列中的所有内容.对于您发出的每个项目,使用优先级作为键FloatWritable,并将相应行的某些表示用作值(行ID,或者可能是整行内容).您将仅为每个映射器发射K值(如果该映射器中的匹配行少于K个,则为更少).

在您的单个减速器中,Hadoop将按照从最低到最高的顺序自动扫描键.发出与您看到的第一个K键对应的行(K最低),然后退出.

这是有效的,因为每个匹配行具有K个最小浮点值之一的相同概率.我们跟踪每个映射器的K个最小浮点数,以确保我们不会错过任何映射器,然后将它们发送到reducer以找到整体最小的K.

推荐阅读

程序员
适用于Visual Studio 2015 Update 1的MicroUpdate 1.1

如何解决《适用于VisualStudio2015Update1的MicroUpdate1.1》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将动态变量传递到ASP.NET MVC中的authorize属性类中？

如何解决《如何将动态变量传递到ASP.NETMVC中的authorize属性类中？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Spark使用上一行的值向数据框添加新列

如何解决《Spark使用上一行的值向数据框添加新列》经验，为你挑选了1个好方法。 ... [详细]
程序员
在基于buildout的Plone站点中使用非最新的git checkout

如何解决《在基于buildout的Plone站点中使用非最新的gitcheckout》经验，为你挑选了1个好方法。 ... [详细]
程序员
INSERT INTO语句不起作用

如何解决《INSERTINTO语句不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过Play设置HikariCP池大小

如何解决《如何通过Play设置HikariCP池大小》经验，为你挑选了0个好方法。 ... [详细]
程序员
在多行中连接python中的字符串

如何解决《在多行中连接python中的字符串》经验，为你挑选了3个好方法。 ... [详细]
程序员
Aurelia的角度服务？

如何解决《Aurelia的角度服务？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android gps提供商和gps图标

如何解决《Androidgps提供商和gps图标》经验，为你挑选了0个好方法。 ... [详细]
程序员
在C++中查找两个字符串是否为字谜

如何解决《在C++中查找两个字符串是否为字谜》经验，为你挑选了1个好方法。 ... [详细]
程序员
计算defaultdict列表中的特定项目

如何解决《计算defaultdict列表中的特定项目》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Swift将屏幕截图分享到Facebook？

如何解决《如何使用Swift将屏幕截图分享到Facebook？》经验，为你挑选了1个好方法。 ... [详细]
程序员
禁用特殊的"类"属性处理

如何解决《禁用特殊的"类"属性处理》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Android Studio中正确使用Git？

如何解决《如何在AndroidStudio中正确使用Git？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何将Eclipse中的ctrl单击功能映射到鼠标中键？

如何解决《如何将Eclipse中的ctrl单击功能映射到鼠标中键？》经验，为你挑选了0个好方法。 ... [详细]
程序员
是否会有另一个Common Lisp标准？

如何解决《是否会有另一个CommonLisp标准？》经验，为你挑选了1个好方法。 ... [详细]
程序员
动画按钮允许用户交互不起作用

如何解决《动画按钮允许用户交互不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用android gradle resConfigs只打包默认语言

如何解决《如何使用androidgradleresConfigs只打包默认语言》经验，为你挑选了0个好方法。 ... [详细]
程序员
正则表达式匹配难度

如何解决《正则表达式匹配难度》经验，为你挑选了0个好方法。 ... [详细]
程序员
在QToolTip中使用图片或图像

如何解决《在QToolTip中使用图片或图像》经验，为你挑选了2个好方法。 ... [详细]

360691894_8a5c48

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章