15赞

当前位置: 开发笔记 > 大数据 > 正文

hadoop mapreduce数据去重

作者：刘美娥94662 | 2021-09-09 07:40

hadoopmapreduce数据去重假设我们有下面两个文件，需要把重复的数据去除。file0[plain]2012-3-1a2012-3-2b2012-3-3c2012-3-4d2012-3-5a2012-3-6b2012-3-7c2012-3-3cfile1[plain]2012-3-1b2012-3-2a2012-3-3b2012-3-4d2012-3-

hadoop mapreduce数据去重假设我们有下面两个文件，需要把重复的数据去除。 file0 [plain] 2012-3-1 a 2012-3-2 b 2012-3-3 c 2012-3-4 d 2012-3-5 a 2012-3-6 b 2012-3-7 c 2012-3-3 c file1 [plain] 2012-3-1 b 2012-3-2 a 2012-3-3 b 2012-3-4 d 2012-3-

假设我们有下面两个文件，需要把重复的数据去除。

file0

[plain]

2012-3-1 a

2012-3-2 b

2012-3-3 c

2012-3-4 d

2012-3-5 a

2012-3-6 b

2012-3-7 c

2012-3-3 c

file1

[plain]

2012-3-1 b

2012-3-2 a

2012-3-3 b

2012-3-4 d

2012-3-5 a

2012-3-6 c

2012-3-7 d

2012-3-3 c

我们知道，map处理之后，相同的key的值会被聚合起来，交给一个reduce处理，所以，我们可以把输出的内容作为输出的key，reduce原样输出key就OK，mapreduce的代码如下：

[java]

// map将输入中的value复制到输出数据的key上，并直接输出

public static class Map extends Mapper {

private static Text line = new Text();// 每行数据

// 实现map函数

public void map(Object key, Text value, Context context)

throws IOException, InterruptedException {

line = value;

context.write(line, new Text(""));

}

// reduce将输入中的key复制到输出数据的key上，并直接输出

public static class Reduce extends Reducer {

// 实现reduce函数

public void reduce(Text key, Iterable values, Context context)

throws IOException, InterruptedException {

context.write(key, new Text(""));

}

处理后的文件如下：

[plain]

2012-3-1 a

2012-3-1 b

2012-3-2 a

2012-3-2 b

2012-3-3 b

2012-3-3 c

2012-3-4 d

2012-3-5 a

2012-3-6 b

2012-3-6 c

2012-3-7 c

2012-3-7 d

推荐阅读

程序员
NumPy中astype的有效参数

如何解决《NumPy中astype的有效参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
在MAC OS X上编译Httrack

如何解决《在MACOSX上编译Httrack》经验，为你挑选了1个好方法。 ... [详细]
程序员
在子字符串后查找索引

如何解决《在子字符串后查找索引》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我不能使用T作为前缀运算符的返回类型？

如何解决《为什么我不能使用T作为前缀运算符的返回类型？》经验，为你挑选了1个好方法。 ... [详细]
程序员
表单无效时保留上载的文件（FileField）

如何解决《表单无效时保留上载的文件（FileField）》经验，为你挑选了0个好方法。 ... [详细]
程序员
有没有办法清除/刷新辅助功能层次缓存

如何解决《有没有办法清除/刷新辅助功能层次缓存》经验，为你挑选了1个好方法。 ... [详细]
程序员
MySQL GROUP_CONCAT()对所有行进行分组

如何解决《MySQLGROUP_CONCAT()对所有行进行分组》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么OrderedDict键视图比较顺序不敏感？

如何解决《为什么OrderedDict键视图比较顺序不敏感？》经验，为你挑选了1个好方法。 ... [详细]
程序员
一个$ http请求到api成功后,Angular $ q库链接方法？

如何解决《一个$http请求到api成功后,Angular$q库链接方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
FOSUserBundle和Symfony 3.0？

如何解决《FOSUserBundle和Symfony3.0？》经验，为你挑选了2个好方法。 ... [详细]
程序员
流程更新花费的时间比流程已满

如何解决《流程更新花费的时间比流程已满》经验，为你挑选了0个好方法。 ... [详细]
程序员
共享首选项不适用于存储/接收数据

如何解决《共享首选项不适用于存储/接收数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
Clojure有"展开"吗？

如何解决《Clojure有"展开"吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Jar和War包装与嵌入式Tomcat的区别

如何解决《Jar和War包装与嵌入式Tomcat的区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
函数尾部的()中的参数是什么意思？(JavaScript)的

如何解决《函数尾部的()中的参数是什么意思？(JavaScript)的》经验，为你挑选了1个好方法。 ... [详细]
程序员
Elasticsearch java验证api

如何解决《Elasticsearchjava验证api》经验，为你挑选了0个好方法。 ... [详细]
程序员
我有两个函数,我希望第二个函数在第一个函数完成后运行它的动画

如何解决《我有两个函数,我希望第二个函数在第一个函数完成后运行它的动画》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在BlackBerry Priv上调试我的Android应用程序？

如何解决《如何在BlackBerryPriv上调试我的Android应用程序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Eclipse JDT:如何获取Java内容辅助的数据模型

如何解决《EclipseJDT:如何获取Java内容辅助的数据模型》经验，为你挑选了0个好方法。 ... [详细]
程序员
在selectize.js中显示labelField的多个值

如何解决《在selectize.js中显示labelField的多个值》经验，为你挑选了1个好方法。 ... [详细]

刘美娥94662

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章