Hadoop从另一个文件中的一个文件中搜索单词

作者：罗文彬2502852027 | 2023-08-10 23:16

如何解决《Hadoop从另一个文件中的一个文件中搜索单词》经验，为你挑选了1个好方法。

我想构建一个hadoop应用程序,它可以读取一个文件中的单词并在另一个文件中搜索.

如果单词存在 - 它必须写入一个输出文件如果该单词不存在 - 它必须写入另一个输出文件

我在hadoop中尝试了几个例子.我有两个问题

两个文件各约200MB.检查另一个文件中的每个单词可能会导致内存不足.有没有其他方法可以做到这一点？

如何将数据写入不同的文件,因为hadoop的reduce阶段的输出只写入一个文件.是否可以使用过滤器来减少相位以将数据写入不同的输出文件？

谢谢.

1> Leonidas..：

我该怎么做:

通过单词"map"分割值,发出(,)(*1)

你会进入'减少':( ,)

检查源列表(对于两个/所有源可能很长)

如果并非所有源都在列表中,则每次都发出(,)

job2:job.setNumReduceTasks()

job2:在'map'中发出(,)

job2:为'reduce'中的每个发出all(null,)

你最终会得到与不同一样多的reduce-outputs,每个都包含文档中缺少的单词.您可以在'reduce'开头写出 ONCE来标记文件.

(*1)如何找到地图中的来源(0.20):

private String localname;
private Text outkey = new Text();   
private Text outvalue = new Text();
...
public void setup(Context context) throws InterruptedException, IOException {
    super.setup(context);

    localname = ((FileSplit)context.getInputSplit()).getPath().toString();
}

public void map(Object key, Text value, Context context)
    throws IOException, InterruptedException {
...
    outkey.set(...);
    outvalue.set(localname);
    context.write(outkey, outvalue);
}

推荐阅读

程序员
使用preg_split分割和弦和单词

如何解决《使用preg_split分割和弦和单词》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在点图表中清除绘制的值？

如何解决《如何在点图表中清除绘制的值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Rails:validates_length_of

如何解决《Rails:validates_length_of》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Typescript接口文件中表示返回类型？

如何解决《如何在Typescript接口文件中表示返回类型？》经验，为你挑选了0个好方法。 ... [详细]
程序员
从@EmbeddedId类中提取超类时,实体没有持久的id属性

如何解决《从@EmbeddedId类中提取超类时,实体没有持久的id属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Volley请求发送身份验证信息

如何解决《使用Volley请求发送身份验证信息》经验，为你挑选了1个好方法。 ... [详细]
程序员
在java age计算中返回错误的值

如何解决《在javaage计算中返回错误的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
在API级别19以下的Android中选择文件或图像时,如何限制Google驱动器选项不显示？

如何解决《在API级别19以下的Android中选择文件或图像时,如何限制Google驱动器选项不显示？》经验，为你挑选了1个好方法。 ... [详细]
程序员
访问包含在匿名类型或Object类中的字段

如何解决《访问包含在匿名类型或Object类中的字段》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法让pyspark作业在hadoop群集的所有节点上运行

如何解决《无法让pyspark作业在hadoop群集的所有节点上运行》经验，为你挑选了1个好方法。 ... [详细]
程序员
将"Arial"设置为Sitecore文本编辑器中的默认字体

如何解决《将"Arial"设置为Sitecore文本编辑器中的默认字体》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用高级API从特定偏移量开始读取kafka消息

如何解决《使用高级API从特定偏移量开始读取kafka消息》经验，为你挑选了1个好方法。 ... [详细]
程序员
试图在MultiDex应用程序中测试Android模块,com.android.test.runner.MultiDexTestRunner无法识别

如何解决《试图在MultiDex应用程序中测试Android模块,com.android.test.runner.MultiDexTestRunner无法识别》经验，为你挑选了1个好方法。 ... [详细]
程序员
CSS放在名称的圆圈第一个字母中

如何解决《CSS放在名称的圆圈第一个字母中》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何正确叠加图层列表中的位图和形状

如何解决《如何正确叠加图层列表中的位图和形状》经验，为你挑选了1个好方法。 ... [详细]
程序员
Passport和connect-flash:req.flash不是一个函数

如何解决《Passport和connect-flash:req.flash不是一个函数》经验，为你挑选了2个好方法。 ... [详细]
程序员
暂时以编程方式禁用Qt中的屏幕旋转

如何解决《暂时以编程方式禁用Qt中的屏幕旋转》经验，为你挑选了0个好方法。 ... [详细]
程序员
MVC RazorGenerator-“类型（...）已经定义了具有相同参数类型的名为'Execute'的成员”

如何解决《MVCRazorGenerator-“类型（）已经定义了具有相同参数类型的名为'Execute'的成员”》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP日期实际年份

如何解决《PHP日期实际年份》经验，为你挑选了1个好方法。 ... [详细]
程序员
滑动BottomSheet像谷歌地图

如何解决《滑动BottomSheet像谷歌地图》经验，为你挑选了2个好方法。 ... [详细]

罗文彬2502852027

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章