在Hadoop中链接多个MapReduce作业

作者：N个小灰流_701 | 2023-08-06 11:01

如何解决《在Hadoop中链接多个MapReduce作业》经验，为你挑选了5个好方法。

在许多应用MapReduce的实际情况中,最终的算法最终会成为几个MapReduce步骤.

即Map1,Reduce1,Map2,Reduce2等.

因此,您可以获得下一个映射的输入所需的最后一个reduce的输出.

管道成功完成后,您(通常)不希望保留中间数据.另外,因为这个中间数据通常是一些数据结构(如'map'或'set'),所以你不想在编写和读取这些键值对时花费太多精力.

在Hadoop中推荐的方法是什么？

是否有(简单)示例显示如何以正确的方式处理此中间数据,包括之后的清理？

1> Binary Nerd..：

我认为雅虎开发者网络上的这个教程将帮助你解决这个问题:Chaining Jobs

你用的是JobClient.runJob().第一个作业的数据输出路径成为第二个作业的输入路径.这些需要作为参数传递给您的作业,并使用适当的代码来解析它们并设置作业的参数.

我认为上面的方法可能是现在较旧的mapred API的方式,但它应该仍然有用.新的mapreduce API中会有类似的方法,但我不确定它是什么.

至于在作业完成后删除中间数据,您可以在代码中执行此操作.我以前做过的方式是使用类似的东西:

FileSystem.delete(Path f, boolean recursive);

其中路径是数据的HDFS上的位置.一旦没有其他工作需要,您需要确保只删除此数据.

感谢Yahoo教程的链接.如果两者在同一个运行中,那么Chaining Jobs确实是你想要的.我想要的是,如果你想能够单独运行它们,那么简单的方法就是这样做.在上面提到的教程中,我发现SequenceFileOutputFormat"将适合读取的二进制文件写入后续的MapReduce作业"和匹配的SequenceFileInputFormat,这使得它非常容易.谢谢.

2> 小智..：

有很多方法可以做到.

(1)级联工作

为第一个作业创建JobConf对象"job1",并将所有参数设置为inputdirectory,将"temp"设置为输出目录.执行这项工作:

JobClient.run(job1).

紧接其下方,为第二个作业创建JobConf对象"job2",并将所有参数设置为"temp"作为inputdirectory并将"output"设置为输出目录.执行这项工作:

JobClient.run(job2).

(2)创建两个JobConf对象并将其中的所有参数设置为(1),除非您不使用JobClient.run.

然后使用jobconfs作为参数创建两个Job对象:

Job job1=new Job(jobconf1); 
Job job2=new Job(jobconf2);



使用jobControl对象,指定作业依赖关系,然后运行作业:

JobControl jbcntrl=new JobControl("jbcntrl");
jbcntrl.addJob(job1);
jbcntrl.addJob(job2);
job2.addDependingJob(job1);
jbcntrl.run();


(3)如果你需要一个像Map + |那样的结构 减少| Map*,您可以使用随Hadoop版本0.19及更高版本附带的ChainMapper和ChainReducer类.

干杯

        

3> 小智..：
实际上有很多方法可以做到这一点.我会专注于两个.

一个是通过Riffle(http://github.com/cwensel/riffle)一个注释库,用于识别依赖事物并以依赖(拓扑)顺序"执行"它们.

或者您可以在Cascading(http://www.cascading.org/)中使用Cascade(和MapReduceFlow ).未来版本将支持Riffle注释,但现在使用原始MR JobConf作业可以很好地工作.

这方面的一个变体是根本不用手工管理MR作业,而是使用Cascading API开发应用程序.然后通过级联规划器和Flow类在内部处理JobConf和作业链.

这样你就可以花时间专注于你的问题,而不是管理Hadoop工作等的机制.你甚至可以在顶层(如clojure或jruby)分层不同的语言,甚至可以进一步简化你的开发和应用程序.http://www.cascading.org/modules.html

        

4> 小智..：
我已经使用JobConf对象一个接一个地进行了作业链接.我把WordCount示例用于链接作业.一项工作计算出一个单词在给定输出中重复多少次.第二个作业将第一个作业输出作为输入,并计算出给定输入中的总单词.下面是需要放在Driver类中的代码.

    //First Job - Counts, how many times a word encountered in a given file 
    JobConf job1 = new JobConf(WordCount.class);
    job1.setJobName("WordCount");

    job1.setOutputKeyClass(Text.class);
    job1.setOutputValueClass(IntWritable.class);

    job1.setMapperClass(WordCountMapper.class);
    job1.setCombinerClass(WordCountReducer.class);
    job1.setReducerClass(WordCountReducer.class);

    job1.setInputFormat(TextInputFormat.class);
    job1.setOutputFormat(TextOutputFormat.class);

    //Ensure that a folder with the "input_data" exists on HDFS and contains the input files
    FileInputFormat.setInputPaths(job1, new Path("input_data"));

    //"first_job_output" contains data that how many times a word occurred in the given file
    //This will be the input to the second job. For second job, input data name should be
    //"first_job_output". 
    FileOutputFormat.setOutputPath(job1, new Path("first_job_output"));

    JobClient.runJob(job1);


    //Second Job - Counts total number of words in a given file

    JobConf job2 = new JobConf(TotalWords.class);
    job2.setJobName("TotalWords");

    job2.setOutputKeyClass(Text.class);
    job2.setOutputValueClass(IntWritable.class);

    job2.setMapperClass(TotalWordsMapper.class);
    job2.setCombinerClass(TotalWordsReducer.class);
    job2.setReducerClass(TotalWordsReducer.class);

    job2.setInputFormat(TextInputFormat.class);
    job2.setOutputFormat(TextOutputFormat.class);

    //Path name for this job should match first job's output path name
    FileInputFormat.setInputPaths(job2, new Path("first_job_output"));

    //This will contain the final output. If you want to send this jobs output
    //as input to third job, then third jobs input path name should be "second_job_output"
    //In this way, jobs can be chained, sending output one to other as input and get the
    //final output
    FileOutputFormat.setOutputPath(job2, new Path("second_job_output"));

    JobClient.runJob(job2);




运行这些作业的命令是:

bin/hadoop jar TotalWords.

我们需要为命令提供最终作业名称.在上面的例子中,它是TotalWords.

        

5> Aniruddha Si..：
您可以按照代码中给出的方式运行MR链.


请注意:仅提供了驱动程序代码

public class WordCountSorting {
// here the word keys shall be sorted
      //let us write the wordcount logic first

      public static void main(String[] args)throws IOException,InterruptedException,ClassNotFoundException {
            //THE DRIVER CODE FOR MR CHAIN
            Configuration conf1=new Configuration();
            Job j1=Job.getInstance(conf1);
            j1.setJarByClass(WordCountSorting.class);
            j1.setMapperClass(MyMapper.class);
            j1.setReducerClass(MyReducer.class);

            j1.setMapOutputKeyClass(Text.class);
            j1.setMapOutputValueClass(IntWritable.class);
            j1.setOutputKeyClass(LongWritable.class);
            j1.setOutputValueClass(Text.class);
            Path outputPath=new Path("FirstMapper");
            FileInputFormat.addInputPath(j1,new Path(args[0]));
                  FileOutputFormat.setOutputPath(j1,outputPath);
                  outputPath.getFileSystem(conf1).delete(outputPath);
            j1.waitForCompletion(true);
                  Configuration conf2=new Configuration();
                  Job j2=Job.getInstance(conf2);
                  j2.setJarByClass(WordCountSorting.class);
                  j2.setMapperClass(MyMapper2.class);
                  j2.setNumReduceTasks(0);
                  j2.setOutputKeyClass(Text.class);
                  j2.setOutputValueClass(IntWritable.class);
                  Path outputPath1=new Path(args[1]);
                  FileInputFormat.addInputPath(j2, outputPath);
                  FileOutputFormat.setOutputPath(j2, outputPath1);
                  outputPath1.getFileSystem(conf2).delete(outputPath1, true);
                  System.exit(j2.waitForCompletion(true)?0:1);
      }

}


序列是


(JOB1)MAP-> REDUCE->(JOB2)MAP 

这样做是为了对键进行排序,但有更多的方法,例如使用树形图

但是我想把注意力集中在乔布斯被链接的方式上! !

谢谢



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        Meteor:点击更改链接类别
                    

                    
                                                
                        如何解决《Meteor:点击更改链接类别》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        将矢量重新排列成矩阵
                    

                    
                                                
                        如何解决《将矢量重新排列成矩阵》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        pandas.algos._return_false在CentOS上使用dill.dump_session导致PicklingError
                    

                    
                                                
                        如何解决《pandas.algos._return_false在CentOS上使用dill.dump_session导致PicklingError》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Bitbake（Yocto）git fetch URI身份验证
                    

                    
                                                
                        如何解决《Bitbake（Yocto）gitfetchURI身份验证》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        R并行 - 连接到远程核心
                    

                    
                                                
                        如何解决《R并行-连接到远程核心》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        ODP.NET连接异常
                    

                    
                                                
                        如何解决《ODP.NET连接异常》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        TextBlock文本不在DataGridCell中垂直居中
                    

                    
                                                
                            
                        
                                                
                        如何解决《TextBlock文本不在DataGridCell中垂直居中》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何解决与primefaces jquery的冲突
                    

                    
                                                
                        如何解决《如何解决与primefacesjquery的冲突》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        返回ajax字符串是'空'但不能将其固定为'空',为什么？
                    

                    
                                                
                            
                        
                                                
                        如何解决《返回ajax字符串是'空'但不能将其固定为'空',为什么？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Generic Linq to Entities过滤器方法,它接受要过滤的过滤条件和属性
                    

                    
                                                
                        如何解决《GenericLinqtoEntities过滤器方法,它接受要过滤的过滤条件和属性》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        当作为具有接口约束的通用参数传递时,值类型是否装箱？
                    

                    
                                                
                        如何解决《当作为具有接口约束的通用参数传递时,值类型是否装箱？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        将整数转换为单词和罗马数字
                    

                    
                                                
                        如何解决《将整数转换为单词和罗马数字》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Swift字典错误访问
                    

                    
                                                
                        如何解决《Swift字典错误访问》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        什么是RPM包中的SPEC文件中的1%{？dist}
                    

                    
                                                
                        如何解决《什么是RPM包中的SPEC文件中的1%{？dist}》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用awk总结最后一列中的值
                    

                    
                                                
                        如何解决《使用awk总结最后一列中的值》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        将带空格字符的字符串参数传递给内核模块
                    

                    
                                                
                        如何解决《将带空格字符的字符串参数传递给内核模块》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Git分支在Jenkins中用groovy脚本选择
                    

                    
                                                
                        如何解决《Git分支在Jenkins中用groovy脚本选择》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        来自UITableView的错误值:iOS8中的rowHeight
                    

                    
                                                
                        如何解决《来自UITableView的错误值:iOS8中的rowHeight》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用jasmine模拟函数调用
                    

                    
                                                
                        如何解决《使用jasmine模拟函数调用》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        SharePoint 2010 Web服务上的Java JBoss 401错误
                    

                    
                                                
                        如何解决《SharePoint2010Web服务上的JavaJBoss401错误》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                N个小灰流_701            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    asp.net
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    django
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    lavarel
                
                                
                    lua
                
                                
                    mvc
                
                                
                    mysql
                
                                
                    nginx
                
                                
                    node.js
                
                                
                    php
                
                                
                    python
                
                                
                    redis
                
                                
                    ruby
                
                                
                    rust
                
                                
                    ssl
                
                                
                    swoole
                
                                
                    vb
                
                                
                    爬虫
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1SSDT Schema Compare会不断为用户找到差异？
                
                                
                    2我可以在JSFiddle上使用Polymer吗？
                
                                
                    3覆盖AspNet.Security.OpenIdConnect.Server中的TokenEndPoint
                
                                
                    4用包含零的行来标准化矩阵 -  MATLAB
                
                                
                    5Bash输出误解
                
                                
                    6VS 2015无法打开编译器生成的文件：”：无效的参数
                
                                
                    7Android精确闹钟总是3分钟
                
                                
                    8对任意类型进行Swift排序
                
                                
                    9没有子节的GraphQL变异
                
                                
                    10_,在Golang中意味着什么？
                
                                
                    11模式匹配比Haskell中的case表达更优选的现实例子？
                
                                
                    12删除的默认光标图标是什么？
                
                                
                    13如何在Android中以编程方式设置按钮边框颜色？
                
                                
                    14RxAndroid与Retrofit 2.0
                
                                
                    15SqlDependency仅在订阅时触发
                
                                
                    16C++通用Windows应用程序仅在安装驱动器上的VS2015项目时有效
                
                                
                    17有没有更好的方法来实现搜索地图？
                
                                
                    18由于"404 Not Found"错误,sunspot_rails无法索引
                
                                
                    19在C#中以列表为核心的存储库模式
                
                                
                    20通用Try [T]功能