Hadoop skip mode 代码要点

作者：郑谊099_448 | 2021-09-05 10:05

如果Hadoop数据集中有不合规格的数据，或者某些数据会引起程序崩溃，可以设置跳过模式，程序代码可以不处理这些异常，把异常抛出去让程序崩溃，hadoop框架会重新执行程序，并跳过会记录，参看http://hadoop.apache.org/common/docs/current/mapred_tutorial.html#Skipping+Bad+Records。但是这里没有给出代码例子，我尝

下面是可以工作的代码片断：

public class PwdSorter extends Configured implements Tool {

......

public int run(String[] args) throws Exception {

SkipBadRecords.setMapperMaxSkipRecords(getConf(), 5);

JobConf jobConf = new JobConf(getConf(), getClass());

......

}

public static void main(String[] args)throws Exception {

int res = ToolRunner.run(new PwdSorter(), args);

System.exit(res);

}

要点是 SkipBadRecords.setMapperMaxSkipRecords 要在 new JobConf 之前。如果这两个语句的顺序颠倒的话，skip mode不能正常工作。，缺省错误数据记录在 output/_logs/skip 目录，存储的格式是sequence file。

另外，如果用新的API，即 org.hadoop.mapreduce 包，这个包中没有 SkipBadRecords 类，用 mapred.SkipBadRecords 也能跳过怀记录。（修正：后来又试了一下，新的API Skip mode没成功，可能还是不能正常工作的，以前是记录错误的。）

更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

推荐阅读

程序员
取消定义在定义值之前在Enum中定义int变量

如何解决《取消定义在定义值之前在Enum中定义int变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
Xcode自动完成以显示"包含"而非"开始时"的建议

如何解决《Xcode自动完成以显示"包含"而非"开始时"的建议》经验，为你挑选了0个好方法。 ... [详细]
程序员
RxJS教程不假设熟悉反应式编程概念或Rx .NET？

如何解决《RxJS教程不假设熟悉反应式编程概念或Rx.NET？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何设置默认URL /路由？

如何解决《如何设置默认URL/路由？》经验，为你挑选了1个好方法。 ... [详细]
程序员
删除Vertica数据库中的重复行

如何解决《删除Vertica数据库中的重复行》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用twilio从MS Access发送消息？

如何解决《如何使用twilio从MSAccess发送消息？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将CSS规则标记为不太重要？

如何解决《将CSS规则标记为不太重要？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C# - Powershell AddPSSnapin导致错误

如何解决《C#-PowershellAddPSSnapin导致错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
逻辑运算符&&和javascript中的两个字符串

如何解决《逻辑运算符&&和javascript中的两个字符串》经验，为你挑选了3个好方法。 ... [详细]
程序员
jQuery:从下拉结果中删除ui-autocomplete样式

如何解决《jQuery:从下拉结果中删除ui-autocomplete样式》经验，为你挑选了1个好方法。 ... [详细]
程序员
忽略Racket中的多个返回值

如何解决《忽略Racket中的多个返回值》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么要在静态锁定成员而不是类上进行同步？

如何解决《为什么要在静态锁定成员而不是类上进行同步？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何获取指向std :: vector的最后插入元素的指针？

如何解决《如何获取指向std::vector的最后插入元素的指针？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在django模板中使用href属性

如何解决《如何在django模板中使用href属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
NodeJS UNABLE_TO_VERIFY_LEAF_SIGNATURE

如何解决《NodeJSUNABLE_TO_VERIFY_LEAF_SIGNATURE》经验，为你挑选了2个好方法。 ... [详细]
程序员
强制事务从另一个连接提交？

如何解决《强制事务从另一个连接提交？》经验，为你挑选了1个好方法。 ... [详细]
程序员
EF Code First,将两个导航属性映射到同一对象类型

如何解决《EFCodeFirst,将两个导航属性映射到同一对象类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
致命错误:内存不足(分配1947467776)(试图分配65488字节)

如何解决《致命错误:内存不足(分配1947467776)(试图分配65488字节)》经验，为你挑选了1个好方法。 ... [详细]
程序员
附加多个div

如何解决《附加多个div》经验，为你挑选了1个好方法。 ... [详细]
程序员
RegEx匹配没有特定属性的<a> html标签

如何解决《RegEx匹配没有特定属性的<a>html标签》经验，为你挑选了1个好方法。 ... [详细]

郑谊099_448

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章