使用Hadoop/MapReduce查找匹配的行

作者：LEEstarmmmmm | 2023-08-09 19:17

如何解决《使用Hadoop/MapReduce查找匹配的行》经验，为你挑选了1个好方法。

我正在玩Hadoop并在Ubuntu上设置了一个双节点集群.WordCount示例运行得很好.

现在我想编写自己的MapReduce程序来分析一些日志数据(主要原因:它看起来很简单,而且我有足够的数据)

日志中的每一行都有这种格式

事件可以是INIT,START,STOP,ERROR等.我最感兴趣的是同一个UUID的START和STOP事件之间经过的时间.

例如,我的日志包含这些条目

35FAA840-1299-11DF-8A39-0800200C9A66 START 1265403584
[...many other lines...]
35FAA840-1299-11DF-8A39-0800200C9A66 STOP 1265403777

我当前的线性程序读取文件,记住内存中的启动事件,并在找到相应的结束事件后将经过的时间写入文件(其他事件的行当前被忽略,ERROR事件使UUID失效,它将也被忽略了)¹

我想将其移植到Hadoop/MapReduce程序.但我不知道如何匹配条目.拆分/标记文件很容易,我想找到匹配将是Reduce-Class.但那会是什么样子？如何在MapReduce作业中找到mathing条目？

请记住,我的主要关注点是了解Hadopo/MapReduce; 欢迎链接到Pig和其他Apache程序,但我想用纯Hadoop/MapReduce来解决这个问题.谢谢.

¹⁾ 由于日志来自正在运行的应用程序,因此一些启动事件可能还没有相应的结束事件,并且由于日志文件拆分,将会有没有启动事件的结束事件

1> Leonidas..：

如果您将map中的UUID作为键发出:emit(, )您将在reduce中收到此UUID的所有事件: key = UUID, values = {, }

然后,您可以按时间戳对事件进行排序,并决定是否将它们发送到结果文件中.

额外奖励:您可以job.setSortComparatorClass();用来设置自己的排序类,这样您就可以在减少的时间戳中对您的条目进行排序:

public static class BNLSortComparator extends Text.Comparator {
  public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
    String sb1, sb2;
    try {
      sb1 = Text.decode(b1, s1, l1);
      ...

推荐阅读

程序员
在运行Django单元测试时强制删除任何先前的测试数据库(autoclobber),例如在PyCharm中

如何解决《在运行Django单元测试时强制删除任何先前的测试数据库(autoclobber),例如在PyCharm中》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何以编程方式将箭头功能与常规功能区分开？

如何解决《如何以编程方式将箭头功能与常规功能区分开？》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用内联汇编在数组上循环

如何解决《使用内联汇编在数组上循环》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法从'const char [3]'转换为'char *'x100000（Qt Creator C ++ Windows 32）

如何解决《无法从'constchar[3]'转换为'char*'x100000（QtCreatorC++Windows32）》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何隐藏CefSharp.WinForms.ChromiumWebBrowser右键单击上下文菜单？

如何解决《如何隐藏CefSharp.WinForms.ChromiumWebBrowser右键单击上下文菜单？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用WebApi的OData路由在导航问题上引发异常

如何解决《使用WebApi的OData路由在导航问题上引发异常》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Objective-C类中使用时,无法在调试区域中看到Swift对象层次结构

如何解决《在Objective-C类中使用时,无法在调试区域中看到Swift对象层次结构》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以使用Oracle PL/SQL RANGE子句来约束变量的数据类型？

如何解决《我可以使用OraclePL/SQLRANGE子句来约束变量的数据类型？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何实现Typescript异步等待模式:Promise在哪里

如何解决《如何实现Typescript异步等待模式:Promise在哪里》经验，为你挑选了0个好方法。 ... [详细]
程序员
最佳优先搜索和A*搜索之间有什么区别？

如何解决《最佳优先搜索和A*搜索之间有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Laravel 5.1中使用NOT FIND_IN_SET？

如何解决《如何在Laravel5.1中使用NOTFIND_IN_SET？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法理解序列的类型[Just,Just]

如何解决《无法理解序列的类型[Just,Just]》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Amazon Linux上安装OpenCV？

如何解决《如何在AmazonLinux上安装OpenCV？》经验，为你挑选了1个好方法。 ... [详细]
程序员
.fadeOut()不起作用

如何解决《.fadeOut()不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
Unity 5.3:UnitEngine.Application.loadedLevel的等价物是什么？

如何解决《Unity5.3:UnitEngine.Application.loadedLevel的等价物是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Pycharm和Kivy中使用while循环

如何解决《在Pycharm和Kivy中使用while循环》经验，为你挑选了0个好方法。 ... [详细]
程序员
如果字段数组和参数数组相交,则过滤MongoDb集合

如何解决《如果字段数组和参数数组相交,则过滤MongoDb集合》经验，为你挑选了1个好方法。 ... [详细]
程序员
不会执行php 7文件而不是执行

如何解决《不会执行php7文件而不是执行》经验，为你挑选了0个好方法。 ... [详细]
程序员
Viewmodel没有定义键

如何解决《Viewmodel没有定义键》经验，为你挑选了1个好方法。 ... [详细]
程序员
git-lfs:致命:无法处理这么大的文件(4.3G)

如何解决《git-lfs:致命:无法处理这么大的文件(4.3G)》经验，为你挑选了0个好方法。 ... [详细]

LEEstarmmmmm

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章