ruby和pig处理流式文件实例

作者：U友50081205_653 | 2021-10-21 01:23

这篇文章主要介绍了ruby和pig处理流式文件实例,本文讲解pig加载hdfs文件后调用ruby脚本处理数据,再返回数据流至pig中处理的一个简单案例,需要的朋友可以参考下

大数据操作中涉及到数据清洗步奏还是用脚本处理比较方便，下边介绍一下pig加载hdfs文件后调用ruby脚本处理数据，再返回数据流至pig中处理的一个简单案例。

注意：ruby的流式处理用到wukong这个gem包，相关下载：
https://github.com/mrflip/wukong

pig中加载分布式文件调用ruby流式处理：

复制代码代码如下:

log = load '$INFILE' using PigStorage('\t');

define tracking_parser `/usr/ruby parse_click.rb --map` SHIP('parse_click.rb', 'click_tracking.rb');

strmo = stream log through tra_parser;

store strmo into '$OUTFILE' using PigStorage('\t');

复制代码代码如下:

require 'wukong'
require 'json'
require './click_tra.rb'

module ParseClick
class Mapper < Wukong::Streamer::RecordStreamer
    def before_stream
      @bad_count = 0
    end

    def after_stream
      raise RuntimeError, "Exceeded bad records : #{@bad_count}" if @bad_count > 10
    end

    def process *records
      yield ClickTra.new(JSON.parse(records[2])).to_a
    rescue => e
      @bad_count += 1
      warn "Bad record #{e}: #{records[2]}"
    end
end
end

Wukong.run ParseClick::Mapper, nil

复制代码代码如下:

require 'date'
require './models.rb'

class ClickTra

output :ip
output :c_date
#output your other atrributes

def c_date
click_date.strftime("%Y%m%d").to_i
end

def ip
browser_ip.to_i
end

end

其中

strmo = stream log through tra_parser;调用定义的外部程序tra_parser处理log对象。
Wukong.run ParseClick::Mapper, nil执行完后，将ruby执行结果回调pig接收。
store strmo into '$OUTFILE' using PigStorage('\t');做结果存储持久化。

推荐阅读

程序员
我们可以从DOM中删除一个元素吗？

如何解决《我们可以从DOM中删除一个元素吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将&str转换为OsStr的正确方法是什么？

如何解决《将&str转换为OsStr的正确方法是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用M2Eclipse插件在交互模式下使用versions-maven-plugin设置版本？

如何解决《使用M2Eclipse插件在交互模式下使用versions-maven-plugin设置版本？》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有PHP DocBlock我可以用来表示实例化后添加的魔术方法属性？

如何解决《有没有PHPDocBlock我可以用来表示实例化后添加的魔术方法属性？》经验，为你挑选了1个好方法。 ... [详细]
程序员
微服务:如何建模相关的域对象？

如何解决《微服务:如何建模相关的域对象？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法加载类型Symfony2

如何解决《无法加载类型Symfony2》经验，为你挑选了1个好方法。 ... [详细]
程序员
java中双精度的选择排序

如何解决《java中双精度的选择排序》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么main不等到异步方法完成？

如何解决《为什么main不等到异步方法完成？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我应该在一个块中使用哪个NSAssertion？

如何解决《我应该在一个块中使用哪个NSAssertion？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Obj-c表达式错误 - 二进制表达式的操作数无效('CGFloat'(又名'double'))

如何解决《Obj-c表达式错误-二进制表达式的操作数无效('CGFloat'(又名'double'))》经验，为你挑选了1个好方法。 ... [详细]
程序员
Haskell - Ord的意思是什么？

如何解决《Haskell-Ord的意思是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用R计算字符串中的连续模式

如何解决《使用R计算字符串中的连续模式》经验，为你挑选了1个好方法。 ... [详细]
程序员
numpy.memmap:虚假的内存分配

如何解决《numpy.memmap:虚假的内存分配》经验，为你挑选了1个好方法。 ... [详细]
程序员
读完整数后,C无法读取字符串

如何解决《读完整数后,C无法读取字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
低InnoDB每秒写入 - 使用Python将AWS EC2写入MySQL RDS

如何解决《低InnoDB每秒写入-使用Python将AWSEC2写入MySQLRDS》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Agda建模ST monad

如何解决《在Agda建模STmonad》经验，为你挑选了0个好方法。 ... [详细]
程序员
将字符串转换为javascript中的操作

如何解决《将字符串转换为javascript中的操作》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果a/p输入中包含某个单词

如何解决《如果a/p输入中包含某个单词》经验，为你挑选了1个好方法。 ... [详细]
程序员
Symfony 2.7 cache:clear命令检查每个数据库连接

如何解决《Symfony2.7cache:clear命令检查每个数据库连接》经验，为你挑选了1个好方法。 ... [详细]
程序员
矢量化的基数排序与numpy - 它可以击败np.sort？

如何解决《矢量化的基数排序与numpy-它可以击败np.sort？》经验，为你挑选了0个好方法。 ... [详细]

U友50081205_653

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章