多行文本到单个地图

作者：爱唱歌的郭少文_ | 2023-07-14 21:42

如何解决《多行文本到单个地图》经验，为你挑选了1个好方法。

我一直在尝试使用Hadoop将N行数发送到单个映射.我不需要拆分线路.

我曾尝试使用NLineInputFormat,但是它会将数据中的N行文本一次一行地发送到每个映射器[在第N行之后放弃].

我试图设置选项,它只需要N行输入一次一行地发送到每个地图:

    job.setInt("mapred.line.input.format.linespermap", 10);

我找到了一个邮件列表,建议我覆盖LineRecordReader :: next,但这不是那么简单,因为内部数据成员都是私有的.

我刚检查了NLineInputFormat的源代码,它硬编码LineReader,所以覆盖无济于事.

另外,顺便说一句,我正在使用Hadoop 0.18与Amazon EC2 MapReduce兼容.

1> Peter Wipper..：

您必须实现自己的输入格式.您也可以定义自己的记录阅读器.

不幸的是,你必须定义一个getSplits()方法.在我看来,这将比实现记录阅读器更难:这种方法必须实现一个逻辑来输入数据.

请参阅以下摘录"Hadoop - 权威指南"(我一直推荐的一本好书!):

这是界面:

public interface InputFormat {
  InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;
  RecordReader getRecordReader(InputSplit split,
                                     JobConf job, 
                                     Reporter reporter) throws IOException;
}

JobClient调用getSplits()方法,将所需数量的map任务作为numSplits参数传递.此数字被视为提示,因为InputFormat实现可以自由地将不同数量的拆分返回到numSplits中指定的数字.在计算了拆分后,客户端将它们发送到jobtracker,后者使用其存储位置来安排map任务以在tasktrackers上处理它们.

在任务跟踪器上,映射任务将拆分传递给InputFormat上的getRecordReader()方法,以获取该拆分的RecordReader.RecordReader只是记录上的迭代器,map任务使用一个来生成记录键值对,并将其传递给map函数.代码片段(基于MapRunner中的代码)说明了这个想法:

K key = reader.createKey();
V value = reader.createValue();
while (reader.next(key, value)) {
  mapper.map(key, value, output, reporter);
}

好吧,我很抱歉.确实没有真正的问题,因为我看不出任何问号:-P那么您还需要了解哪些更具体的问题？

推荐阅读

程序员
找到阵列是否是2d阵列的简单方法？

如何解决《找到阵列是否是2d阵列的简单方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Eclipse:我的android应用程序在启动时崩溃了

如何解决《Eclipse:我的android应用程序在启动时崩溃了》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用R中的Openxlsx包修改Excel工作簿中的现有工作表？

如何解决《如何使用R中的Openxlsx包修改Excel工作簿中的现有工作表？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Android Marshmallow中创建wifi网络共享热点？

如何解决《如何在AndroidMarshmallow中创建wifi网络共享热点？》经验，为你挑选了0个好方法。 ... [详细]
程序员
我可以使Realm Results类使用协议作为泛型吗？

如何解决《我可以使RealmResults类使用协议作为泛型吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在具有隐式参数的函数上调用Private

如何解决《如何在具有隐式参数的函数上调用Private》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么可以使std :: map找不到它的一个键？

如何解决《什么可以使std::map找不到它的一个键？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Linq加入查询错误

如何解决《Linq加入查询错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将预先填充的文本消息发送给特定(预期)Whats-App用户/用户？

如何解决《如何将预先填充的文本消息发送给特定(预期)Whats-App用户/用户？》经验，为你挑选了0个好方法。 ... [详细]
程序员
学习Netsuite

如何解决《学习Netsuite》经验，为你挑选了1个好方法。 ... [详细]
程序员
包括头文件进行分析之后，请告诉我有关cppcheck的用途或工作方式

如何解决《包括头文件进行分析之后，请告诉我有关cppcheck的用途或工作方式》经验，为你挑选了1个好方法。 ... [详细]
程序员
JDBC是否在将日期插入Oracle DB之前调整日期？我该如何防止这种情况？

如何解决《JDBC是否在将日期插入OracleDB之前调整日期？我该如何防止这种情况？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在类"对象"中定义的==运算符在哪里？

如何解决《在类"对象"中定义的==运算符在哪里？》经验，为你挑选了2个好方法。 ... [详细]
程序员
有没有办法在babelify中关闭"超级之前不允许这样的规则"？

如何解决《有没有办法在babelify中关闭"超级之前不允许这样的规则"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Bootstrap 3无法在Symfony3中运行

如何解决《Bootstrap3无法在Symfony3中运行》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Javascript下载HTML5 mp4视频

如何解决《使用Javascript下载HTML5mp4视频》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在android中的数组列表中获取特定值的索引

如何解决《如何在android中的数组列表中获取特定值的索引》经验，为你挑选了1个好方法。 ... [详细]
程序员
在带有colspan和rowspan的表中重复

如何解决《在带有colspan和rowspan的表中重复》经验，为你挑选了1个好方法。 ... [详细]
程序员
安装perl模块和复制整个文件夹有什么区别？

如何解决《安装perl模块和复制整个文件夹有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
@Bean和@Autowired之间的区别

如何解决《@Bean和@Autowired之间的区别》经验，为你挑选了3个好方法。 ... [详细]

爱唱歌的郭少文_

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章