5赞

如何在EC2上运行mapreduce作业时获取文件名？

作者：有风吹过best | 2023-06-18 17:27

如何解决《如何在EC2上运行mapreduce作业时获取文件名？》经验，为你挑选了1个好方法。

我正在学习弹性mapreduce,并开始使用Amazon Tutorial Section中提供的Word Splitter示例(代码如下所示).该示例为所提供的所有输入文档中的所有单词生成字数.

但是我希望通过文件名获得Word Counts的输出,即仅在一个特定文档中的单词计数.由于字数的python代码从stdin获取输入,我如何判断哪个输入行来自哪个文档？

谢谢.

#!/usr/bin/python

import sys
import re

def main(argv):
  line = sys.stdin.readline()
  pattern = re.compile("[a-zA-Z][a-zA-Z0-9]*")
  try:
    while line:
      for word in  pattern.findall(line):
        print  "LongValueSum:" + word.lower() + "\t" + "1"
      line =  sys.stdin.readline()
  except "end of file":
    return None
if __name__ == "__main__":
  main(sys.argv)

Praveen Srip.. 5

在典型的WordCount示例中,将忽略映射文件正在处理的文件名,因为作业输出包含所有输入文件的合并字数,而不是文件级.但要在文件级别获取单词计数,必须使用输入文件名.使用Python的Mapper可以使用该os.environ["map.input.file"]命令获取文件名.任务执行环境变量列表在这里.

映射器而不是仅发出键/值对,还应包含正在处理的输入文件名.以下可以是map发出的>,其中input.txt是键,是值.

现在,特定文件的所有字数都将由单个reducer处理.然后,reducer必须聚合该特定文件的字数.

像往常一样,Combiner将有助于减少映射器和减速器之间的网络抖动,并且还可以更快地完成工作.

使用MapReduce检查数据密集型文本处理,以获得更多文本处理算法.

1> Praveen Srip..：

映射器而不是仅发出键/值对,还应包含正在处理的输入文件名.以下可以是map发出的>,其中input.txt是键,是值.

现在,特定文件的所有字数都将由单个reducer处理.然后,reducer必须聚合该特定文件的字数.

像往常一样,Combiner将有助于减少映射器和减速器之间的网络抖动,并且还可以更快地完成工作.

使用MapReduce检查数据密集型文本处理,以获得更多文本处理算法.

推荐阅读

程序员
TweenMax将无法正确初始化:"Uncaught无法补间空目标."

如何解决《TweenMax将无法正确初始化:"Uncaught无法补间空目标."》经验，为你挑选了1个好方法。 ... [详细]
程序员
`cv.glmnet`适用于RStudio但不适用于RScript

如何解决《`cv.glmnet`适用于RStudio但不适用于RScript》经验，为你挑选了1个好方法。 ... [详细]
程序员
将系统属性传递给spring boot

如何解决《将系统属性传递给springboot》经验，为你挑选了1个好方法。 ... [详细]
程序员
d3.js geo worldmap - 合并俄罗斯(从美国右边的左边小部分向左移位)

如何解决《d3.jsgeoworldmap-合并俄罗斯(从美国右边的左边小部分向左移位)》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在.cshtml中使用@：

如何解决《如何在.cshtml中使用@：》经验，为你挑选了1个好方法。 ... [详细]
程序员
Modelica质量/能量/动量平衡

如何解决《Modelica质量/能量/动量平衡》经验，为你挑选了1个好方法。 ... [详细]
程序员
NPM + Zurb Foundation + WebPack:无法解析模块'基础'

如何解决《NPM+ZurbFoundation+WebPack:无法解析模块'基础'》经验，为你挑选了4个好方法。 ... [详细]
程序员
使用推土机可以将多个字段映射到一个字段吗？

如何解决《使用推土机可以将多个字段映射到一个字段吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
(Android)尝试抛出OutOfMemoryError时抛出OutOfMemoryError

如何解决《(Android)尝试抛出OutOfMemoryError时抛出OutOfMemoryError》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用ng-repeat或ng-model填充textarea,以便它不会使用迭代数据创建一个新的textarea

如何解决《使用ng-repeat或ng-model填充textarea,以便它不会使用迭代数据创建一个新的textarea》经验，为你挑选了1个好方法。 ... [详细]
程序员
Fullcalendar:如何删除事件

如何解决《Fullcalendar:如何删除事件》经验，为你挑选了1个好方法。 ... [详细]
程序员
覆盖动画填充模式:在JavaScript/CSS中转发

如何解决《覆盖动画填充模式:在JavaScript/CSS中转发》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何获取byte []以在视图上显示为div的背景图像（C＃，ASP.NET，MVC）

如何解决《如何获取byte[]以在视图上显示为div的背景图像（C＃，ASP.NET，MVC）》经验，为你挑选了0个好方法。 ... [详细]
程序员
有没有办法确定C++编译器实现的语言功能？

如何解决《有没有办法确定C++编译器实现的语言功能？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Seaborn热图旁边添加列

如何解决《如何在Seaborn热图旁边添加列》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么TypeError上的JSON.stringify返回一个空对象

如何解决《为什么TypeError上的JSON.stringify返回一个空对象》经验，为你挑选了1个好方法。 ... [详细]
程序员
角饼干

如何解决《角饼干》经验，为你挑选了3个好方法。 ... [详细]
程序员
从协议扩展实例方法中读取静态var

如何解决《从协议扩展实例方法中读取静态var》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我使用框架获得不可用的声明

如何解决《为什么我使用框架获得不可用的声明》经验，为你挑选了1个好方法。 ... [详细]
程序员
将可变长度JSON数组解码为Rust数组

如何解决《将可变长度JSON数组解码为Rust数组》经验，为你挑选了1个好方法。 ... [详细]

有风吹过best

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章