还有人在AWS上玩过MapReduce吗?有什么想法吗?如何实施?
它很容易上手.
这是一个FAQ:http://aws.amazon.com/elasticmapreduce/faqs/
这里是入门指南:http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/
如果您已经拥有EC2帐户,则可以使用AWS管理控制台启用MapReduce并在不到10分钟的时间内启动并运行示例应用程序.
我做了预先打包的Word Count示例应用程序,它返回了大约20 MB文本中包含的每个单词的计数.您可以配置最多20个实例同时运行,但我只使用了2个实例,并且工作在大约3分钟内完成.
该作业返回一个300 KB按字母顺序排列的单词列表以及每个单词在样本语料库中出现的频率.
我真的很喜欢MapReduce作业可以用我选择的Perl,Python,Ruby,PHP,C++,R或Java编写.该过程轻松而直接,界面可以很好地反馈您的实例状态和工作流程.
请注意,由于AWS在创建实例时收取整整一小时的费用,并且由于MapReduce实例在作业流结束时自动终止,因此多个快速运行的作业流的成本可能会快速增加.
例如,如果我创建一个使用20个实例并在15分钟内返回结果的作业流程,然后再重新运行作业流程3次,那么即使我只有20个实例,我也需要支付80个小时的机器时间跑了1个小时.