嘿所有,刚刚开始使用hadoop并且很好奇如果你的日志文件看起来像这样,mapreduce的最佳方式是计算唯一访问者...
DATE siteID action username 05-05-2010 siteA pageview jim 05-05-2010 siteB pageview tom 05-05-2010 siteA pageview jim 05-05-2010 siteB pageview bob 05-05-2010 siteA pageview mike
对于每个网站,您想要找出每个网站的唯一身份访问者?
我以为mapper会发出siteID\t用户名,reducer会为每个键保留一个唯一用户名的set(),然后发出该组的长度.然而,这可能会在内存中存储数百万个用户名,这似乎并不正确.谁有更好的方法?
我顺便使用python流
谢谢