当前位置:  开发笔记 > 编程语言 > 正文

使用Hadoop统计独特访客的最佳方式是什么?

如何解决《使用Hadoop统计独特访客的最佳方式是什么?》经验,为你挑选了0个好方法。

嘿所有,刚刚开始使用hadoop并且很好奇如果你的日志文件看起来像这样,mapreduce的最佳方式是计算唯一访问者...

DATE       siteID  action   username
05-05-2010 siteA   pageview jim
05-05-2010 siteB   pageview tom
05-05-2010 siteA   pageview jim
05-05-2010 siteB   pageview bob
05-05-2010 siteA   pageview mike

对于每个网站,您想要找出每个网站的唯一身份访问者?

我以为mapper会发出siteID\t用户名,reducer会为每个键保留一个唯一用户名的set(),然后发出该组的长度.然而,这可能会在内存中存储数百万个用户名,这似乎并不正确.谁有更好的方法?

我顺便使用python流

谢谢

推荐阅读
mobiledu2402851373
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有