7赞

使用Hadoop统计独特访客的最佳方式是什么？

作者：mobiledu2402851373 | 2023-07-09 16:34

如何解决《使用Hadoop统计独特访客的最佳方式是什么？》经验，为你挑选了0个好方法。

嘿所有,刚刚开始使用hadoop并且很好奇如果你的日志文件看起来像这样,mapreduce的最佳方式是计算唯一访问者...

DATE       siteID  action   username
05-05-2010 siteA   pageview jim
05-05-2010 siteB   pageview tom
05-05-2010 siteA   pageview jim
05-05-2010 siteB   pageview bob
05-05-2010 siteA   pageview mike

对于每个网站,您想要找出每个网站的唯一身份访问者？

我以为mapper会发出siteID\t用户名,reducer会为每个键保留一个唯一用户名的set(),然后发出该组的长度.然而,这可能会在内存中存储数百万个用户名,这似乎并不正确.谁有更好的方法？

我顺便使用python流

谢谢

推荐阅读

程序员
ImportError:动态模块没有定义模块导出函数(PyInit__caffe)

如何解决《ImportError:动态模块没有定义模块导出函数(PyInit__caffe)》经验，为你挑选了1个好方法。 ... [详细]
程序员
Bash提示脚本

如何解决《Bash提示脚本》经验，为你挑选了1个好方法。 ... [详细]
程序员
水平RecyclerView与开始填充

如何解决《水平RecyclerView与开始填充》经验，为你挑选了2个好方法。 ... [详细]
程序员
UIStackview具有不同对齐的子视图

如何解决《UIStackview具有不同对齐的子视图》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用Laravel将身份验证从一个用户切换到另一个用户

如何解决《如何使用Laravel将身份验证从一个用户切换到另一个用户》经验，为你挑选了0个好方法。 ... [详细]
程序员
微服务:分解基于图形数据库的应用程序

如何解决《微服务:分解基于图形数据库的应用程序》经验，为你挑选了0个好方法。 ... [详细]
程序员
Facebook Instant Articles错误"HTML元素不包含任何文本:避免包含空HTML元素"

如何解决《FacebookInstantArticles错误"HTML元素不包含任何文本:避免包含空HTML元素"》经验，为你挑选了1个好方法。 ... [详细]
程序员
在卫兵中使用功能时的二郎"非法守卫表达"

如何解决《在卫兵中使用功能时的二郎"非法守卫表达"》经验，为你挑选了1个好方法。 ... [详细]
程序员
添加剂,半添加剂和非添加剂措施之间的区别是什么

如何解决《添加剂,半添加剂和非添加剂措施之间的区别是什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Composer安装高级Wordpress主题

如何解决《使用Composer安装高级Wordpress主题》经验，为你挑选了0个好方法。 ... [详细]
程序员
关于C++中的复制控制

如何解决《关于C++中的复制控制》经验，为你挑选了1个好方法。 ... [详细]
程序员
HTTP状态403 - 未找到预期的CSRF令牌.你的会话已经过期了吗？

如何解决《HTTP状态403-未找到预期的CSRF令牌.你的会话已经过期了吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
将cURL转换为Guzzle POST

如何解决《将cURL转换为GuzzlePOST》经验，为你挑选了1个好方法。 ... [详细]
程序员
在自定义UIView中添加自动布局约束代码的位置

如何解决《在自定义UIView中添加自动布局约束代码的位置》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么我的swagger.json是空的？ - RestEasy,Wildfly上的Java

如何解决《为什么我的swagger.json是空的？-RestEasy,Wildfly上的Java》经验，为你挑选了0个好方法。 ... [详细]
程序员
适用于Visual Studio 2015 Update 1的MicroUpdate 1.1

如何解决《适用于VisualStudio2015Update1的MicroUpdate1.1》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将动态变量传递到ASP.NET MVC中的authorize属性类中？

如何解决《如何将动态变量传递到ASP.NETMVC中的authorize属性类中？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Spark使用上一行的值向数据框添加新列

如何解决《Spark使用上一行的值向数据框添加新列》经验，为你挑选了1个好方法。 ... [详细]
程序员
在基于buildout的Plone站点中使用非最新的git checkout

如何解决《在基于buildout的Plone站点中使用非最新的gitcheckout》经验，为你挑选了1个好方法。 ... [详细]
程序员
INSERT INTO语句不起作用

如何解决《INSERTINTO语句不起作用》经验，为你挑选了1个好方法。 ... [详细]

mobiledu2402851373

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章