从采样用户名中推断网站用户群的大小的方法

作者：农大军乐团_697 | 2023-08-31 15:52

如何解决《从采样用户名中推断网站用户群的大小的方法》经验，为你挑选了1个好方法。

假设您想要估计不公布此信息的站点的用户群的大小.

人们更有可能获得具有不同概率的不同用户名.例如,如果系统上不存在用户名"nick",则可能具有极小的用户群.如果用户名为"starbaby",则可能是一个更大的网站.这似乎是一个简单的贝叶斯问题.

存在的问题是,不同的站点可能具有不同的允许用户名空间.我想,最大的问题是空间等常见字符的合法性.另一个可能会污染先前发布的问题是网站是否会在您想要的网站上显示名称,或者让您自己想出更具创意的名称.

您如何构建跨不同系统的用户名出现频率的训练集？有没有办法使用贝叶斯进行数值估算而不是分类到固定宽度的桶？

1> Stompchicken..：

您需要做的是根据注册的用户数准确估计某个用户名出现的概率.假设N是用户数,如果用户u存在,则u = 1,如果不存在,则为0.

首先,假设每个用户名的概率分布彼此独立.这不是真的 - 你已经提出了一个原因 - 但它可能是必要的,因为它使数据收集和数学更容易.

您将需要来自具有注册用户名的站点以及该站点的用户总数的大量数据.现在,取任何特定的用户名并在2d图上想象你的数据点(在x上为N,在y上为u),在y = 0时将有一个水平线,而在y = 1时将有另一个水平线.您可以按照建议对x轴进行分区,并获取分箱中所有数据点的平均y坐标以获得离散函数,或者您可以尝试将图上的点拟合到某类函数.我真的不知道那类函数会是什么 - 也许某种幂律？(我在考虑Zipf定律).

您现在有概率分布来应用贝叶斯规则.我不知道你想要使用的N先前是什么样的.统一分布(一些大的数字)不会做出任何假设,但我猜大多数网站都有一个小的用户群.

我怀疑为了使这项工作成功,当您从站点中对用户进行抽样时,您需要为特定的一组用户执行此操作.我敢打赌,用户名的流行将会有很长的尾巴,所以随机抽样的用户会给你很多很少使用的名字,因此有很多无法提供的证据.

编辑:我有另一个想法; 在大多数论坛(以及StackOverflow)上,用户都有连续的用户ID,因此您可以使用具有大量用户的单个站点来估算所有较小的N.

推荐阅读

程序员
无法在Android Studio中更新JDK位置

如何解决《无法在AndroidStudio中更新JDK位置》经验，为你挑选了1个好方法。 ... [详细]
程序员
在相同片段的不同实例之间进行通信

如何解决《在相同片段的不同实例之间进行通信》经验，为你挑选了2个好方法。 ... [详细]
程序员
C++ 11如何通过int值获取枚举类值？

如何解决《C++11如何通过int值获取枚举类值？》经验，为你挑选了2个好方法。 ... [详细]
程序员
安装和注册shell扩展上下文菜单来自wix安装程序

如何解决《安装和注册shell扩展上下文菜单来自wix安装程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用retofit2和RxAndroid取消请求

如何解决《如何使用retofit2和RxAndroid取消请求》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么非const std :: array :: operator []不是constexpr？

如何解决《为什么非conststd::array::operator[]不是constexpr？》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何使用CSS水平居中链接元素？

如何解决《如何使用CSS水平居中链接元素？》经验，为你挑选了1个好方法。 ... [详细]
程序员
更改字符时拆分字符串

如何解决《更改字符时拆分字符串》经验，为你挑选了2个好方法。 ... [详细]
程序员
PEAR和Composer有什么区别？

如何解决《PEAR和Composer有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
哪一个是有效的初始化变量ie)构造函数或激活方法？

如何解决《哪一个是有效的初始化变量ie)构造函数或激活方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用正则表达式对列表元素进行排序？

如何解决《如何使用正则表达式对列表元素进行排序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Swift中的UITextView属性自定义UIView的加载时间较慢

如何解决《使用Swift中的UITextView属性自定义UIView的加载时间较慢》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么时候应该使用静态数据成员与const全局变量？

如何解决《什么时候应该使用静态数据成员与const全局变量？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何保持cts:从匹配内部XML标签突出显示？

如何解决《如何保持cts:从匹配内部XML标签突出显示？》经验，为你挑选了1个好方法。 ... [详细]
程序员
IIS配置错误 - 此配置部分不能在此路径中使用

如何解决《IIS配置错误-此配置部分不能在此路径中使用》经验，为你挑选了5个好方法。 ... [详细]
程序员
保护和加密多租户云应用程序的共享数据库中的数据

如何解决《保护和加密多租户云应用程序的共享数据库中的数据》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在不编写长查询的情况下查询所有GraphQL类型字段？

如何解决《如何在不编写长查询的情况下查询所有GraphQL类型字段？》经验，为你挑选了4个好方法。 ... [详细]
程序员
拖放将自定义HTML拖放为拖动图像

如何解决《拖放将自定义HTML拖放为拖动图像》经验，为你挑选了1个好方法。 ... [详细]
程序员
C中三个有效值的平均值

如何解决《C中三个有效值的平均值》经验，为你挑选了0个好方法。 ... [详细]
程序员
用JavaScript创建MP4视频

如何解决《用JavaScript创建MP4视频》经验，为你挑选了1个好方法。 ... [详细]

农大军乐团_697

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章