使用R到COUNT()和GROUP_CONCAT(DISTINCT x)

作者：TXCWB_523 | 2023-09-10 12:11

如何解决《使用R到COUNT()和GROUP_CONCAT(DISTINCTx)》经验，为你挑选了2个好方法。

我正在使用R分析我的Web服务器日志:

data = read.table("/path/to/log", sep=" ")

这些日志包括最终用户IP地址和USER_ID(登录后).

我正在寻找比平时更活跃的用户,或者使用比平常更多的IP地址.

我现在可以通过USER_ID将R分组并计算记录:

counts <- ddply(data, .(data$user_id), nrow);
names(counts) <- c("user_id", "freq");
print(counts[order(counts$freq),c(2,1)], row.names = FALSE);

freq  user_id
   1    10171
  40     7433
  94      210
 102     2043

但我还想添加一个GROUP_CONCAT(DISTINCT IP)的等价物,如SQL中所示,我也可以看到该用户的不同IP地址列表.

freq  user_id  ips
   1    10171  192.168.0.1
  40     7433  192.168.0.5,192.168.0.2
  94      210  192.168.0.9
 102     2043  192.168.0.1,192.168.0.3,192.168.0.8

在SQL中,它看起来像:

SELECT
    user_id,
    COUNT(id) AS freq,
    GROUP_CONCAT(DISTINCT ip SEPARATOR ",") AS ips
FROM
    log_table
GROUP BY
    user_id
ORDER BY
    freq ASC;

这可能与aggregate()函数有关,但我现在还没想出来.

1> akrun..：

我们可以dplyr.我们按'user_id'进行分组,然后将'freq'作为行数(n())和'ips'作为paste(unique(ip), collapse=', ')(或我们toString用作包装器).

library(dplyr) 
data %>%
    group_by(user_id) %>%
    summarise(freq= n(), ips= toString(unique(ip)))
    #not sure we wanted the nrow or `length`  of `unique` 'ip'
    #if the latter is the case
    #summarise(freq=n_distinct(ip), ips = toString(unique(ip)))

如果我们想要一个base R解决方案

do.call(data.frame, aggregate(ip~user_id, data,
    FUN= function(x) c(freq= length(unique(ip)), ips=toString(unique(ip))))

2> MichaelChiri..：

在data.table我们能做到:

library(data.table)
setDT(data)
data[ , .N , by = user_id]

请注意,在最新版本data.table(自提交cd756e2,2015-09-26,此处为安装说明)中,此计数操作已针对速度进行了优化(根据一些基准测试,应该大约快8倍).

对于后者,这将起作用:

data[ , paste(unique(ip), collapse = ","), by = user_id]

要同时获得两者:

data[ , .(freq = .N, ips = paste(unique(ip), collapse = ",")),
     by = user_id]

如果你想按频率对它进行排序,找出"最大的罪魁祸首"是谁:

data[ , .(freq = .N, ips = paste(unique(ip), collapse = ",")),
     by = user_id][order(-freq)]

推荐阅读

程序员
在SPA应用程序中正确使用ASP.NET 5中的AntiForgery令牌？

如何解决《在SPA应用程序中正确使用ASP.NET5中的AntiForgery令牌？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Angular2异常:无法绑定到'routerLink',因为它不是已知的本机属性

如何解决《Angular2异常:无法绑定到'routerLink',因为它不是已知的本机属性》经验，为你挑选了6个好方法。 ... [详细]
程序员
如何仅使用css隐藏一个选项元素

如何解决《如何仅使用css隐藏一个选项元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
EnumSet序列化

如何解决《EnumSet序列化》经验，为你挑选了1个好方法。 ... [详细]
程序员
Pandas groupby与bin计数

如何解决《Pandasgroupby与bin计数》经验，为你挑选了1个好方法。 ... [详细]
程序员
相同的表达但不同的结果

如何解决《相同的表达但不同的结果》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果缺少可选值，则显式输出JSON null

如何解决《如果缺少可选值，则显式输出JSONnull》经验，为你挑选了1个好方法。 ... [详细]
程序员
RxJava Android链接了许多不同类型的请求

如何解决《RxJavaAndroid链接了许多不同类型的请求》经验，为你挑选了1个好方法。 ... [详细]
程序员
调用Redmine API时jsonp获得404

如何解决《调用RedmineAPI时jsonp获得404》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使谷歌地图响应？

如何解决《如何使谷歌地图响应？》经验，为你挑选了1个好方法。 ... [详细]
程序员
具有方法指针参数的默认值的模板

如何解决《具有方法指针参数的默认值的模板》经验，为你挑选了1个好方法。 ... [详细]
程序员
CSS转换在Edge中不起作用

如何解决《CSS转换在Edge中不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
在编译时检测c#版本

如何解决《在编译时检测c#版本》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法修改lua中的循环变量

如何解决《无法修改lua中的循环变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python re不能拆分零宽度锚点？

如何解决《Pythonre不能拆分零宽度锚点？》经验，为你挑选了1个好方法。 ... [详细]
程序员
“具有此类的id，在调用save（）之前必须手动分配该类的id”

如何解决《“具有此类的id，在调用save（）之前必须手动分配该类的id”》经验，为你挑选了1个好方法。 ... [详细]
程序员
这个数字在Bash的段错误信息中意味着什么？

如何解决《这个数字在Bash的段错误信息中意味着什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Nginx返回路径的文件

如何解决《Nginx返回路径的文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
在TypeScript中实例化一个类

如何解决《在TypeScript中实例化一个类》经验，为你挑选了1个好方法。 ... [详细]
程序员
缩放图像而不会丢失图像质量不起作用

如何解决《缩放图像而不会丢失图像质量不起作用》经验，为你挑选了0个好方法。 ... [详细]

TXCWB_523

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章