14赞

过滤掉不符合条件的组行

作者：牛尾巴2010 | 2023-09-10 17:16

如何解决《过滤掉不符合条件的组行》经验，为你挑选了1个好方法。

以下是用于此问题的代码:

set.seed(1337)
myDT <- data.table(Key1 = sample(letters, 500, replace = TRUE),
                   Key2 = sample(LETTERS[1:5], 500, TRUE),
                   Data = sample(1:26, 500, replace = TRUE))
setkey(myDT, Key1, Key2)
# showing what myDT looks like
> myDT
     Key1 Key2 Data
  1:    a    A    6
  2:    a    A    3
  3:    a    B    2
  4:    a    B   20
  5:    a    B   13
 ---               
496:    z    D   23
497:    z    E    3
498:    z    E   18
499:    z    E   11
500:    z    E    2

我想配对myDT,只为每个Key1,Key2对获取最大的数据值.例如(使用(Key1,Key2)表示一对)(a,A)我想摆脱Data为3的行并保持Data为6的行.对于(z,E)我想要仅保留Data为18的行.

在输入这个问题时,我找到了一个解决方案(我将在下面发布),但请帮助我知道如何处理这个问题.

1> jangorecki..：

我的答案

myDT[order(-Data), head(.SD, 1), by = .(Key1, Key2)]
# if you are on 1.9.6 or lower use this one
myDT[order(-Data), .SD[1], by = .(Key1, Key2)]

或者来自评论

unique(myDT[order(-Data)], by = c("Key1", "Key2"))

基准50M行.

library(dplyr)
library(data.table)
library(microbenchmark)
set.seed(1337)
n = 5e7
myDT <- data.table(Key1 = sample(letters, n, replace = TRUE),
                   Key2 = sample(LETTERS[1:5], n, TRUE),
                   Data = sample(1:26, n, replace = TRUE))
setkey(myDT, Key1, Key2)

microbenchmark(times = 10L,
               CathG = myDT[, .SD[which.max(Data)], by = .(Key1, Key2)],
               jangorecki = myDT[order(-Data), head(.SD, 1), by = .(Key1, Key2)],
               jangorecki.keeporder = myDT[order(-Data), head(.SD, 1), keyby = .(Key1, Key2)],
               nist = myDT %>% group_by(Key1,Key2) %>% summarise(Data = max(Data)),
               David = unique(myDT[order(-Data)], by = c("Key1", "Key2")))

#Unit: milliseconds
#                 expr       min        lq      mean   median        uq       max neval
#                CathG  659.6150  689.3035  733.9177  739.795  780.0075  811.1456    10
#           jangorecki 2844.7565 3026.3385 3089.6764 3097.332 3219.1951 3343.9919    10
# jangorecki.keeporder 2935.3733 3194.1606 3232.9297 3214.581 3308.0735 3411.4319    10
#                 nist  803.1921  844.5002 1011.7878 1007.755 1188.6127 1228.3869    10
#                David 3410.4853 3501.5918 3590.2382 3590.190 3652.8091 3803.9038    10

以前发布的小数据基准显示了很多不同的结果,所以我认为它在很大程度上取决于数据,不仅仅是数量,还有基数(唯一值的数量) - 在某些情况下甚至更多.

推荐阅读

程序员
查询对象和规范模式之间的差异

如何解决《查询对象和规范模式之间的差异》经验，为你挑选了1个好方法。 ... [详细]
程序员
WebSocket可以动态切换其binaryType吗？

如何解决《WebSocket可以动态切换其binaryType吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
该行在c ++中意味着什么

如何解决《该行在c++中意味着什么》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用自定义wiki创建Fork GitHub项目

如何解决《使用自定义wiki创建ForkGitHub项目》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么相同的git脚本产生不同的哈希？

如何解决《为什么相同的git脚本产生不同的哈希？》经验，为你挑选了1个好方法。 ... [详细]
程序员
睡眠不适用于pyqt4

如何解决《睡眠不适用于pyqt4》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我的流浪者vm上的木偶代理不能连接到我的vm上的puppetmaster服务？

如何解决《为什么我的流浪者vm上的木偶代理不能连接到我的vm上的puppetmaster服务？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Web API:使用CancellationToken的DelegatingHandler

如何解决《WebAPI:使用CancellationToken的DelegatingHandler》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在java中将字符串集合转换为字符串数组

如何解决《如何在java中将字符串集合转换为字符串数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
基本的PHP页面不起作用

如何解决《基本的PHP页面不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何投放Youtube等视频？几乎即时发挥和快速寻求

如何解决《如何投放Youtube等视频？几乎即时发挥和快速寻求》经验，为你挑选了0个好方法。 ... [详细]
程序员
外线虚拟方法

如何解决《外线虚拟方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何保持Qt5中小部件的特定高宽比？

如何解决《如何保持Qt5中小部件的特定高宽比？》经验，为你挑选了0个好方法。 ... [详细]
程序员
iOS:google + sdk在获得Google +权限后重定向到google.com,而不是重定向回应用

如何解决《iOS:google+sdk在获得Google+权限后重定向到google.com,而不是重定向回应用》经验，为你挑选了1个好方法。 ... [详细]
程序员
你如何按顺序写一个文件的计数器？

如何解决《你如何按顺序写一个文件的计数器？》经验，为你挑选了1个好方法。 ... [详细]
程序员
解析WiFi数据包(libpcap)

如何解决《解析WiFi数据包(libpcap)》经验，为你挑选了0个好方法。 ... [详细]
程序员
Firefox插件中的脚本之间的通信sdk - self.port不存在

如何解决《Firefox插件中的脚本之间的通信sdk-self.port不存在》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Enumerable.Range中获取上限

如何解决《如何在Enumerable.Range中获取上限》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Sublime Text 2中交换文本选择

如何解决《在SublimeText2中交换文本选择》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何检查列表是否只有一个真值？

如何解决《如何检查列表是否只有一个真值？》经验，为你挑选了6个好方法。 ... [详细]

牛尾巴2010

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章