20赞

匹配/分组重复行(索引)

作者：李桂平2402851397 | 2023-09-10 05:10

如何解决《匹配/分组重复行(索引)》经验，为你挑选了2个好方法。

如何有效地匹配/分组重复行的索引？

假设我有这个数据集:

set.seed(14)
dat <- data.frame(mtcars[sample(1:5, 14, TRUE), ])[sample.int(14), ]
rownames(dat) <- NULL
dat 

##     mpg cyl disp  hp drat    wt  qsec vs am gear carb
## 1  22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## 2  21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## 3  18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## 4  22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## 5  22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## 6  22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## 7  18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## 8  18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## 9  22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## 10 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## 11 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## 12 21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## 13 21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## 14 21.0   6  160 110 3.90 2.620 16.46  0  1    4    4

我可以使用找到重复的所有索引(包括第一个重复)

which_duplicated <- function(dat){
    which(duplicated(dat) | duplicated(dat[nrow(dat):1, ])[nrow(dat):1])
}

which_duplicated(dat)

## [1]  1  2  3  4  5  6  7  8  9 10 11 13

但我希望能够匹配这些指数,如下所示:

list(
    c(2, 13),
    c(1, 4, 5, 6, 9),
    c(3, 7, 8, 10, 11)
)

我怎样才能有效地做到这一点？

1> A5C1D2H2I1M1..：

这是使用"data.table"的可能性:

library(data.table)
as.data.table(dat)[, c("GRP", "N") := .(.GRP, .N), by = names(dat)][
                   N > 1, list(list(.I)), by = GRP]
##    GRP             V1
## 1:   1      1,4,5,6,9
## 2:   2           2,13
## 3:   3  3, 7, 8,10,11

基本思想是创建一个"分组"其他列(使用.GRP)的列以及一个计算有多少重复行(使用.N)的列,然后过滤任何具有多个副本的列,并放置"GRP" "列成一个list.

2> akrun..：

我们可以用dplyr.使用与@ AnandaMahto的帖子类似的方法,我们创建一个行索引列名称(add_rownames(),按所有列分组,我们filter将每个组中的行数大于1的数据集,summarise将"rowname"创建为a list并提取该list列.

library(dplyr)
add_rownames(dat) %>% 
      group_by_(.dots= names(dat)) %>% 
      filter(n()>1) %>%
      summarise(rn= list(rowname))%>%
      .$rn
 #[[1]]
 #[1] "3"  "7"  "8"  "10" "11"

 #[[2]]
 #[1] "2"  "13"

 #[[3]]
 #[1] "1" "4" "5" "6" "9"

这两种解决方案都非常出色(与我自己没有想过的逻辑相同)并且效率很高.我用绿色勾选标记Ananda的解决方案,因为他首先使用逻辑.谢谢你+1

推荐阅读

程序员
为什么我被迫返回None的类型值？

如何解决《为什么我被迫返回None的类型值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
业力测试对scope.function中的函数的调用

如何解决《业力测试对scope.function中的函数的调用》经验，为你挑选了0个好方法。 ... [详细]
程序员
在dplyr中同时导出分组值的唯一值和汇总值计数的有效方法

如何解决《在dplyr中同时导出分组值的唯一值和汇总值计数的有效方法》经验，为你挑选了0个好方法。 ... [详细]
程序员
numpy.std和excel STDEV函数有什么区别吗？

如何解决《numpy.std和excelSTDEV函数有什么区别吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Haskell/Elm中的语法

如何解决《Haskell/Elm中的语法》经验，为你挑选了1个好方法。 ... [详细]
程序员
验证大于Rails模型中现有的列

如何解决《验证大于Rails模型中现有的列》经验，为你挑选了1个好方法。 ... [详细]
程序员
C:二维阵列的大小

如何解决《C:二维阵列的大小》经验，为你挑选了3个好方法。 ... [详细]
程序员
iOS中的欧元货币格式化程序在数字之前/之后移动符号

如何解决《iOS中的欧元货币格式化程序在数字之前/之后移动符号》经验，为你挑选了1个好方法。 ... [详细]
程序员
Liskov替换原则和使用继承类的正确方法

如何解决《Liskov替换原则和使用继承类的正确方法》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何模拟配置阶段提供程序进行单元测试？

如何解决《如何模拟配置阶段提供程序进行单元测试？》经验，为你挑选了1个好方法。 ... [详细]
程序员
单个文件卷作为目录安装在Docker中

如何解决《单个文件卷作为目录安装在Docker中》经验，为你挑选了4个好方法。 ... [详细]
程序员
结合Alamofire和RxSwift

如何解决《结合Alamofire和RxSwift》经验，为你挑选了1个好方法。 ... [详细]
程序员
将整数值转换为字符串,如果失败则设置"##" - SSRS

如何解决《将整数值转换为字符串,如果失败则设置"##"-SSRS》经验，为你挑选了1个好方法。 ... [详细]
程序员
SQL选择以大写字母开头的值

如何解决《SQL选择以大写字母开头的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
ASP.NET 5 MVC6中的@ Ajax.ActionLink

如何解决《ASP.NET5MVC6中的@Ajax.ActionLink》经验，为你挑选了0个好方法。 ... [详细]
程序员
NSTimer不工作Swift

如何解决《NSTimer不工作Swift》经验，为你挑选了1个好方法。 ... [详细]
程序员
电报机器人-如何创建带有mypokerbot之类的图标的回复菜单？

如何解决《电报机器人-如何创建带有mypokerbot之类的图标的回复菜单？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++指定Struct的实际大小

如何解决《C++指定Struct的实际大小》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP正则表达式和javascript正则表达式之间有什么区别

如何解决《PHP正则表达式和javascript正则表达式之间有什么区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在AngularJS Dropdown Multiselect中使用onItemSelect和onItemDeselect两个事件

如何解决《如何在AngularJSDropdownMultiselect中使用onItemSelect和onItemDeselect两个事件》经验，为你挑选了1个好方法。 ... [详细]

李桂平2402851397

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章