1赞

使用dplyr删除所有变量都为NA的行

作者：php | 2023-09-07 14:18

如何解决《使用dplyr删除所有变量都为NA的行》经验，为你挑选了2个好方法。

我在看似简单的任务时遇到了一些问题:删除所有变量都NA使用dplyr的所有行.我知道可以使用基本R(删除R矩阵中的所有数据为NA并删除R中数据文件的空行)来完成,但我很想知道是否有一种简单的方法可以使用dplyr .

例:

library(tidyverse)
dat <- tibble(a = c(1, 2, NA), b = c(1, NA, NA), c = c(2, NA, NA))
filter(dat, !is.na(a) | !is.na(b) | !is.na(c))

filter上面的调用做了我想要的但是在我面临的情况下它是不可行的(因为有大量的变量).我想可以通过使用filter_并首先使用(长)逻辑语句创建一个字符串来实现它,但似乎应该有一个更简单的方法.

另一种方法是使用rowwise()和do():

na <- dat %>% 
  rowwise() %>% 
  do(tibble(na = !all(is.na(.)))) %>% 
  .$na
filter(dat, na)

但这看起来并不太好,虽然它完成了工作.其他想法？

1> MarkusN..：

由于dplyr 0.7.0新,因此存在范围过滤动词.使用filter_any,您可以轻松过滤至少包含一个非缺失列的行:

dat %>% filter_all(any_vars(!is.na(.)))

使用@hejseb基准测试算法,似乎该解决方案与f4一样有效.

我认为这是删除所有na行的最直观的解决方案。另外，值得一提的是当您要检测全无行时，必须使用all_vars（）而不是any_vars（），如`dat％>％filter_all（all_vars（is.na（。）））`

2> hejseb..：

标杆

@DavidArenburg提出了许多替代方案.这是一个简单的基准测试.

library(tidyverse)
library(microbenchmark)

n <- 100
dat <- tibble(a = rep(c(1, 2, NA), n), b = rep(c(1, 1, NA), n))

f1 <- function(dat) {
  na <- dat %>% 
    rowwise() %>% 
    do(tibble(na = !all(is.na(.)))) %>% 
    .$na
  filter(dat, na)
}

f2 <- function(dat) {
  dat %>% filter(rowSums(is.na(.)) != ncol(.))
}

f3 <- function(dat) {
  dat %>% filter(rowMeans(is.na(.)) < 1)
}

f4 <- function(dat) {
  dat %>% filter(Reduce(`+`, lapply(., is.na)) != ncol(.))
}

f5 <- function(dat) {
  dat %>% mutate(indx = row_number()) %>% gather(var, val, -indx) %>% group_by(indx) %>% filter(sum(is.na(val)) != n()) %>% spread(var, val) 
}

# f1 is too slow to be included!
microbenchmark(f2 = f2(dat), f3 = f3(dat), f4 = f4(dat), f5 = f5(dat))

使用Reduce并且lapply似乎是最快的:

> microbenchmark(f2 = f2(dat), f3 = f3(dat), f4 = f4(dat), f5 = f5(dat))
Unit: microseconds
 expr        min          lq       mean      median         uq        max neval
   f2    909.495    986.4680   2948.913   1154.4510   1434.725 131159.384   100
   f3    946.321   1036.2745   1908.857   1221.1615   1805.405   7604.069   100
   f4    706.647    809.2785   1318.694    960.0555   1089.099  13819.295   100
   f5 640392.269 664101.2895 692349.519 679580.6435 709054.821 901386.187   100

使用更大的数据集107,880 x 40:

dat <- diamonds
# Let every third row be NA
dat[seq(1, nrow(diamonds), 3), ]  <- NA
# Add some extra NA to first column so na.omit() wouldn't work
dat[seq(2, nrow(diamonds), 3), 1] <- NA
# Increase size
dat <- dat %>% 
  bind_rows(., .) %>%
  bind_cols(., .) %>%
  bind_cols(., .)
# Make names unique
names(dat) <- 1:ncol(dat)
microbenchmark(f2 = f2(dat), f3 = f3(dat), f4 = f4(dat))

f5太慢了所以它也被排除在外.f4似乎做得比以前好多了.

> microbenchmark(f2 = f2(dat), f3 = f3(dat), f4 = f4(dat))
Unit: milliseconds
 expr      min       lq      mean    median       uq      max neval
   f2 34.60212 42.09918 114.65140 143.56056 148.8913 181.4218   100
   f3 35.50890 44.94387 119.73744 144.75561 148.8678 254.5315   100
   f4 27.68628 31.80557  73.63191  35.36144 137.2445 152.4686   100

推荐阅读

程序员
什么是张量流漂浮参考？

如何解决《什么是张量流漂浮参考？》经验，为你挑选了0个好方法。 ... [详细]
程序员
稀疏矩阵中非零值的平均值？

如何解决《稀疏矩阵中非零值的平均值？》经验，为你挑选了2个好方法。 ... [详细]
程序员
长时间运行的AJAX请求会在几分钟后重新提交

如何解决《长时间运行的AJAX请求会在几分钟后重新提交》经验，为你挑选了0个好方法。 ... [详细]
程序员
Groovy中的sql.rows()运行缓慢

如何解决《Groovy中的sql.rows()运行缓慢》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法手动将已签名的apk安装到设备上,出现错误"App not installed"

如何解决《无法手动将已签名的apk安装到设备上,出现错误"Appnotinstalled"》经验，为你挑选了6个好方法。 ... [详细]
程序员
如果我想要的URL在API的JSON中,我怎样才能获得API的URL？

如何解决《如果我想要的URL在API的JSON中,我怎样才能获得API的URL？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Qt：如何减少我的exe的“重量”

如何解决《Qt：如何减少我的exe的“重量”》经验，为你挑选了1个好方法。 ... [详细]
程序员
"Laravel 5.1"使用userId添加用户和项目

如何解决《"Laravel5.1"使用userId添加用户和项目》经验，为你挑选了0个好方法。 ... [详细]
程序员
Android解密错误

如何解决《Android解密错误》经验，为你挑选了3个好方法。 ... [详细]
程序员
在MSVC中自动生成FMA指令

如何解决《在MSVC中自动生成FMA指令》经验，为你挑选了0个好方法。 ... [详细]
程序员
选中复选框时在阵列上推送数据,并在取消选中复选框时删除数据

如何解决《选中复选框时在阵列上推送数据,并在取消选中复选框时删除数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否有可能改变Angular Material的mdSwitch的假状态颜色？

如何解决《是否有可能改变AngularMaterial的mdSwitch的假状态颜色？》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP exec失败没有错误

如何解决《PHPexec失败没有错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
应用程序在抽屉中使用MMDrawerController Gesture崩溃

如何解决《应用程序在抽屉中使用MMDrawerControllerGesture崩溃》经验，为你挑选了0个好方法。 ... [详细]
程序员
找到Farbtastic颜色选择器当前值

如何解决《找到Farbtastic颜色选择器当前值》经验，为你挑选了1个好方法。 ... [详细]
程序员
在xcode中可以看到0个本地化文件的本地化文件

如何解决《在xcode中可以看到0个本地化文件的本地化文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何查看安装的pip包大小？

如何解决《如何查看安装的pip包大小？》经验，为你挑选了2个好方法。 ... [详细]
程序员
通过PowerShell编写和读取XML配置

如何解决《通过PowerShell编写和读取XML配置》经验，为你挑选了1个好方法。 ... [详细]
程序员
ArrayIndexOutOfBoundsException和IndexOutOfBoundsException之间的区别？

如何解决《ArrayIndexOutOfBoundsException和IndexOutOfBoundsException之间的区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
FactoMineR MCA中"哪个'不符合逻辑"的含义是什么意思？

如何解决《FactoMineRMCA中"哪个'不符合逻辑"的含义是什么意思？》经验，为你挑选了0个好方法。 ... [详细]

php

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章