6赞

R:根据列表的分类变量创建虚拟变量

作者：跟我搞对象吧 | 2023-09-07 11:14

如何解决《R:根据列表的分类变量*创建虚拟变量*》经验，为你挑选了2个好方法。

我有一个带有分类变量的数据框,其中包含可变长度的字符串列表(这很重要,因为否则此问题将与此或此重复),例如:

df <- data.frame(x = 1:5)
df$y <- list("A", c("A", "B"), "C", c("B", "D", "C"), "E")
df

  x       y
1 1       A
2 2    A, B
3 3       C
4 4 B, D, C
5 5       E

并且所需的形式是在任何地方看到的每个唯一字符串的虚拟变量df$y,即:

data.frame(x = 1:5, A = c(1,1,0,0,0), B = c(0,1,0,1,0), C = c(0,0,1,1,0), D = c(0,0,0,1,0), E = c(0,0,0,0,1))

  x A B C D E
1 1 1 0 0 0 0
2 2 1 1 0 0 0
3 3 0 0 1 0 0
4 4 0 1 1 1 0
5 5 0 0 0 0 1

这种天真的方法有效:

> uniqueStrings <- unique(unlist(df$y))
> n <- ncol(df)
> for (i in 1:length(uniqueStrings)) {
+   df[,  n + i] <- sapply(df$y, function(x) ifelse(uniqueStrings[i] %in% x, 1, 0))
+   colnames(df)[n + i] <- uniqueStrings[i]
+ }

然而,对于大数据帧,它非常难看,懒惰和缓慢.

有什么建议？有什么好看的tidyverse吗？

更新:我有三种不同的方法.我system.time在我的(Windows 7,32GB RAM)笔记本电脑上使用真实数据集测试它们,包括1M行,每行包含长度为1到4个字符串的列表(大约350个唯一字符串值),磁盘上总共200MB.所以预期的结果是一个尺寸为1M x 350的数据框.(@Sotos)tidyverse和base(@ joel.wilson)方法花了这么长时间我不得不重新启动R.但是qdapTools(@akrun)方法却很棒:

> system.time(res1 <- mtabulate(varsLists))
   user  system elapsed 
  47.05   10.27  116.82

所以这是我接受的方法.

1> akrun..：

我们可以用 mtabulate

library(qdapTools)
cbind(df[1], mtabulate(df$y))
#  x A B C D E
#1 1 1 0 0 0 0
#2 2 1 1 0 0 0
#3 3 0 0 1 0 0
#4 4 0 1 1 1 0
#5 5 0 0 0 0 1

@GioraSimchoni也是; 我想一个基本的选择是`table(rep(df $ x,lengths(df $ y)),unlist(df $ y))`？

2> Sotos..：

另一个想法,

library(dplyr)
library(tidyr)

df %>% 
 unnest(y) %>% 
 mutate(new = 1) %>% 
 spread(y, new, fill = 0) 

#  x A B C D E
#1 1 1 0 0 0 0
#2 2 1 1 0 0 0
#3 3 0 0 1 0 0
#4 4 0 1 1 1 0
#5 5 0 0 0 0 1

另外您在评论中提到的情况下,我们可以使用dcast从reshape2因为它比更灵活spread,

df2 <- df %>% 
        unnest(y) %>% 
        group_by(x) %>% 
        filter(!duplicated(y)) %>% 
        ungroup()

reshape2::dcast(df2, x ~ y, value.var = 'y', length)

#  x A B C D E
#1 1 1 0 0 0 0
#2 2 1 1 0 0 0
#3 3 0 0 1 0 0
#4 4 0 1 1 1 0
#5 5 0 0 0 0 1

#or with df$x <- c(1, 1, 2, 2, 3)

#  x A B C D E
#1 1 1 1 0 0 0
#2 2 0 1 1 1 0
#3 3 0 0 0 0 1

#or with df$x <- rep(1,5)

#  x A B C D E
#1 1 1 1 1 1 1

推荐阅读

程序员
Visual Studio for ASP.NET 5项目是否需要.sln文件？它可以只使用Global.json吗？

如何解决《VisualStudioforASP.NET5项目是否需要.sln文件？它可以只使用Global.json吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Python中有效地分割数据

如何解决《在Python中有效地分割数据》经验，为你挑选了0个好方法。 ... [详细]
程序员
kubernetes本地集群创建pod有'ErrImagePull'和'ImagePullBackOff'之类的错误

如何解决《kubernetes本地集群创建pod有'ErrImagePull'和'ImagePullBackOff'之类的错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
按组计算摘要并将值返回到数据框中

如何解决《按组计算摘要并将值返回到数据框中》经验，为你挑选了2个好方法。 ... [详细]
程序员
从Swift中的NSBundle获取文件路径

如何解决《从Swift中的NSBundle获取文件路径》经验，为你挑选了1个好方法。 ... [详细]
程序员
我没有在sdk中获取'com.google.android.gms:play-services-wallet:8.4.0'更新Google Play服务

如何解决《我没有在sdk中获取'com.google.android.gms:play-services-wallet:8.4.0'更新GooglePlay服务》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Enum转换为TextBlock文本内的字符串

如何解决《将Enum转换为TextBlock文本内的字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有办法避免在Android中使用instanceOf？

如何解决《有没有办法避免在Android中使用instanceOf？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Typesafe配置类型转换为java.util.Properties

如何解决《将Typesafe配置类型转换为java.util.Properties》经验，为你挑选了1个好方法。 ... [详细]
程序员
在KDevelop进行多线编辑？

如何解决《在KDevelop进行多线编辑？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Ubuntu 15.10中无法终止使用python创建的sudo进程

如何解决《在Ubuntu15.10中无法终止使用python创建的sudo进程》经验，为你挑选了1个好方法。 ... [详细]
程序员
在扇形图中R与其他包比fanplot

如何解决《在扇形图中R与其他包比fanplot》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Smalltalk中,如果x是一个数组,并且x at:3 put:123将起作用,那么(x at:3)+ 1如何工作？

如何解决《在Smalltalk中,如果x是一个数组,并且xat:3put:123将起作用,那么(xat:3)+1如何工作？》经验，为你挑选了2个好方法。 ... [详细]
程序员
str_replace"NA"出现意外行为

如何解决《str_replace"NA"出现意外行为》经验，为你挑选了0个好方法。 ... [详细]
程序员
向活动添加按钮以打开浏览器URL

如何解决《向活动添加按钮以打开浏览器URL》经验，为你挑选了1个好方法。 ... [详细]
程序员
CakePHP 3.1 patchEntity在清理时始终将belongsToMany关联标记为脏

如何解决《CakePHP3.1patchEntity在清理时始终将belongsToMany关联标记为脏》经验，为你挑选了0个好方法。 ... [详细]
程序员
删除R中的反斜杠和引号

如何解决《删除R中的反斜杠和引号》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用SpreadsheetApp脚本重置范围颜色

如何解决《使用SpreadsheetApp脚本重置范围颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
PostgreSQL子字符串在括号之间获取字符串

如何解决《PostgreSQL子字符串在括号之间获取字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
当使用::？指定模块时,为什么Ruby不能在更高的范围内查找类？

如何解决《当使用::？指定模块时,为什么Ruby不能在更高的范围内查找类？》经验，为你挑选了1个好方法。 ... [详细]

跟我搞对象吧

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章