11赞

结合低频率计数

作者：夏晶阳--艺术 | 2023-09-09 16:41

如何解决《结合低频率计数》经验，为你挑选了1个好方法。

尝试通过将低频率计数组合成"其他"类别来折叠名义分类向量:

数据(数据框的列)如下所示,包含所有50个状态的信息:

California
Florida
Alabama
...

table(colname)/length(colname)正确地返回频率,我想要做的是将任何低于给定阈值(比如f = 0.02)的东西混在一起.什么是正确的方法？

1> A5C1D2H2I1M1..：

从它的声音,像下面这样的东西应该适合你:

condenseMe <- function(vector, threshold = 0.02, newName = "Other") {
  toCondense <- names(which(prop.table(table(vector)) < threshold))
  vector[vector %in% toCondense] <- newName
  vector
}

试试看:

## Sample data
set.seed(1)
a <- sample(c("A", "B", "C", "D", "E", sample(letters[1:10], 55, TRUE)))

round(prop.table(table(a)), 2)
# a
#    a    A    b    B    c    C    d    D    e    E    f    g    h 
# 0.07 0.02 0.07 0.02 0.10 0.02 0.10 0.02 0.12 0.02 0.07 0.12 0.13 
#    i    j 
# 0.08 0.07 

a
#  [1] "c" "d" "d" "e" "j" "h" "c" "h" "g" "i" "g" "d" "f" "D" "g" "h"
# [17] "h" "a" "b" "h" "e" "g" "h" "b" "d" "e" "e" "g" "i" "f" "d" "e"
# [33] "g" "c" "g" "a" "B" "i" "i" "b" "i" "j" "f" "d" "c" "h" "E" "j"
# [49] "j" "c" "C" "e" "f" "a" "a" "h" "e" "c" "A" "b"

condenseMe(a)
#  [1] "c"     "d"     "d"     "e"     "j"     "h"     "c"     "h"    
#  [9] "g"     "i"     "g"     "d"     "f"     "Other" "g"     "h"    
# [17] "h"     "a"     "b"     "h"     "e"     "g"     "h"     "b"    
# [25] "d"     "e"     "e"     "g"     "i"     "f"     "d"     "e"    
# [33] "g"     "c"     "g"     "a"     "Other" "i"     "i"     "b"    
# [41] "i"     "j"     "f"     "d"     "c"     "h"     "Other" "j"    
# [49] "j"     "c"     "Other" "e"     "f"     "a"     "a"     "h"    
# [57] "e"     "c"     "Other" "b"

但请注意,如果您正在处理factors,则应as.character首先转换它们.

推荐阅读

程序员
从数组中获取最"流行"的数字

如何解决《从数组中获取最"流行"的数字》经验，为你挑选了1个好方法。 ... [详细]
程序员
在UICollectionViewCell中处理滚动视图大小

如何解决《在UICollectionViewCell中处理滚动视图大小》经验，为你挑选了0个好方法。 ... [详细]
程序员
术语弹性搜索中嵌套字段的聚合

如何解决《术语弹性搜索中嵌套字段的聚合》经验，为你挑选了1个好方法。 ... [详细]
程序员
Linux IRQ处理程序中的固有竞争条件

如何解决《LinuxIRQ处理程序中的固有竞争条件》经验，为你挑选了1个好方法。 ... [详细]
程序员
BlueZ D-Bus C或C++示例

如何解决《BlueZD-BusC或C++示例》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++ - 递归结构 - 它可能吗？

如何解决《C++-递归结构-它可能吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
AngularJS捕获$ http操作的所有状态代码？

如何解决《AngularJS捕获$http操作的所有状态代码？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将字符串转换为size_t

如何解决《将字符串转换为size_t》经验，为你挑选了4个好方法。 ... [详细]
程序员
可重用类库内部的依赖注入（DI）

如何解决《可重用类库内部的依赖注入（DI）》经验，为你挑选了0个好方法。 ... [详细]
程序员
C中的这个操作是什么？

如何解决《C中的这个操作是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Microsoft Server studio'脚本表为'用于INSERT到错误的语法

如何解决《MicrosoftServerstudio'脚本表为'用于INSERT到错误的语法》经验，为你挑选了1个好方法。 ... [详细]
程序员
NuGet - 使用packages.config的依赖项创建nuspec

如何解决《NuGet-使用packages.config的依赖项创建nuspec》经验，为你挑选了0个好方法。 ... [详细]
程序员
将Loaders用于网络请求是不好的做法吗？

如何解决《将Loaders用于网络请求是不好的做法吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Java枚举泛型

如何解决《Java枚举泛型》经验，为你挑选了1个好方法。 ... [详细]
程序员
日志消息processIncoming,handlePacket,sendBufferedRequest重复一个LOT - android

如何解决《日志消息processIncoming,handlePacket,sendBufferedRequest重复一个LOT-android》经验，为你挑选了1个好方法。 ... [详细]
程序员
AX 2009的正确部署过程是什么？

如何解决《AX2009的正确部署过程是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Camel blueprint sql事务管理器

如何解决《Camelblueprintsql事务管理器》经验，为你挑选了0个好方法。 ... [详细]
程序员
由于网络连接速度慢,iOS应用程序退出

如何解决《由于网络连接速度慢,iOS应用程序退出》经验，为你挑选了1个好方法。 ... [详细]
程序员
在编辑器中输入Intellij IDEA非常慢(仅限Scala)

如何解决《在编辑器中输入IntellijIDEA非常慢(仅限Scala)》经验，为你挑选了0个好方法。 ... [详细]
程序员
python-从存在属性的对象列表中收集属性

如何解决《python-从存在属性的对象列表中收集属性》经验，为你挑选了1个好方法。 ... [详细]

夏晶阳--艺术

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章