3赞

忽略NaN时从pandas.dataframe替换低频分类值

作者：我我檬檬我我186 | 2023-09-07 15:58

如何解决《忽略NaN时从pandas.dataframe替换低频分类值》经验，为你挑选了1个好方法。

如何替换pandas.DataFrame中很少出现的某些列中的值，即出现频率较低（忽略NaN）的值？

例如，在下面的数据框中，假设我要替换列A或B中在其各自列中出现少于三次的任何值。我想将这些替换为“其他”：

import pandas as pd
import numpy as np

df = pd.DataFrame({'A':['ant','ant','cherry', pd.np.nan, 'ant'], 'B':['cat','peach', 'cat', 'cat', 'peach'], 'C':['dog','dog',pd.np.nan, 'emu', 'emu']})
df
   A   |   B   |  C  |
----------------------
ant    | cat   | dog |
ant    | peach | dog |
cherry | cat   | NaN |
NaN    | cat   | emu |
ant    | peach | emu |

换句话说，在A列和B列中，我想替换那些出现两次或更少（但不要理会NaN）的值。

所以我想要的输出是：

   A   |   B   |  C  |
----------------------
ant    | cat   | dog |
ant    | other | dog |
other  | cat   | NaN |
NaN    | cat   | emu |
ant    | other | emu |

这与先前发布的问题有关：从pandas.dataframe删除低频值

但那里的解决方案导致出现“ AttributeError：'NoneType'对象没有属性'any'。”（我想是因为我有NaN值？）

1> ayhan..：

这与根据value_counts（）在pandas数据框中更改值非常相似。您可以向lambda函数添加条件以排除列“ C”，如下所示：

df.apply(lambda x: x.mask(x.map(x.value_counts())<3, 'other') if x.name!='C' else x)
Out: 
       A      B    C
0    ant    cat  dog
1    ant  other  dog
2  other    cat  NaN
3    NaN    cat  emu
4    ant  other  emu

这基本上是遍历列。对于每一列，它都会生成值计数并将该系列用于映射。这允许x.mask检查条件计数是否小于3。如果是这样，它将返回“ other”，否则返回实际值。最后，条件检查列名。

拉姆达的情况可以通过将其更改为一概而论多个列x.name not in 'CDEF'或x.name not in ['C', 'D', 'E', 'F']从x.name!='C'。

推荐阅读

程序员
变化值变化原因不明？

如何解决《变化值变化原因不明？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Xcode崩溃日志没有出现

如何解决《Xcode崩溃日志没有出现》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Python中使用.encode('utf-8')？

如何解决《如何在Python中使用.encode('utf-8')？》经验，为你挑选了1个好方法。 ... [详细]
程序员
动态绑定到唯一observeEvent的actionButtons

如何解决《动态绑定到唯一observeEvent的actionButtons》经验，为你挑选了0个好方法。 ... [详细]
程序员
从(按键)angular2获取按键

如何解决《从(按键)angular2获取按键》经验，为你挑选了2个好方法。 ... [详细]
程序员
Android Studio:找不到com.android.tools.build:gradle:2.0.0-alpha2

如何解决《AndroidStudio:找不到com.android.tools.build:gradle:2.0.0-alpha2》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用SSH.NET时如何在MemoryStream中保存下载的文件

如何解决《使用SSH.NET时如何在MemoryStream中保存下载的文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法在ACRA 4.7.0中解析方法'formKey'

如何解决《无法在ACRA4.7.0中解析方法'formKey'》经验，为你挑选了1个好方法。 ... [详细]
程序员
将表视图设置为编辑模式

如何解决《将表视图设置为编辑模式》经验，为你挑选了4个好方法。 ... [详细]
程序员
使用dict中的值过滤pandas数据帧

如何解决《使用dict中的值过滤pandas数据帧》经验，为你挑选了1个好方法。 ... [详细]
程序员
在python中使用IFF

如何解决《在python中使用IFF》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用Elasticsearch进行AJAX通信的流量和访问控制解决方案？

如何解决《使用Elasticsearch进行AJAX通信的流量和访问控制解决方案？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么我在CakePhP 3.0中找到"TableRegistry not found"？

如何解决《为什么我在CakePhP3.0中找到"TableRegistrynotfound"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用IntelliJ调试在Docker中运行的应用程序？

如何解决《如何使用IntelliJ调试在Docker中运行的应用程序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法理解嵌套循环的大O.

如何解决《无法理解嵌套循环的大O.》经验，为你挑选了1个好方法。 ... [详细]
程序员
向派生类添加不同的属性#

如何解决《向派生类添加不同的属性#》经验，为你挑选了1个好方法。 ... [详细]
程序员
ThreadPoolExcutor和invokeAll列表顺序

如何解决《ThreadPoolExcutor和invokeAll列表顺序》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取matlab显示平方根(即2 ^(1/2)而不是1.414)

如何解决《获取matlab显示平方根(即2^(1/2)而不是1.414)》经验，为你挑选了1个好方法。 ... [详细]
程序员
按python中的第一（或第二，否则）列对文件排序

如何解决《按python中的第一（或第二，否则）列对文件排序》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么ClassLoader的缓存按升序检查？

如何解决《为什么ClassLoader的缓存按升序检查？》经验，为你挑选了1个好方法。 ... [详细]

我我檬檬我我186

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章