19赞

根据计数从pandas数据帧中选择随机行

作者：路人甲 | 2023-09-07 16:32

如何解决《根据计数从pandas数据帧中选择随机行》经验，为你挑选了1个好方法。

我有一个像下面这样的熊猫数据框:

col1, col2, label
a,    b   , cat
b,    b1, , mouse
.
.
.........., elephant
.........., mouse

和value_counts标签栏:

df.dataframe.value_counts:

cat: 7599
mouse: 6458
dog: 5100
elephant: 5000

我想随机从每个标签类别中选择至少N行,以便我的value_counts变为:

cat: N
mouse: N
dog: N
elephant: N

有这种做法的"pandoic"方式吗？

1> MaxU..：

您可以先使用sample(frac = 1)方法对DF进行洗牌,然后从每个组中挑选前N行(分组label):

df.sample(frac=1).groupby('label', sort=False).head(N)

演示:

In [108]: df.sample(frac=1).groupby('label', sort=False).head(3)
Out[108]:
    col1 label
11     9     a
28     4     a
58     0     a
96     5     c
99     3     b
35     6     c
88     8     c
97     9     b
83     7     b

建立:

In [106]: df = pd.DataFrame({'label':np.random.choice(list('abc'), 100), 'col1':np.random.randint(0, 10, 100)})

In [107]: df
Out[107]:
    col1 label
0      4     c
1      6     b
2      9     c
3      0     b
4      5     a
5      3     a
6      3     b
7      6     c
8      7     b
9      6     a
..   ...   ...
90     4     b
91     5     b
92     8     c
93     2     c
94     9     a
95     2     a
96     5     c
97     9     b
98     8     b
99     3     b

[100 rows x 2 columns]

提示:如果你想找到最大可能的N - 你可以使用下面的代码(感谢@NickilMaveli的想法)

N = df.label.value_counts(sort=False).min()  # (or) df.label.value_counts().iloc[-1]

推荐阅读

程序员
如何使用toad for MySQL将阿拉伯语文本从MySQL数据库导出到csv？

如何解决《如何使用toadforMySQL将阿拉伯语文本从MySQL数据库导出到csv？》经验，为你挑选了0个好方法。 ... [详细]
程序员
将代码/文件直接注入Google Cloud Engine中Kubernetes的容器中

如何解决《将代码/文件直接注入GoogleCloudEngine中Kubernetes的容器中》经验，为你挑选了2个好方法。 ... [详细]
程序员
FormatException:找不到任何可识别的数字

如何解决《FormatException:找不到任何可识别的数字》经验，为你挑选了1个好方法。 ... [详细]
程序员
JS功能在Chrome中运行,但在Firefox中不起作用

如何解决《JS功能在Chrome中运行,但在Firefox中不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
文字底部+中心UILabel iOS Swift

如何解决《文字底部+中心UILabeliOSSwift》经验，为你挑选了1个好方法。 ... [详细]
程序员
UWP应用程序可以移植到Windows 7吗？

如何解决《UWP应用程序可以移植到Windows7吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Facebook使用Fragments共享

如何解决《Facebook使用Fragments共享》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android Studio 2.0 Preview:':app:transformClassesWithInstantRunForDebug'FAILED

如何解决《AndroidStudio2.0Preview:':app:transformClassesWithInstantRunForDebug'FAILED》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我不能在"while"上称之为"gist"？(Perl 6)

如何解决《为什么我不能在"while"上称之为"gist"？(Perl6)》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在iOS 8和9中14天后重复本地通知

如何解决《如何在iOS8和9中14天后重复本地通知》经验，为你挑选了1个好方法。 ... [详细]
程序员
Apple News使用什么来确定何时显示图像？

如何解决《AppleNews使用什么来确定何时显示图像？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Nodejs承诺不能正常工作？

如何解决《Nodejs承诺不能正常工作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring Stomp Web Sockets Client for Android

如何解决《SpringStompWebSocketsClientforAndroid》经验，为你挑选了0个好方法。 ... [详细]
程序员
ObjectList/Repeater的QML DefaultProperty

如何解决《ObjectList/Repeater的QMLDefaultProperty》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在IntelliJ中一次对多个错误应用“快速修复”？

如何解决《如何在IntelliJ中一次对多个错误应用“快速修复”？》经验，为你挑选了1个好方法。 ... [详细]
程序员
给出ReferenceError的mocha命令:未定义窗口

如何解决《给出ReferenceError的mocha命令:未定义窗口》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用PHP获取服务器响应时间

如何解决《如何使用PHP获取服务器响应时间》经验，为你挑选了1个好方法。 ... [详细]
程序员
CUDA流压缩算法

如何解决《CUDA流压缩算法》经验，为你挑选了1个好方法。 ... [详细]
程序员
ListView.set.adapter导致NullPointerException

如何解决《ListView.set.adapter导致NullPointerException》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果在Swift中为nil,那么赋值的速记？

如何解决《如果在Swift中为nil,那么赋值的速记？》经验，为你挑选了1个好方法。 ... [详细]

路人甲

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章