16赞

对列进行排序并在每个组中选择前n行pandas数据帧

作者：喜生-Da | 2023-09-06 16:10

如何解决《对列进行排序并在每个组中选择前n行pandas数据帧》经验，为你挑选了1个好方法。

我有这样的数据帧:

mainid  pidx    pidy   score
  1      a        b      2
  1      a        c      5
  1      c        a      7
  1      c        b      2
  1      a        e      8
  2      x        y      1
  2      y        z      3
  2      z        y      5
  2      x        w      12
  2      x        v      1
  2      y        x      6

我想groupby on column 'pidx' ,然后sort score in descending order in each group即为每个pidx

然后select head(2)是每组的前2名.

我要找的结果是这样的:

mainid   pidx    pidy    score
  1        a      e        8
  1        a      c        5
  1        c      a        7
  1        c      b        2
  2        x      w        12
  2        x      y        1
  2        y      x        6
  2        y      z        3
  2        z      y        5

我试过的是:

df.sort(['pidx','score'],ascending = False).groupby('pidx').head(2)

这似乎有效,但我不知道如果处理一个庞大的数据集,这是否是正确的方法.我可以用什么其他最好的方法来获得这样的结果？

1> jezrael..：

有两种解决方案:

1. sort_values和聚合head:

df1 = df.sort_values('score',ascending = False).groupby('pidx').head(2)
print (df1)

    mainid pidx pidy  score
8        2    x    w     12
4        1    a    e      8
2        1    c    a      7
10       2    y    x      6
1        1    a    c      5
7        2    z    y      5
6        2    y    z      3
3        1    c    b      2
5        2    x    y      1

2. set_index汇总nlargest:

df = df.set_index(['mainid','pidy']).groupby('pidx')['score'].nlargest(2).reset_index() 
print (df)
  pidx  mainid pidy  score
0    a       1    e      8
1    a       1    c      5
2    c       1    a      7
3    c       1    b      2
4    x       2    w     12
5    x       2    y      1
6    y       2    x      6
7    y       2    z      3
8    z       2    y      5

时间:

np.random.seed(123)
N = 1000000

L1 = list('abcdefghijklmnopqrstu')
L2 = list('efghijklmnopqrstuvwxyz')
df = pd.DataFrame({'mainid':np.random.randint(1000, size=N),
                   'pidx': np.random.randint(10000, size=N),
                   'pidy': np.random.choice(L2, N),
                   'score':np.random.randint(1000, size=N)})
#print (df)

def epat(df):
    grouped = df.groupby('pidx')
    new_df = pd.DataFrame([], columns = df.columns)
    for key, values in grouped:
        new_df = pd.concat([new_df, grouped.get_group(key).sort_values('score', ascending=True)[:2]], 0)
    return (new_df)

print (epat(df))

In [133]: %timeit (df.sort_values('score',ascending = False).groupby('pidx').head(2))
1 loop, best of 3: 309 ms per loop

In [134]: %timeit (df.set_index(['mainid','pidy']).groupby('pidx')['score'].nlargest(2).reset_index())
1 loop, best of 3: 7.11 s per loop

In [147]: %timeit (epat(df))
1 loop, best of 3: 22 s per loop

推荐阅读

程序员
Android 6.0的bug？有权限,但getScanResults()仍然在Android 6.0中返回空列表

如何解决《Android6.0的bug？有权限,但getScanResults()仍然在Android6.0中返回空列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将backButton文本设置为空？

如何解决《如何将backButton文本设置为空？》经验，为你挑选了2个好方法。 ... [详细]
程序员
假对象与模拟对象

如何解决《假对象与模拟对象》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Parse Cloud Code中保存批量数据？

如何解决《如何在ParseCloudCode中保存批量数据？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Spark Streaming + Kafka:SparkException:无法找到Set的前导偏移

如何解决《SparkStreaming+Kafka:SparkException:无法找到Set的前导偏移》经验，为你挑选了1个好方法。 ... [详细]
程序员
ITMS-90037提交应用商店时，Info.plist文件丢失或无法解析

如何解决《ITMS-90037提交应用商店时，Info.plist文件丢失或无法解析》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Clion中自动为.h文件生成函数头？

如何解决《如何在Clion中自动为.h文件生成函数头？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在try-catch块之外访问变量

如何解决《在try-catch块之外访问变量》经验，为你挑选了2个好方法。 ... [详细]
程序员
读取输入的值返回undefined

如何解决《读取输入的值返回undefined》经验，为你挑选了1个好方法。 ... [详细]
程序员
在XCode中的UI测试期间无法访问自定义视图

如何解决《在XCode中的UI测试期间无法访问自定义视图》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过CodePush或AppHub部署应用程序

如何解决《通过CodePush或AppHub部署应用程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法解码下载的字体,OTS解析错误:无效的版本标记+ rails 4

如何解决《无法解码下载的字体,OTS解析错误:无效的版本标记+rails4》经验，为你挑选了3个好方法。 ... [详细]
程序员
ES6作为angularjs或angular2的打字稿目标编译器选项

如何解决《ES6作为angularjs或angular2的打字稿目标编译器选项》经验，为你挑选了1个好方法。 ... [详细]
程序员
函数评估要求所有线程都运行-MVC

如何解决《函数评估要求所有线程都运行-MVC》经验，为你挑选了1个好方法。 ... [详细]
程序员
加速移动页面(AMP)中的SVG部分是否支持IMG标记？

如何解决《加速移动页面(AMP)中的SVG部分是否支持IMG标记？》经验，为你挑选了1个好方法。 ... [详细]
程序员
std :: move或std :: forward,参数为std :: unique_ptr <T> &&

如何解决《std::move或std::forward,参数为std::unique_ptr<T>&&》经验，为你挑选了1个好方法。 ... [详细]
程序员
铸造到'void'真的有什么作用？

如何解决《铸造到'void'真的有什么作用？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Retrofit 2 RxJava - Gson - "全局"反序列化,更改响应类型

如何解决《Retrofit2RxJava-Gson-"全局"反序列化,更改响应类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
请求匹配多个操作,导致ASP.NET 5/MVC 6中具有不同参数的操作不明确

如何解决《请求匹配多个操作,导致ASP.NET5/MVC6中具有不同参数的操作不明确》经验，为你挑选了0个好方法。 ... [详细]
程序员
R googleVis BubbleChart,设置大小而不设置颜色

如何解决《RgoogleVisBubbleChart,设置大小而不设置颜色》经验，为你挑选了0个好方法。 ... [详细]

喜生-Da

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章