Python Pandas分组聚合的实现方法

作者：拾味湖 | 2022-02-22 13:58

这篇文章主要介绍了PythonPandas分组聚合的实现方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

Pycharm 鼠标移动到函数上，CTRL+Q可以快速查看文档，CTR+P可以看基本的参数。

apply(),applymap()和map()

apply()和applymap()是DataFrame的函数，map()是Series的函数。

apply()的操作对象是DataFrame的一行或者一列数据，applymap()是DataFrame的每一个元素。map()也是Series中的每一个元素。

apply()对dataframe的内容进行批量处理, 这样要比循环来得快。如df.apply(func,axis=0,.....) func：定义的函数，axis=0时为对列操作，=1时为对行操作。

map()和python内建的没啥区别，如df['one'].map(sqrt)。

import numpy as np

from pandas import Series, DataFrame

 

frame = DataFrame(np.random.randn(4, 3),

         columns = list('bde'),

         index = ['Utah', 'Ohio', 'Texas', 'Oregon'])

print frame

print np.abs(frame)

print

 

f = lambda x: x.max() - x.min()

print frame.apply(f)

print frame.apply(f, axis = 1)

def f(x):

  return Series([x.min(), x.max()], index = ['min', 'max'])

print frame.apply(f)

print

 

print 'applymap和map'

_format = lambda x: '%.2f' % x

print frame.applymap(_format)

print frame['e'].map(_format)

Groupby

Groupby是Pandas中最为常用和有效的分组函数，有sum()、count()、mean()等统计函数。

groupby 方法返回的 DataFrameGroupBy 对象实际并不包含数据内容，它记录的是df['key1'] 的中间数据。当你对分组数据应用函数或其他聚合运算时，pandas 再依据 groupby 对象内记录的信息对 df 进行快速分块运算，并返回结果。

df = DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],

        'key2': ['one', 'two', 'one', 'two', 'one'],

        'data1': np.random.randn(5),

        'data2': np.random.randn(5)})

grouped = df.groupby(df['key1'])

print grouped.mean() 



df.groupby(lambda x:'even' if x%2==0 else 'odd').mean() #通过函数分组

聚合agg()

对于分组的某一列(行)或者多个列(行，axis=0/1)，应用agg(func)可以对分组后的数据应用func函数。例如：用grouped['data1'].agg('mean')也是对分组后的'data1'列求均值。当然也可以同时作用于多个列(行)和使用多个函数上。

df = DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],

        'key2': ['one', 'two', 'one', 'two', 'one'],

        'data1': np.random.randn(5),

        'data2': np.random.randn(5)})

grouped = df.groupby('key1')

print grouped.agg('mean')

 

     data1   data2

key1          

a   0.749117 0.220249

b  -0.567971 -0.126922

apply()和agg()功能上差不多,apply()常用来处理不同分组的缺失数据的填充和top N的计算，会产生层级索引。

而agg可以同时传入多个函数，作用于不同的列。

df = DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],

        'key2': ['one', 'two', 'one', 'two', 'one'],

        'data1': np.random.randn(5),

        'data2': np.random.randn(5)})

grouped = df.groupby('key1')

print grouped.agg(['sum','mean'])
print grouped.apply(np.sum)  #apply的在这里同样适用，只是不能传入多个,这两个函数基本是可以通用的。

         data1               data2
           sum      mean       sum      mean
key1
a     2.780273 0.926758 -1.561696 -0.520565
b    -0.308320 -0.154160 -1.382162 -0.691081

         data1     data2 key1       key2
key1
a     2.780273 -1.561696 aaa onetwoone
b    -0.308320 -1.382162   bb     onetwo

apply和agg功能上基本是相近的，但是多个函数的时候还是agg比较方便。

apply本身的自由度很高，如果分组之后不做聚合操作紧紧是一些观察的时候，apply就有用武之地了。

print grouped.apply(lambda x: x.describe())

 

        data1   data2

key1             

a  count 3.000000 3.000000

   mean -0.887893 -1.042878

   std  0.777515 1.551220

   min  -1.429440 -2.277311

   25%  -1.333350 -1.913495

   50%  -1.237260 -1.549679

   75%  -0.617119 -0.425661

   max  0.003021 0.698357

b  count 2.000000 2.000000

   mean -0.078983 0.106752

   std  0.723929 0.064191

   min  -0.590879 0.061362

   25%  -0.334931 0.084057

   50%  -0.078983 0.106752

   75%  0.176964 0.129447

   max  0.432912 0.152142

此外apply还能改变返回数据的维度。

http://pandas.pydata.org/pandas-docs/stable/groupby.html

此外还有透视表pivot_table ，交叉表crosstab ，但是我没用过。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

推荐阅读

程序员
Android:状态栏颜色更改,API级别低于21

如何解决《Android:状态栏颜色更改,API级别低于21》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以提交MVC6视图组件吗？

如何解决《我可以提交MVC6视图组件吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
扩展RepositoryRestExceptionHandler

如何解决《扩展RepositoryRestExceptionHandler》经验，为你挑选了1个好方法。 ... [详细]
程序员
MongoDB TimeZone

如何解决《MongoDBTimeZone》经验，为你挑选了1个好方法。 ... [详细]
程序员
Pandas df.describe(),是否有可能在没有移调的情况下按行进行？

如何解决《Pandasdf.describe(),是否有可能在没有移调的情况下按行进行？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何截断XMM寄存器中的浮点值

如何解决《如何截断XMM寄存器中的浮点值》经验，为你挑选了1个好方法。 ... [详细]
程序员
在基于标签栏的应用程序上添加导航栏

如何解决《在基于标签栏的应用程序上添加导航栏》经验，为你挑选了1个好方法。 ... [详细]
程序员
比较两个对象中存在的属性

如何解决《比较两个对象中存在的属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++不能直接在小例子中调用构造函数

如何解决《C++不能直接在小例子中调用构造函数》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Administrate Gem Rails中设置Admin

如何解决《在AdministrateGemRails中设置Admin》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从vscode扩展写入日志？

如何解决《如何从vscode扩展写入日志？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么Roslyn在尝试重写这个lambda时会崩溃？(Visual Studio 2015更新1)

如何解决《为什么Roslyn在尝试重写这个lambda时会崩溃？(VisualStudio2015更新1)》经验，为你挑选了1个好方法。 ... [详细]
程序员
Sparql变量在块内部未绑定的块之外

如何解决《Sparql变量在块内部未绑定的块之外》经验，为你挑选了1个好方法。 ... [详细]
程序员
JSON模式枚举与单值的模式

如何解决《JSON模式枚举与单值的模式》经验，为你挑选了2个好方法。 ... [详细]
程序员
隐式意图的自定义权限

如何解决《隐式意图的自定义权限》经验，为你挑选了0个好方法。 ... [详细]
程序员
散景,两个y轴,禁用一个轴进行缩放/平移

如何解决《散景,两个y轴,禁用一个轴进行缩放/平移》经验，为你挑选了0个好方法。 ... [详细]
程序员
在服务器端登录用户帐户

如何解决《在服务器端登录用户帐户》经验，为你挑选了1个好方法。 ... [详细]
程序员
Kendo TabStrip中的Kendo MVC网格

如何解决《KendoTabStrip中的KendoMVC网格》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在symfony WebTestCase中通过测试中的fixture类型获取doctrine fixture引用？

如何解决《如何在symfonyWebTestCase中通过测试中的fixture类型获取doctrinefixture引用？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如果消息是由制作人制作的,如何从Kafka经纪人那里得到确认？

如何解决《如果消息是由制作人制作的,如何从Kafka经纪人那里得到确认？》经验，为你挑选了0个好方法。 ... [详细]

拾味湖

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章