19赞

熊猫:如何更快地申请数据框？

作者：手机用户2402852387 | 2023-09-07 15:26

如何解决《熊猫:如何更快地申请数据框？》经验，为你挑选了1个好方法。

假设在我计算列该只大熊猫例如C乘以A与B和float使用,如果一定条件满足apply一个lambda功能:

import pandas as pd
df = pd.DataFrame({'A':[1,2,3,4,5,6,7,8,9],'B':[9,8,7,6,5,4,3,2,1]})

df['C'] = df.apply(lambda x: x.A if x.B > 5 else 0.1*x.A*x.B, axis=1)

预期结果将是:

   A  B    C
0  1  9  1.0
1  2  8  2.0
2  3  7  3.0
3  4  6  4.0
4  5  5  2.5
5  6  4  2.4
6  7  3  2.1
7  8  2  1.6
8  9  1  0.9

问题是这段代码很慢,我需要在大约5600万行的数据帧上执行此操作.

%timeit上述lambda操作的结果是:

1000 loops, best of 3: 1.63 ms per loop

从我的大型数据帧上的计算时间和内存使用情况开始,我假设此操作在进行计算时使用中间序列.

我尝试以不同的方式制定它,包括使用临时列,但我提出的每个替代解决方案都更慢.

有没有办法以不同的更快的方式获得我需要的结果,例如通过使用numpy？

1> Divakar..：

为了提高性能,您可能最好使用NumPy阵列并使用np.where-

a = df.values # Assuming you have two columns A and B
df['C'] = np.where(a[:,1]>5,a[:,0],0.1*a[:,0]*a[:,1])

运行时测试

def numpy_based(df):
    a = df.values # Assuming you have two columns A and B
    df['C'] = np.where(a[:,1]>5,a[:,0],0.1*a[:,0]*a[:,1])

计时 -

In [271]: df = pd.DataFrame(np.random.randint(0,9,(10000,2)),columns=[['A','B']])

In [272]: %timeit numpy_based(df)
1000 loops, best of 3: 380 µs per loop

In [273]: df = pd.DataFrame(np.random.randint(0,9,(10000,2)),columns=[['A','B']])

In [274]: %timeit df['C'] = df.A.where(df.B.gt(5), df[['A', 'B']].prod(1).mul(.1))
100 loops, best of 3: 3.39 ms per loop

In [275]: df = pd.DataFrame(np.random.randint(0,9,(10000,2)),columns=[['A','B']])

In [276]: %timeit df['C'] = np.where(df['B'] > 5, df['A'], 0.1 * df['A'] * df['B'])
1000 loops, best of 3: 1.12 ms per loop

In [277]: df = pd.DataFrame(np.random.randint(0,9,(10000,2)),columns=[['A','B']])

In [278]: %timeit df['C'] = np.where(df.B > 5, df.A, df.A.mul(df.B).mul(.1))
1000 loops, best of 3: 1.19 ms per loop

仔细看看

让我们仔细看看NumPy的数字运算能力,并与大熊猫进行比较 -

# Extract out as array (its a view, so not really expensive
#   .. as compared to the later computations themselves)

In [291]: a = df.values 

In [296]: %timeit df.values
10000 loops, best of 3: 107 µs per loop

案例#1:使用NumPy数组并使用numpy.where:

In [292]: %timeit np.where(a[:,1]>5,a[:,0],0.1*a[:,0]*a[:,1])
10000 loops, best of 3: 86.5 µs per loop

再次,分配到一个新列:df['C']也不会非常昂贵 -

In [300]: %timeit df['C'] = np.where(a[:,1]>5,a[:,0],0.1*a[:,0]*a[:,1])
1000 loops, best of 3: 323 µs per loop

案例#2:使用pandas数据帧并使用其.where方法(无NumPy)

In [293]: %timeit df.A.where(df.B.gt(5), df[['A', 'B']].prod(1).mul(.1))
100 loops, best of 3: 3.4 ms per loop

案例#3:使用pandas数据帧(没有NumPy数组),但使用numpy.where-

In [294]: %timeit np.where(df['B'] > 5, df['A'], 0.1 * df['A'] * df['B'])
1000 loops, best of 3: 764 µs per loop

案例#4:再次使用pandas数据帧(没有NumPy数组),但使用numpy.where-

In [295]: %timeit np.where(df.B > 5, df.A, df.A.mul(df.B).mul(.1))
1000 loops, best of 3: 830 µs per loop

推荐阅读

程序员
XPages REST服务和外部系统身份验证

如何解决《XPagesREST服务和外部系统身份验证》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么redux建议只连接到顶级组件？

如何解决《为什么redux建议只连接到顶级组件？》经验，为你挑选了2个好方法。 ... [详细]
程序员
php -l:抑制有效文件的输出

如何解决《php-l:抑制有效文件的输出》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以将ionic serve设置为默认不打开浏览器吗？

如何解决《我可以将ionicserve设置为默认不打开浏览器吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
是否可以将perror()生成的消息发送到/ var/log/syslog？

如何解决《是否可以将perror()生成的消息发送到/var/log/syslog？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django:自定义用户模型的返回字段

如何解决《Django:自定义用户模型的返回字段》经验，为你挑选了2个好方法。 ... [详细]
程序员
免费滚动粘贴侧边栏没有jQuery

如何解决《免费滚动粘贴侧边栏没有jQuery》经验，为你挑选了1个好方法。 ... [详细]
程序员
python 2.7 windows silent installer(.msi) - 命令行选项设置路径？

如何解决《python2.7windowssilentinstaller(.msi)-命令行选项设置路径？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Haskell - 构造如何从Monad调用失败函数？

如何解决《Haskell-构造如何从Monad调用失败函数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
安装了sympy,但是没有找到sympy.mpmath

如何解决《安装了sympy,但是没有找到sympy.mpmath》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何替换/删除所有但是字符串中的第一个字符

如何解决《如何替换/删除所有但是字符串中的第一个字符》经验，为你挑选了1个好方法。 ... [详细]
程序员
Azure应用程序洞察使用调用堆栈进行调试

如何解决《Azure应用程序洞察使用调用堆栈进行调试》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将gradle项目导入STS 3.7.2

如何解决《如何将gradle项目导入STS3.7.2》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以有条件地选择要分配的变量吗？

如何解决《我可以有条件地选择要分配的变量吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Android Multidex RuntimeException

如何解决《AndroidMultidexRuntimeException》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否有R函数来获取预期计数表？

如何解决《是否有R函数来获取预期计数表？》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误:要求'ranchu'不可用

如何解决《错误:要求'ranchu'不可用》经验，为你挑选了1个好方法。 ... [详细]
程序员
删除"NUL"字符(在R中)

如何解决《删除"NUL"字符(在R中)》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Evernote API为新的Evernote Web编辑器生成打开的链接

如何解决《使用EvernoteAPI为新的EvernoteWeb编辑器生成打开的链接》经验，为你挑选了0个好方法。 ... [详细]
程序员
Angular JS：检测ng-bind-html是否完成加载，然后突出显示代码语法

如何解决《AngularJS：检测ng-bind-html是否完成加载，然后突出显示代码语法》经验，为你挑选了1个好方法。 ... [详细]

手机用户2402852387

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章