2赞

在读取文件的生成器上进行Python多处理

作者：重庆制造漫画社 | 2023-09-10 19:36

如何解决《在读取文件的生成器上进行Python多处理》经验，为你挑选了1个好方法。

我正在尝试读取和处理1000个文件,但不幸的是,处理文件的时间大约是从磁盘读取文件的3倍,因此我希望在读入时处理这些文件(当我在我继续阅读其他文件).

在一个完美的世界中,我有一个一次读取一个文件的生成器,我想将这个生成器传递给一个工作池,这些工作器在(缓慢)生成时处理来自生成器的项目.

这是一个例子:

def process_file(file_string):
     ...
     return processed_file

 pool = Pool(processes=4)
 path = 'some/path/'
 results = pool.map(process_file, (open(path+part,'rb').read() for part in os.listdir(path)))

上面代码的唯一问题是在池开始之前所有文件都被读入内存,这意味着我需要等待磁盘读取所有内容,并且还消耗大量内存.

1> ShadowRanger..：

Pool.map和Pool.map_async listIFY的iterable传递给他们,让您的发电机总是会实现的处理,甚至开始前充分.

各种Pool.imap*函数似乎将输入作为生成器处理,因此您可以更改:

results = pool.map(process_file, (open(path+part,'rb').read() for part in os.listdir(path)))

至:

# If you can process outputs one at a time, drop the list wrapper
# If you can process outputs without order mattering, imap_unordered will
# get you the best results
results = list(pool.imap(process_file, (open(path+part,'rb').read() for part in os.listdir(path))))

并且在处理之前得到相同的结果而不是啜饮,但是AFAICT,他们仍然会尽可能快地完全填充队列,这可能会导致大量数据未完成并且内存使用过多; 除此之外,您将在一个进程中读取所有数据,然后通过IPC发送所有数据,这意味着您仍然主要是I/O上的瓶颈.

在你的位置,我将读取移动到任务本身(如果可以,请避免读取整个文件,按行或按块处理,而不是一次读取整个文件).你可以获得并行读取,减少IPC,并且在前几个文件被处理之前你不会冒险啜饮所有文件; 你永远不会有比工人更多的文件.所以最终结果如下:

def process_file(path):
     with open(path, 'rb') as f:
         file_string = f.read()
     ... same as before ...
     return processed_file

pool = Pool(processes=4)
path = 'some/path/'
results = pool.imap(process_file, (os.path.join(path, part) for part in os.listdir(path)))

推荐阅读

程序员
PhoneGap中Android Marshmallow的应用权限

如何解决《PhoneGap中AndroidMarshmallow的应用权限》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在laravel 5.1迁移中使用外键

如何解决《如何在laravel5.1迁移中使用外键》经验，为你挑选了1个好方法。 ... [详细]
程序员
iOS蓝牙背景模式

如何解决《iOS蓝牙背景模式》经验，为你挑选了1个好方法。 ... [详细]
程序员
Javascript调整大小不同的图像,只有宽度很重要

如何解决《Javascript调整大小不同的图像,只有宽度很重要》经验，为你挑选了0个好方法。 ... [详细]
程序员
com.datastax.driver.core.exceptions.InvalidQueryException:unconfigured table schema_keyspaces

如何解决《com.datastax.driver.core.exceptions.InvalidQueryException:unconfiguredtableschema_keyspaces》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么我必须明确告诉Spark要缓存什么？

如何解决《为什么我必须明确告诉Spark要缓存什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么(int i = 0 ;; i ++)被认为是无限循环？

如何解决《为什么(inti=0;;i++)被认为是无限循环？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C＃和Unity 3D：当用户移动鼠标时，如何使相机在对象周围移动

如何解决《C＃和Unity3D：当用户移动鼠标时，如何使相机在对象周围移动》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Kubernetes API中启用CORS

如何解决《在KubernetesAPI中启用CORS》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP7 + Symfony 2.8,无法写入会话数据

如何解决《PHP7+Symfony2.8,无法写入会话数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Microsoft Edge中还原会话

如何解决《如何在MicrosoftEdge中还原会话》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Chrome浏览器中的Chrome网站上添加主屏幕横幅广告？

如何解决《如何在Chrome浏览器中的Chrome网站上添加主屏幕横幅广告？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何移动到离子上的下一个输入字段

如何解决《如何移动到离子上的下一个输入字段》经验，为你挑选了0个好方法。 ... [详细]
程序员
Webgl:最远的飞机能见度

如何解决《Webgl:最远的飞机能见度》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用scanf for for循环

如何解决《使用scanfforfor循环》经验，为你挑选了1个好方法。 ... [详细]
程序员
函数中传递地址和大小的点

如何解决《函数中传递地址和大小的点》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何检查是否存在第二个参数

如何解决《如何检查是否存在第二个参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
检查序列的列表

如何解决《检查序列的列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将C运行时库与'ld'链接？

如何解决《如何将C运行时库与'ld'链接？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在列表中通过正则表达式过滤字符串

如何解决《在列表中通过正则表达式过滤字符串》经验，为你挑选了2个好方法。 ... [详细]

重庆制造漫画社

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章