16赞

dask包没有使用所有核心？备择方案？

作者：echo7111436 | 2023-09-11 10:45

如何解决《dask包没有使用所有核心？备择方案？》经验，为你挑选了0个好方法。

我有一个python脚本,它执行以下操作:i.它接受数据的输入文件(通常是嵌套的JSON格式)ii.将数据逐行传递给另一个函数,该函数将数据处理成所需的格式iii.最后它将输出写入文件.

这是我目前的简单python线,这样做......

def manipulate(line):
    # a pure python function which transforms the data
    # ...
    return manipulated_json

for line in f:
    components.append(manipulate(ujson.loads(line)))
    write_to_csv(components)`

这有效,但是python GIL将它限制在服务器上的一个核心,它的速度非常慢,特别是对于大量数据.

我通常处理的数据量约为4 gig gzip压缩,但偶尔我必须处理数百gig gzip压缩的数据.它不是必需的大数据,但仍无法在内存中进行处理,并且Python的GIL处理速度非常慢.

在寻找优化数据处理的解决方案时,我遇到了dask.虽然PySpark在当时似乎是我的明显解决方案,但是dask的承诺和它的简单性让我受益匪浅,我决定尝试一下.

经过对dask的大量研究以及如何使用它,我整理了一个非常小的脚本来复制我当前的过程.该脚本如下所示:

import dask.bag as bag
import json
bag.from_filenames('input.json.gz').map(json.loads).map(lambda x:manipulate(x)).concat().to_dataframe().to_csv('output.csv.gz')`

这工作并产生与原始非dask脚本相同的结果,但它仍然只在服务器上使用一个CPU.所以,它根本没有帮助.事实上,它的速度较慢.

我究竟做错了什么？我错过了什么吗？我仍然相当新闻,所以如果我忽略了某些事情或者我应该做一些完全不同的事情,请告诉我.

另外,是否有任何替代方法可以使用服务器的全部容量(即所有CPU)来完成我需要做的事情？

谢谢,

推荐阅读

程序员
为什么lambda不会从达到范围捕获类型const double,但const int是？

如何解决《为什么lambda不会从达到范围捕获类型constdouble,但constint是？》经验，为你挑选了2个好方法。 ... [详细]
程序员
JavaScript中有"! - "做什么？

如何解决《JavaScript中有"!-"做什么？》经验，为你挑选了10个好方法。 ... [详细]
程序员
通过联系人ID查询发票时，Xero API不返回值

如何解决《通过联系人ID查询发票时，XeroAPI不返回值》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用许多不同种类的表情符号和语言时，对C ++ JNI NewStringUTF的调用会使android应用程序崩溃（除了ascii，但仍然是有效的修改版utf-8）

如何解决《使用许多不同种类的表情符号和语言时，对C++JNINewStringUTF的调用会使android应用程序崩溃（除了ascii，但仍然是有效的修改版utf-8）》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Python数组中使用通配符？

如何解决《在Python数组中使用通配符？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Hexfloat机械手和精度

如何解决《Hexfloat机械手和精度》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Three.js中拉伸圆几何？

如何解决《如何在Three.js中拉伸圆几何？》经验，为你挑选了1个好方法。 ... [详细]
程序员
播放无法连接到(PostgreSQL)数据库[默认]

如何解决《播放无法连接到(PostgreSQL)数据库[默认]》经验，为你挑选了1个好方法。 ... [详细]
程序员
在mingw-w64 / msys2中编译的应用程序，“该应用程序无法正确启动（0xc00007b）”

如何解决《在mingw-w64/msys2中编译的应用程序，“该应用程序无法正确启动（0xc00007b）”》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用PowerMockito 1.6验证静态方法调用

如何解决《使用PowerMockito1.6验证静态方法调用》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用List中的数组 - OOP - Generic List

如何解决《使用List中的数组-OOP-GenericList》经验，为你挑选了1个好方法。 ... [详细]
程序员
Prolog打印所有解决方案并希望获得是/否输出

如何解决《Prolog打印所有解决方案并希望获得是/否输出》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何获得R中两个向量之间元素的第n个匹配？

如何解决《如何获得R中两个向量之间元素的第n个匹配？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何安排任务运行一次？

如何解决《如何安排任务运行一次？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Paypal与Flask应用程序的集成

如何解决《Paypal与Flask应用程序的集成》经验，为你挑选了0个好方法。 ... [详细]
程序员
Azure服务总线队列消息在Message.Abandon之后崩溃

如何解决《Azure服务总线队列消息在Message.Abandon之后崩溃》经验，为你挑选了1个好方法。 ... [详细]
程序员
理解with语句以捕获unittest类中的ValueError

如何解决《理解with语句以捕获unittest类中的ValueError》经验，为你挑选了1个好方法。 ... [详细]
程序员
带有`$ q`的角度执行顺序 - 链接承诺

如何解决《带有`$q`的角度执行顺序-链接承诺》经验，为你挑选了1个好方法。 ... [详细]
程序员
在scikit-learn Pipeline中插入或删除一个步骤

如何解决《在scikit-learnPipeline中插入或删除一个步骤》经验，为你挑选了2个好方法。 ... [详细]
程序员
super().__ init __()中的'意外的关键字参数'

如何解决《super().__init__()中的'意外的关键字参数'》经验，为你挑选了1个好方法。 ... [详细]

echo7111436

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章