当前位置:  开发笔记 > 编程语言 > 正文

通过读取Python的dask模块中的pickle文件来创建dask数据帧

如何解决《通过读取Python的dask模块中的pickle文件来创建dask数据帧》经验,为你挑选了1个好方法。

当我试图通过读取pickle文件创建一个dask数据帧时,我得到一个错误

import dask.dataframe as dd
ds_df = dd.read_pickle("D:\test.pickle")

AttributeError: 'module' object has no attribute 'read_pickle'

but  it works fine with read_csv

在熊猫中它像往常一样成功.

所以请纠正我,如果我在那里做错了什么或在dask我们无法通过阅读pickle文件来创建数据帧.



1> MRocklin..:

请注意,dask.dataframe不能完全实现Pandas.你不应该期望每个pandas操作在dask.dataframe中都有模拟.

我们没有选择从pickle文件中实现读取,特别是因为没有办法只读取部分pickle文件; 一切都被立即转移到内存中.因此,当从磁盘一块一块地读取大数据集时,pickle文件没有多大价值.

如果您只是寻找并行性,那么我建议pandas.read_pickle一起使用dask.dataframe.from_pandas

df = pd.read_pickle(...)
ddf = dd.from_pandas(df, npartitions=8)

推荐阅读
ifx0448363
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有