当我试图通过读取pickle文件创建一个dask数据帧时,我得到一个错误
import dask.dataframe as dd ds_df = dd.read_pickle("D:\test.pickle") AttributeError: 'module' object has no attribute 'read_pickle' but it works fine with read_csv
在熊猫中它像往常一样成功.
所以请纠正我,如果我在那里做错了什么或在dask我们无法通过阅读pickle文件来创建数据帧.
请注意,dask.dataframe不能完全实现Pandas.你不应该期望每个pandas操作在dask.dataframe中都有模拟.
我们没有选择从pickle文件中实现读取,特别是因为没有办法只读取部分pickle文件; 一切都被立即转移到内存中.因此,当从磁盘一块一块地读取大数据集时,pickle文件没有多大价值.
如果您只是寻找并行性,那么我建议pandas.read_pickle
一起使用dask.dataframe.from_pandas
df = pd.read_pickle(...) ddf = dd.from_pandas(df, npartitions=8)