7赞

带字符串列的HDFStore会产生问题

作者：拾味湖 | 2023-06-13 16:10

如何解决《带字符串列的HDFStore会产生问题》经验，为你挑选了1个好方法。

我有一个熊猫数据帧myDF的几个字符串列(其dtype为object)和许多数字列.我尝试了以下方法:

d=pandas.HDFStore("C:\\PF\\Temp.h5")
d['test']=myDF

我得到了这个结果:

C:\PF\WinPython-64bit-3.3.3.3\python-3.3.3.amd64\lib\site-packages\pandas\io\pytables.py:2446: PerformanceWarning: 

your performance may suffer as PyTables will pickle object types that it cannot
map directly to c-types [inferred_type->mixed,key->block2_values] 
[items->[0, 1, 3, 4, 5, 6, 9, 10, 292, 411, 412, 477, 478, 479, 495, 572, 581, 590, 599, 608, 617, 626, 635]]

  warnings.warn(ws, PerformanceWarning)

看起来每个列都是一个字符串的问题.例如,如果我尝试

myDF[0].dtype

我明白了

Out[38]: dtype('O')

如何解决问题,即更改dtypefor string列,以便HDFStore可以将其视为字符串列？

*编辑*

更多信息请求

>>> pandas.__version__
Out[49]: '0.13.1'

>>> tables.__version__
Out[53]: '3.1.0'

构建pandas数据框如下:

pandas.read_csv(fName,sep="|",header=None,low_memory=False)

当我尝试

myDF.info()

我明白了

Int64Index: 153895 entries, 0 to 153894
Data columns (total 644 columns):
0      object
1      object
2      int64
3      object
4      object
5      object
6      object
7      int64
8      float64
9      object
10     object
11     float64
12     float64
13     float64
14     float64
...
...
642    float64
643    float64
dtypes: float64(619), int64(2), object(23)

所有字符串列均已读为 object

1> Jeff..：

仅当列中包含混合类型时才会发生此警告.不只是字符串,而是字符串AND号.

In [2]: DataFrame({ 'A' : [1.0,'foo'] }).to_hdf('test.h5','df',mode='w')
pandas/io/pytables.py:2439: PerformanceWarning: 
your performance may suffer as PyTables will pickle object types that it cannot
map directly to c-types [inferred_type->mixed,key->block0_values] [items->['A']]

  warnings.warn(ws, PerformanceWarning)

In [3]: df = DataFrame({ 'A' : [1.0,'foo'] })

In [4]: df
Out[4]: 
     A
0    1
1  foo

[2 rows x 1 columns]

In [5]: df.dtypes
Out[5]: 
A    object
dtype: object

In [6]: df['A']
Out[6]: 
0      1
1    foo
Name: A, dtype: object

In [7]: df['A'].values
Out[7]: array([1.0, 'foo'], dtype=object)

因此,您需要确保不要在列中混合使用

如果您有需要转换的列,则可以执行以下操作:

In [9]: columns = ['A']

In [10]: df.loc[:,columns] = df[columns].applymap(str)

In [11]: df
Out[11]: 
     A
0  1.0
1  foo

[2 rows x 1 columns]

In [12]: df['A'].values
Out[12]: array(['1.0', 'foo'], dtype=object)

在`read_csv`中是否有任何选项指定它将任何列视为字符串,如果它显示为MIXED？

推荐阅读

程序员
使用按位运算符的Misra违例

如何解决《使用按位运算符的Misra违例》经验，为你挑选了1个好方法。 ... [详细]
程序员
"GenerateJavaStubs"任务意外失败

如何解决《"GenerateJavaStubs"任务意外失败》经验，为你挑选了3个好方法。 ... [详细]
程序员
Magento 2没有加载CSS和JavaScript

如何解决《Magento2没有加载CSS和JavaScript》经验，为你挑选了3个好方法。 ... [详细]
程序员
在Tinkerpop 3.1中找到两个节点之间最短路径的最佳方法

如何解决《在Tinkerpop3.1中找到两个节点之间最短路径的最佳方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
有CMake' - install'开关吗？

如何解决《有CMake'-install'开关吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
向用户询问H.

如何解决《向用户询问H.》经验，为你挑选了1个好方法。 ... [详细]
程序员
在交互式地图上叠加shapefile或栅格

如何解决《在交互式地图上叠加shapefile或栅格》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio 2015表示'演员是多余的'.为什么？

如何解决《VisualStudio2015表示'演员是多余的'.为什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
调用连接没有匹配功能 - Qt 5.5

如何解决《调用连接没有匹配功能-Qt5.5》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在ios中使用UIImageView + AFNetworking异步加载图像

如何解决《如何在ios中使用UIImageView+AFNetworking异步加载图像》经验，为你挑选了1个好方法。 ... [详细]
程序员
不使用String API的数字位数

如何解决《不使用StringAPI的数字位数》经验，为你挑选了1个好方法。 ... [详细]
程序员
反转HTML标签,了解任务

如何解决《反转HTML标签,了解任务》经验，为你挑选了1个好方法。 ... [详细]
程序员
当使用Karma运行时,使用Immutable.js的Mocha测试失败

如何解决《当使用Karma运行时,使用Immutable.js的Mocha测试失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Facebook广告系列目标与洞察操作类型相匹配

如何解决《将Facebook广告系列目标与洞察操作类型相匹配》经验，为你挑选了0个好方法。 ... [详细]
程序员
Sublime文本绑定鼠标按钮以跳转到光标

如何解决《Sublime文本绑定鼠标按钮以跳转到光标》经验，为你挑选了1个好方法。 ... [详细]
程序员
prose.io"未找到"错误消息

如何解决《prose.io"未找到"错误消息》经验，为你挑选了0个好方法。 ... [详细]
程序员
在three.js中映射一颗行星？

如何解决《在three.js中映射一颗行星？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在TCPDF中正确生成GS1-128(以前的EAN-128)条形码

如何解决《如何在TCPDF中正确生成GS1-128(以前的EAN-128)条形码》经验，为你挑选了1个好方法。 ... [详细]
程序员
在图像上渲染任意文本是否有任何安全隐患？

如何解决《在图像上渲染任意文本是否有任何安全隐患？》经验，为你挑选了1个好方法。 ... [详细]
程序员
GlusterFS或Ceph作为Hadoop的后端

如何解决《GlusterFS或Ceph作为Hadoop的后端》经验，为你挑选了1个好方法。 ... [详细]

拾味湖

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章