5赞

使用pandas read_csv时,仅将分隔符限制为某些选项卡

作者：围脖上的博博_771 | 2023-09-08 10:44

如何解决《使用pandasread_csv时,仅将分隔符限制为某些选项卡》经验，为你挑选了0个好方法。

我正在使用read_csv将一些制表符分隔的数据读入pandas Dataframe,但我在列数据中出现了标签,这意味着我不能只使用"\ t"作为分隔符.具体来说,每行中的最后一个条目是一组制表符分隔的可选标记,它们匹配[A-Za-z] [A-Za-z0-9]:[A-Za-z] :. +没有任何保证将有多少标签或将存在哪些标签,并且不同的标签可以出现在不同的行上.示例数据如下所示(所有空格都是我数据中的选项卡):

C42TMACXX:5:2316:15161:76101    163 1   @<@DFFADDDF:DD  NH:i:1  HI:i:1  AS:i:200    nM:i:0
C42TMACXX:5:2316:15161:76101    83  1   CCCCCACDDDCB@B  NH:i:1  HI:i:1  nM:i:1
C42TMACXX:5:1305:26011:74469    163 1   CCCFFFFFHHHHGJ  NH:i:1  HI:i:1  AS:i:200    nM:i:0

我建议尝试将标签作为单个列读取,我想我可以通过传递分隔符的正则表达式来完成此操作,该分隔符排除了在标签上下文中出现的标签.

关于http://www.rexegg.com/regex-best-trick.html,我为此写了以下正则表达式:[A-Za-z] [A-Za-z0-9]:[A-Za-z] :[^ \吨] + \吨..:|(\吨).我在一个在线正则表达式测试器上测试它,它似乎只是匹配我想要的选项卡作为分隔符.

但是当我跑步的时候

df = pd.read_csv(myfile.txt, sep=r"[A-Za-z][A-Za-z0-9]:[A-Za-z]:[^\t]+\t..:|(\t)", 
                 header=None, engine="python")
print(df)

我得到这个数据的以下输出:

                          0       1    2   3   4   5               6   7   8 \
0  C42TMACXX:5:2316:15161:76101  \t  163  \t   1  \t  @<@DFFADDDF:DD  \t NaN   
1  C42TMACXX:5:2316:15161:76101  \t   83  \t   1  \t  CCCCCACDDDCB@B  \t NaN   
2  C42TMACXX:5:1305:26011:74469  \t  163  \t   1  \t  CCCFFFFFHHHHGJ  \t NaN   

   9    10  11      12  13    14  
0 NaN  i:1  \t     NaN NaN   i:0  
1 NaN  i:1  \t  nM:i:1 NaN  None  
2 NaN  i:1  \t     NaN NaN   i:0

我期待/想要的是:

                          0        1  2               3                      4
0  C42TMACXX:5:2316:15161:76101  163  1  @<@DFFADDDF:DD  NH:i:1 HI:i:1 AS:i:200 nM:i:0   
1  C42TMACXX:5:2316:15161:76101  83   1  CCCCCACDDDCB@B  NH:i:1 HI:i:1 nM:i:1   
2  C42TMACXX:5:1305:26011:74469  163  1  CCCFFFFFHHHHGJ  NH:i:1 HI:i:1 AS:i:200 nM:i:0

怎么做到的？

如果它是相关的,我使用pandas 0.17.1并且我的真实数据文件大约是1亿+行.

推荐阅读

程序员
将现有asp.net-mvc站点的几个调用暴露给内部网中的其他REST客户端？

如何解决《将现有asp.net-mvc站点的几个调用暴露给内部网中的其他REST客户端？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从url下载映像到服务器以在asp.net 5 api中处理

如何解决《从url下载映像到服务器以在asp.net5api中处理》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Microsoft SQL Server从动态表中搜索数据

如何解决《使用MicrosoftSQLServer从动态表中搜索数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android Wear - 访问移动共享首选项

如何解决《AndroidWear-访问移动共享首选项》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Android 6(M)上以编程方式更改WiFi配置？

如何解决《如何在Android6(M)上以编程方式更改WiFi配置？》经验，为你挑选了0个好方法。 ... [详细]
程序员
R，ggplot2：如何增加特定geom_tile条之间的空间以将它们成对分组？

如何解决《R，ggplot2：如何增加特定geom_tile条之间的空间以将它们成对分组？》经验，为你挑选了0个好方法。 ... [详细]
程序员
主键是否必要？

如何解决《主键是否必要？》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用`ShouldBeEquivalentTo`,`ShouldAllBeEquivalentTo`和`BeEquivalentTo`

如何解决《使用`ShouldBeEquivalentTo`,`ShouldAllBeEquivalentTo`和`BeEquivalentTo`》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python请求:标头名称无效

如何解决《Python请求:标头名称无效》经验，为你挑选了1个好方法。 ... [详细]
程序员
Appinvite_styles.xml:5:错误将Google Play服务库包含在eclipse中

如何解决《Appinvite_styles.xml:5:错误将GooglePlay服务库包含在eclipse中》经验，为你挑选了0个好方法。 ... [详细]
程序员
Tensorflow教程:输入管道中的重复混洗

如何解决《Tensorflow教程:输入管道中的重复混洗》经验，为你挑选了1个好方法。 ... [详细]
程序员
g ++和clang ++ - 删除由重载转换运算符歧义获取的指针

如何解决《g++和clang++-删除由重载转换运算符歧义获取的指针》经验，为你挑选了1个好方法。 ... [详细]
程序员
django,属性更新模型实例

如何解决《django,属性更新模型实例》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用JavaScript进行多项左手分配,真的是正确的关联吗？

如何解决《使用JavaScript进行多项左手分配,真的是正确的关联吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Rails中为link_to方法发送特定变量值

如何解决《在Rails中为link_to方法发送特定变量值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何区分火花中的操作是转换还是动作？

如何解决《如何区分火花中的操作是转换还是动作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
企业服务总线与BPM

如何解决《企业服务总线与BPM》经验，为你挑选了1个好方法。 ... [详细]
程序员
RStudio shiny runApp在工作目录中失败

如何解决《RStudioshinyrunApp在工作目录中失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
AsyncStorage数据在Android设备上的物理位置在哪里？

如何解决《AsyncStorage数据在Android设备上的物理位置在哪里？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Android.mk应该在哪里？

如何解决《Android.mk应该在哪里？》经验，为你挑选了0个好方法。 ... [详细]

围脖上的博博_771

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章