19赞

跳过未知行数来读取标题python pandas

作者：勤奋的瞌睡猪_715 | 2023-09-11 13:30

如何解决《跳过未知行数来读取标题pythonpandas》经验，为你挑选了1个好方法。

我有一个excel数据,我用python pandas读入:

import pandas as pd
data = pd.read_csv('..../file.txt', sep='\t' )

模拟数据看起来像这样:

unwantedjunkline1
unwantedjunkline2
unwantedjunkline3
 ID     ColumnA     ColumnB     ColumnC
 1         A          B            C
 2         A          B            C
 3         A          B            C
...

在这种情况下,数据包含3个垃圾行(我不想读入的行),然后点击标题,有时它包含4个或更多的垃圾行.所以在这种情况下我读了数据:

data = pd.read_csv('..../file.txt', sep='\t', skiprows = 3 )

数据看起来像:

 ID     ColumnA     ColumnB     ColumnC
 1         A          B            C
 2         A          B            C
 3         A          B            C
...

但是每次不需要的行数不同时,是否有办法使用pandas读取表文件而不使用'skiprows =',而是使用一些匹配头的命令,以便它知道从头开始读取？所以我不必单击打开文件来计算每次文件包含多少不需要的行,然后手动更改'skiprows ='选项.

1> Padraic Cunn..：

如果你知道标题的开头:

def skip_to(fle, line,**kwargs):
    if os.stat(fle).st_size == 0:
        raise ValueError("File is empty")
    with open(fle) as f:
        pos = 0
        cur_line = f.readline()
        while not cur_line.startswith(line):
            pos = f.tell()
            cur_line = f.readline()
        f.seek(pos)
        return pd.read_csv(f, **kwargs)

演示:

In [18]: cat test.txt
1,2
3,4
The,header
foo,bar
foobar,foo
In [19]: df = skip_to("test.txt","The,header", sep=",")

In [20]: df
Out[20]: 
      The header
0     foo    bar
1  foobar    foo

通过调用.tell我们跟踪指针在前一行的位置,所以当我们点击标题时,我们寻找回到该行并将文件对象传递给pandas.

或者使用垃圾,如果它们都是从一些共同点开始的:

def skip_to(fle, junk,**kwargs):
    if os.stat(fle).st_size == 0:
        raise ValueError("File is empty")
    with open(fle) as f:
        pos = 0
        cur_line = f.readline()
        while cur_line.startswith(junk):
            pos = f.tell()
            cur_line = f.readline()
        f.seek(pos)
        return pd.read_csv(f, **kwargs)

 df = skip_to("test.txt", "junk",sep="\t")

推荐阅读

程序员
无法从http端点消耗

如何解决《无法从http端点消耗》经验，为你挑选了1个好方法。 ... [详细]
程序员
Patsy:测试数据中分类字段的新级别

如何解决《Patsy:测试数据中分类字段的新级别》经验，为你挑选了0个好方法。 ... [详细]
程序员
在R中添加Min Row

如何解决《在R中添加MinRow》经验，为你挑选了1个好方法。 ... [详细]
程序员
VBA变量声明在两行上没问题但在逗号分隔时没有.编译错误？

如何解决《VBA变量声明在两行上没问题但在逗号分隔时没有.编译错误？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法在Windows的Xampp中安装OAuth扩展

如何解决《无法在Windows的Xampp中安装OAuth扩展》经验，为你挑选了0个好方法。 ... [详细]
程序员
打印json对象中的所有路径

如何解决《打印json对象中的所有路径》经验，为你挑选了1个好方法。 ... [详细]
程序员
Windows 10 App Store提交所需的映像是什么？

如何解决《Windows10AppStore提交所需的映像是什么？》经验，为你挑选了0个好方法。 ... [详细]
程序员
ReactNative:使用Atom IDE

如何解决《ReactNative:使用AtomIDE》经验，为你挑选了1个好方法。 ... [详细]
程序员
redux-form - 通过代码设置字段的值？

如何解决《redux-form-通过代码设置字段的值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
由于com.sun.javafx.css.StyleManager loadStylesheetUnPrivileged,JavaFx无法加载@ font-face字体

如何解决《由于com.sun.javafx.css.StyleManagerloadStylesheetUnPrivileged,JavaFx无法加载@font-face字体》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么弹簧传播=所需的跨域嵌套逻辑事务

如何解决《为什么弹簧传播=所需的跨域嵌套逻辑事务》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么这个字符串不会溢出缓冲区？

如何解决《为什么这个字符串不会溢出缓冲区？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Zuul Edge Server可以在没有Eureka/Ribbon的情况下使用

如何解决《ZuulEdgeServer可以在没有Eureka/Ribbon的情况下使用》经验，为你挑选了1个好方法。 ... [详细]
程序员
替换String中的变量

如何解决《替换String中的变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
明确说明引用的向量长度类型

如何解决《明确说明引用的向量长度类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
Sitecore 8:更改子布局的数据源模板

如何解决《Sitecore8:更改子布局的数据源模板》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Windows上设置docker时出错

如何解决《在Windows上设置docker时出错》经验，为你挑选了0个好方法。 ... [详细]
程序员
在SWRevealViewController上的didselect tableview上出错

如何解决《在SWRevealViewController上的didselecttableview上出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在vi编辑器中搜索带空格和特殊字符的字符串

如何解决《如何在vi编辑器中搜索带空格和特殊字符的字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何获取当前位置和拨出电话摘机时间(确切的呼叫选择时间)？

如何解决《如何获取当前位置和拨出电话摘机时间(确切的呼叫选择时间)？》经验，为你挑选了0个好方法。 ... [详细]

勤奋的瞌睡猪_715

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章