10赞

解压缩类似文件的文件

作者：oDavid_仔o_880 | 2023-09-09 14:37

如何解决《解压缩类似文件的文件》经验，为你挑选了2个好方法。

1> LeartS..：

在我看来,这是一个更具可读性和清晰度,但它可能性能稍差,并假设输入文件格式正确(例如空行真的是空的,而你的代码即使有一些随机的空格也可以工作"空"线).它利用正则表达式组,他们完成解析行的所有工作,我们只是将开始和结束转换为整数.

line_regex = re.compile('^\((\d+), (\d+), (.+)\)$', re.MULTILINE)
sents_with_positions = []
sents_words = []

for section in _input.split('\n\n'):
    words_with_positions = [
        (int(start), int(end), text)
        for start, end, text in line_regex.findall(section)
    ]
    words = tuple(t[2] for t in words_with_positions)
    sents_with_positions.append(words_with_positions)
    sents_words.append(words)

2> unutbu..：

以一些分隔符分隔的块分析文本文件是一个常见问题.它有一个实用功能,如open_chunk下面的,它可以给定一个正则表达式分隔符"chunkify"文本文件.该open_chunk函数一次生成一个块,而不一次读取整个文件,因此可以在任何大小的文件上使用.一旦确定了块,处理每个块相对容易:

import re

def open_chunk(readfunc, delimiter, chunksize=1024):
    """
    readfunc(chunksize) should return a string.
    http://stackoverflow.com/a/17508761/190597 (unutbu)        
    """
    remainder = ''
    for chunk in iter(lambda: readfunc(chunksize), ''):
        pieces = re.split(delimiter, remainder + chunk)
        for piece in pieces[:-1]:
            yield piece
        remainder = pieces[-1]
    if remainder:
        yield remainder

sents_with_positions = []
sents_words = []
with open('data') as infile:
    for chunk in open_chunk(infile.read, r'\n\n'):
        row = []
        words = []
        # Taken from LeartS's answer: http://stackoverflow.com/a/34416814/190597
        for start, end, word in re.findall(
                r'\((\d+),\s*(\d+),\s*(.*)\)', chunk, re.MULTILINE):
            start, end = int(start), int(end)
            row.append((start, end, word))
            words.append(word)
        sents_with_positions.append(row)
        sents_words.append(words)

print(sents_words)
print(sents_with_positions)

产量包括

(86, 87, ')'), (87, 88, ','), (96, 97, '(')

推荐阅读

程序员
使用类中的函数初始化变量

如何解决《使用类中的函数初始化变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在flexbox中以不同方式对齐特定的<div>？

如何解决《如何在flexbox中以不同方式对齐特定的<div>？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何等待任务完成Task.WhenAll？

如何解决《如何等待任务完成Task.WhenAll？》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取创建日期超过14天的行

如何解决《获取创建日期超过14天的行》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在visual studio 2015中使用roslyn c#编译器？

如何解决《如何在visualstudio2015中使用roslync#编译器？》经验，为你挑选了2个好方法。 ... [详细]
程序员
从Redux Reducer发出事件

如何解决《从ReduxReducer发出事件》经验，为你挑选了0个好方法。 ... [详细]
程序员
创建动态公式

如何解决《创建动态公式》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何修改IntelliJ getter和setter代码生成？

如何解决《如何修改IntelliJgetter和setter代码生成？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法解析主要引用,因为它对程序集"Newtonsoft.Json,Version = 6.0.0.0"具有间接依赖性

如何解决《无法解析主要引用,因为它对程序集"Newtonsoft.Json,Version=6.0.0.0"具有间接依赖性》经验，为你挑选了0个好方法。 ... [详细]
程序员
C++,数组中的地址

如何解决《C++,数组中的地址》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果数字出现在Haskell的同一列表中,则从[[Int]]列表中删除元素

如何解决《如果数字出现在Haskell的同一列表中,则从[[Int]]列表中删除元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
Symfony 2.8:自2.8以来,不推荐使用ResourceInterface :: isFresh()

如何解决《Symfony2.8:自2.8以来,不推荐使用ResourceInterface::isFresh()》经验，为你挑选了2个好方法。 ... [详细]
程序员
IOS UIPageViewController - 仅滑动屏幕的某些部分

如何解决《IOSUIPageViewController-仅滑动屏幕的某些部分》经验，为你挑选了1个好方法。 ... [详细]
程序员
仅在Bower安装期间Git身份验证失败（退出代码＃128）

如何解决《仅在Bower安装期间Git身份验证失败（退出代码＃128）》经验，为你挑选了0个好方法。 ... [详细]
程序员
检查Unity的互联网连接

如何解决《检查Unity的互联网连接》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在自定义元素中访问dom-if的内容？

如何解决《如何在自定义元素中访问dom-if的内容？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何提升函数以在C中获取额外参数？

如何解决《如何提升函数以在C中获取额外参数？》经验，为你挑选了0个好方法。 ... [详细]
程序员
按一列分组,总结另一列.重复条目(包含特定产品的交易的总交易价值)

如何解决《按一列分组,总结另一列.重复条目(包含特定产品的交易的总交易价值)》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何根据Kubernetes/Docker事件发送警报？

如何解决《如何根据Kubernetes/Docker事件发送警报？》经验，为你挑选了0个好方法。 ... [详细]
程序员
外部共享资源(智能卡)的Java并发模式

如何解决《外部共享资源(智能卡)的Java并发模式》经验，为你挑选了2个好方法。 ... [详细]

oDavid_仔o_880

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章