15赞

如何在python中拆分文件？

作者：低调pasta_730 | 2023-08-30 17:21

如何解决《如何在python中拆分文件？》经验，为你挑选了3个好方法。

是否可以拆分文件？例如,你有一个巨大的wordlist,我想拆分它,使它成为多个文件.这怎么可能？

1> 小智..：

这个文件按换行分割文件并将其写回.您可以轻松更改分隔符.如果您的输入文件中没有多个splitLen行(本例中为20),这也可以处理不均匀的数量.

splitLen = 20         # 20 lines per file
outputBase = 'output' # output.1.txt, output.2.txt, etc.

# This is shorthand and not friendly with memory
# on very large files (Sean Cavanagh), but it works.
input = open('input.txt', 'r').read().split('\n')

at = 1
for lines in range(0, len(input), splitLen):
    # First, get the list slice
    outputData = input[lines:lines+splitLen]

    # Now open the output file, join the new slice with newlines
    # and write it out. Then close the file.
    output = open(outputBase + str(at) + '.txt', 'w')
    output.write('\n'.join(outputData))
    output.close()

    # Increment the counter
    at += 1

2> lacorbeille..：

sli的一个更好的循环示例,而不是占用内存:

splitLen = 20         # 20 lines per file
outputBase = 'output' # output.1.txt, output.2.txt, etc.

input = open('input.txt', 'r')

count = 0
at = 0
dest = None
for line in input:
    if count % splitLen == 0:
        if dest: dest.close()
        dest = open(outputBase + str(at) + '.txt', 'w')
        at += 1
    dest.write(line)
    count += 1

3> anatoly tech..：

将二进制文件拆分为.000,.001等章节的解决方案:

FILE = 'scons-conversion.7z'

MAX  = 500*1024*1024  # 500Mb  - max chapter size
BUF  = 50*1024*1024*1024  # 50GB   - memory buffer size

chapters = 0
uglybuf  = ''
with open(FILE, 'rb') as src:
  while True:
    tgt = open(FILE + '.%03d' % chapters, 'wb')
    written = 0
    while written < MAX:
      if len(uglybuf) > 0:
        tgt.write(uglybuf)
      tgt.write(src.read(min(BUF, MAX - written)))
      written += min(BUF, MAX - written)
      uglybuf = src.read(1)
      if len(uglybuf) == 0:
        break
    tgt.close()
    if len(uglybuf) == 0:
      break
    chapters += 1

推荐阅读

程序员
简单的HttpURLConnection POST文件multipart/form-data从android到google blobstore

如何解决《简单的HttpURLConnectionPOST文件multipart/form-data从android到googleblobstore》经验，为你挑选了3个好方法。 ... [详细]
程序员
如果没有运行测试,如何使Jenkins构建失败？

如何解决《如果没有运行测试,如何使Jenkins构建失败？》经验，为你挑选了0个好方法。 ... [详细]
程序员
从专业课程中获取ClassTag

如何解决《从专业课程中获取ClassTag》经验，为你挑选了1个好方法。 ... [详细]
程序员
在做一个`git stash`时保持变化

如何解决《在做一个`gitstash`时保持变化》经验，为你挑选了1个好方法。 ... [详细]
程序员
ggplot2中多个图例的不同方向？

如何解决《ggplot2中多个图例的不同方向？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ruby - 在一行上使用多个条件

如何解决《Ruby-在一行上使用多个条件》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在Web API应用程序中使用ASP.net 5 Identity？基于令牌的用户身份验证.移动应用

如何解决《如何在WebAPI应用程序中使用ASP.net5Identity？基于令牌的用户身份验证.移动应用》经验，为你挑选了0个好方法。 ... [详细]
程序员
GNU并行-使输出保持彩色

如何解决《GNU并行-使输出保持彩色》经验，为你挑选了0个好方法。 ... [详细]
程序员
Browserify和Babel gulp任务

如何解决《Browserify和Babelgulp任务》经验，为你挑选了1个好方法。 ... [详细]
程序员
在移动设备上显示缩写和缩写

如何解决《在移动设备上显示缩写和缩写》经验，为你挑选了0个好方法。 ... [详细]
程序员
Android深层链接不遵循路径前缀

如何解决《Android深层链接不遵循路径前缀》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用框架和网格的tkinter gui布局

如何解决《使用框架和网格的tkintergui布局》经验，为你挑选了1个好方法。 ... [详细]
程序员
领域，快速，多对多关系

如何解决《领域，快速，多对多关系》经验，为你挑选了1个好方法。 ... [详细]
程序员
BigQuery行编号

如何解决《BigQuery行编号》经验，为你挑选了1个好方法。 ... [详细]
程序员
Gradle将编译依赖项添加到Proguard libraryjars

如何解决《Gradle将编译依赖项添加到Proguardlibraryjars》经验，为你挑选了1个好方法。 ... [详细]
程序员
将数组传递给函数非常慢

如何解决《将数组传递给函数非常慢》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用python进行nginx http身份验证

如何解决《使用python进行nginxhttp身份验证》经验，为你挑选了0个好方法。 ... [详细]
程序员
VC++ 14模板指向成员和指向成员函数的指针之间存在歧义

如何解决《VC++14模板指向成员和指向成员函数的指针之间存在歧义》经验，为你挑选了1个好方法。 ... [详细]
程序员
TypeError:d [h] .apply不是函数

如何解决《TypeError:d[h].apply不是函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Plone的setText()在ATDocument中设置相对URL？

如何解决《如何使用Plone的setText()在ATDocument中设置相对URL？》经验，为你挑选了1个好方法。 ... [详细]

低调pasta_730

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章