11赞

如何在Python中将文件转换为utf-8？

作者：臭小子 | 2023-09-04 11:13

如何解决《如何在Python中将文件转换为utf-8？》经验，为你挑选了3个好方法。

我需要在Python中将一堆文件转换为utf-8,而我在"转换文件"部分时遇到了麻烦.

我想做相当于:

iconv -t utf-8 $file > converted/$file # this is shell code

谢谢!

1> DzinX..：

您可以使用编解码器模块,如下所示:

import codecs
BLOCKSIZE = 1048576 # or some other, desired size in bytes
with codecs.open(sourceFileName, "r", "your-source-encoding") as sourceFile:
    with codecs.open(targetFileName, "w", "utf-8") as targetFile:
        while True:
            contents = sourceFile.read(BLOCKSIZE)
            if not contents:
                break
            targetFile.write(contents)

编辑:添加BLOCKSIZE参数来控制文件块大小.

read()将始终读取整个文件 - 您可能需要.read(BLOCKSIZE),其中BLOCKSIZE是一次适当的读/写量.

没错，谢谢。我将修改我的示例。

2> Staale..：

这在一个小测试中对我有用:

sourceEncoding = "iso-8859-1"
targetEncoding = "utf-8"
source = open("source")
target = open("target", "w")

target.write(unicode(source.read(), sourceEncoding).encode(targetEncoding))

3> Sébastien Ro..：

谢谢你的回复,它的确有效!

由于源文件是混合格式,我添加了一个源序列列表,在sequence(sourceFormats)中UnicodeDecodeError尝试,然后我尝试下一个格式:

from __future__ import with_statement

import os
import sys
import codecs
from chardet.universaldetector import UniversalDetector

targetFormat = 'utf-8'
outputDir = 'converted'
detector = UniversalDetector()

def get_encoding_type(current_file):
    detector.reset()
    for line in file(current_file):
        detector.feed(line)
        if detector.done: break
    detector.close()
    return detector.result['encoding']

def convertFileBestGuess(filename):
   sourceFormats = ['ascii', 'iso-8859-1']
   for format in sourceFormats:
     try:
        with codecs.open(fileName, 'rU', format) as sourceFile:
            writeConversion(sourceFile)
            print('Done.')
            return
      except UnicodeDecodeError:
        pass

def convertFileWithDetection(fileName):
    print("Converting '" + fileName + "'...")
    format=get_encoding_type(fileName)
    try:
        with codecs.open(fileName, 'rU', format) as sourceFile:
            writeConversion(sourceFile)
            print('Done.')
            return
    except UnicodeDecodeError:
        pass

    print("Error: failed to convert '" + fileName + "'.")


def writeConversion(file):
    with codecs.open(outputDir + '/' + fileName, 'w', targetFormat) as targetFile:
        for line in file:
            targetFile.write(line)

# Off topic: get the file list and call convertFile on each file
# ...

(由Rudro Badhon编辑:这包含原始尝试多种格式,直到您没有获得异常以及使用chardet.universaldetector的替代方法)

推荐阅读

程序员
构建PBRT v2错误 - 错误1错误U1077:'if':返回代码'0x1'

如何解决《构建PBRTv2错误-错误1错误U1077:'if':返回代码'0x1'》经验，为你挑选了0个好方法。 ... [详细]
程序员
火炬 - 如何改变张量类型？

如何解决《火炬-如何改变张量类型？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python:如何检查CSV文件中的单元格是否为空？

如何解决《Python:如何检查CSV文件中的单元格是否为空？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular ng-click无法使用$ compile

如何解决《Angularng-click无法使用$compile》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用渲染脚本android旋转位图

如何解决《使用渲染脚本android旋转位图》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何解决我在尝试将C++与Assembly链接时遇到的链接器错误？

如何解决《如何解决我在尝试将C++与Assembly链接时遇到的链接器错误？》经验，为你挑选了1个好方法。 ... [详细]
程序员
应该在提交历史中保持合并吗？

如何解决《应该在提交历史中保持合并吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python中的电源操作

如何解决《Python中的电源操作》经验，为你挑选了1个好方法。 ... [详细]
程序员
Firebase部署不更新JS文件

如何解决《Firebase部署不更新JS文件》经验，为你挑选了3个好方法。 ... [详细]
程序员
将十进制（用户字符串）转换为带有0x前缀的十六进制

如何解决《将十进制（用户字符串）转换为带有0x前缀的十六进制》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在matplotlib的轴刻度中删除小数点后的数字？

如何解决《如何在matplotlib的轴刻度中删除小数点后的数字？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我怎样才能获得firebase部署--email或--token参数？

如何解决《我怎样才能获得firebase部署--email或--token参数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio上的奇怪错误 - "您可以使用导航栏切换上下文"

如何解决《VisualStudio上的奇怪错误-"您可以使用导航栏切换上下文"》经验，为你挑选了2个好方法。 ... [详细]
程序员
Deb软件包维护者脚本应该使用Bash还是Sh

如何解决《Deb软件包维护者脚本应该使用Bash还是Sh》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在加载页面后设置选择选项'选中'？

如何解决《如何在加载页面后设置选择选项'选中'？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么杰克逊多态序列化在列表中不起作用？

如何解决《为什么杰克逊多态序列化在列表中不起作用？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Knockout JS - 获取模态弹出窗口来编辑项目

如何解决《KnockoutJS-获取模态弹出窗口来编辑项目》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#WPF - 如何组合datatrigger和触发器？

如何解决《C#WPF-如何组合datatrigger和触发器？》经验，为你挑选了1个好方法。 ... [详细]
程序员
HTTP/2:stream.end使用For-Loop

如何解决《HTTP/2:stream.end使用For-Loop》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法获取隐藏的JTable列

如何解决《无法获取隐藏的JTable列》经验，为你挑选了1个好方法。 ... [详细]

臭小子

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章