14赞

如何确定文本的编码？

作者：喜生-Da | 2023-09-01 09:16

如何解决《如何确定文本的编码？》经验，为你挑选了4个好方法。

我收到了一些编码的文本,但我不知道使用了什么字符集.有没有办法使用Python确定文本文件的编码？如何检测文本文件的编码/代码页处理C#.

1> nosklo..：

始终正确地检测编码是不可能的.

(来自chardet FAQ :)

但是,某些编码针对特定语言进行了优化,语言不是随机的.一些字符序列一直弹出,而其他序列没有任何意义.一个英语流利的人打开一份报纸并发现"txzqJv 2!dasd0a QqdKjvz"会立刻发现这不是英文(即使它完全由英文字母组成).通过研究大量"典型"文本,计算机算法可以模拟这种流畅性,并对文本语言做出有根据的猜测.

有一个chardet库使用该研究来尝试检测编码.chardet是Mozilla中自动检测代码的一个端口.

您也可以使用UnicodeDammit.它将尝试以下方法:

在文档本身中发现的编码:例如,在XML声明中或(对于HTML文档)的http-equiv META标记.如果Beautiful Soup在文档中找到这种编码,它会从头开始再次解析文档并尝试新编码.唯一的例外是如果您明确指定了编码,并且该编码实际上有效:那么它将忽略它在文档中找到的任何编码.

通过查看文件的前几个字节来嗅探编码.如果在此阶段检测到编码,则它将是UTF-*编码,EBCDIC或ASCII之一.

如果安装了chardet库,则会对其进行嗅探.

UTF-8

Windows的1252

@Geomorillo:没有"编码标准"这样的东西.文本编码与计算一样古老,它随着时间和需求而有机地增长,没有计划."Unicode"试图解决这个问题.

2> Hamish Downe..：

计算编码的另一个选择是使用 libmagic(这是file命令背后的代码 ).有大量的python绑定可用.

生成在文件源树中的python绑定可以作为 python-magic(或python3-magic)debian包使用.它可以通过执行以下操作来确定文件的编码:

import magic

blob = open('unknown-file').read()
m = magic.open(magic.MAGIC_MIME_ENCODING)
m.load()
encoding = m.buffer(blob)  # "utf-8" "us-ascii" etc



在pypi上有一个同名但不兼容的python-magic pip包也可以使用libmagic.它还可以通过以下方式获得编码:

import magic

blob = open('unknown-file').read()
m = magic.Magic(mime_encoding=True)
encoding = m.from_buffer(blob)

        
`libmagic`确实是`chardet`的可行替代品.以及名为`python-magic`的独特包装上的精彩信息!我确信这种模糊性会让很多人感到害怕 
`sudo apt-get install python3-magic` for python3 

3> zzart..：
一些编码策略,请取消注释: 

#!/bin/bash
#
tmpfile=$1
echo '-- info about file file ........'
file -i $tmpfile
enca -g $tmpfile
echo 'recoding ........'
#iconv -f iso-8859-2 -t utf-8 back_test.xml > $tmpfile
#enca -x utf-8 $tmpfile
#enca -g $tmpfile
recode CP1250..UTF-8 $tmpfile


您可能希望通过以循环形式打开和读取文件来检查编码...但您可能需要先检查文件大小:

encodings = ['utf-8', 'windows-1250', 'windows-1252' ...etc]
            for e in encodings:
                try:
                    fh = codecs.open('file.txt', 'r', encoding=e)
                    fh.readlines()
                    fh.seek(0)
                except UnicodeDecodeError:
                    print('got unicode error with %s , trying different encoding' % e)
                else:
                    print('opening the file with encoding:  %s ' % e)
                    break              

        

4> ryanjdillon..：
这是一个读取和获取面值chardet编码预测的示例,n_lines在文件很大的情况下从文件中读取.

chardet还给你一个概率(即confidence)它的编码预测(没有看到它们是如何得出的),它与它的预测一起返回chardet.predict(),所以如果你愿意,你可以以某种方式工作.

def predict_encoding(file_path, n_lines=20):
    '''Predict a file's encoding using chardet'''
    import chardet

    # Open the file as binary data
    with open(file_path, 'rb') as f:
        # Join binary lines for specified number of lines
        rawdata = b''.join([f.readline() for _ in range(n_lines)])

    return chardet.detect(rawdata)['encoding']

        
我已经用这种方式修改了这个功能：`defpredict_encoding（file_path，n = 20）：... skip ...然后rawdata = b''。join（[[f.read（）for range in（n）中的_] ）`已在Python 3.6上尝试过此功能，与“ ascii”，“ cp1252”，“ utf-8”，“ unicode”编码完美兼容。因此，这绝对是正确的。



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        如何将新的SomeFunction()语法转换为TypeScript？
                    

                    
                                                
                        如何解决《如何将新的SomeFunction()语法转换为TypeScript？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        快速发送base-64编码的png图像
                    

                    
                                                
                            
                        
                                                
                        如何解决《快速发送base-64编码的png图像》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        正则表达式 - 如果组以javascript中的字符串开头,则不匹配组
                    

                    
                                                
                        如何解决《正则表达式-如果组以javascript中的字符串开头,则不匹配组》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Docker中的NGINX和Consul-Template
                    

                    
                                                
                        如何解决《Docker中的NGINX和Consul-Template》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用任意gulpfile名称运行gulp(不是gulpfile.js)
                    

                    
                                                
                        如何解决《使用任意gulpfile名称运行gulp(不是gulpfile.js)》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Google登录requestIdToken返回null
                    

                    
                                                
                            
                        
                                                
                        如何解决《Google登录requestIdToken返回null》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        计算文本文件中单词的出现次数
                    

                    
                                                
                        如何解决《计算文本文件中单词的出现次数》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        检测应用程序打开的UILocalNotification
                    

                    
                                                
                        如何解决《检测应用程序打开的UILocalNotification》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        QtQuick ChartView QML对象seg-faults在加载期间导致QML引擎段错误
                    

                    
                                                
                        如何解决《QtQuickChartViewQML对象seg-faults在加载期间导致QML引擎段错误》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        我应该如何使用Google风格的Sphinx记录列表,选项和收益？
                    

                    
                                                
                        如何解决《我应该如何使用Google风格的Sphinx记录列表,选项和收益？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        subprocess.run()中的CompletedProcess不返回字符串
                    

                    
                                                
                        如何解决《subprocess.run()中的CompletedProcess不返回字符串》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在Google Cloud Platform上安装Godaddy SSL证书
                    

                    
                                                
                            
                        
                                                
                        如何解决《如何在GoogleCloudPlatform上安装GodaddySSL证书》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        正确使用Microsoft.AspNet.Identity 2.0
                    

                    
                                                
                        如何解决《正确使用Microsoft.AspNet.Identity2.0》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Java null vs Swift nil
                    

                    
                                                
                        如何解决《JavanullvsSwiftnil》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        我如何知道Java Stream收集(Collectors.toMap)是否已并行化？
                    

                    
                                                
                        如何解决《我如何知道JavaStream收集(Collectors.toMap)是否已并行化？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何使用Spring RestTemplate使用Page <Entity>响应
                    

                    
                                                
                        如何解决《如何使用SpringRestTemplate使用Page<Entity>响应》经验，为你挑选了3个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        检查是否在可变参数模板参数包中传递了类型
                    

                    
                                                
                        如何解决《检查是否在可变参数模板参数包中传递了类型》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        将在线.csv文件合并到R中的数据框中
                    

                    
                                                
                        如何解决《将在线.csv文件合并到R中的数据框中》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        angularjs在今天设置默认日期输入
                    

                    
                                                
                        如何解决《angularjs在今天设置默认日期输入》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在多列中使用groupby转换
                    

                    
                                                
                        如何解决《如何在多列中使用groupby转换》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                喜生-Da            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1在Java中随机化一个字符串
                
                                
                    2循环c#wpf中的疯狂行为
                
                                
                    3解析dom元素时,JqueryUI滑块不起作用
                
                                
                    4使用Python在2个组合数组中排列序列
                
                                
                    5形式在angular2
                
                                
                    6如何在swift中打印数组中的对象值,而不是它的位置
                
                                
                    7Swift的异构值类型数组如何工作？
                
                                
                    8如何覆盖RecyclerView Adapter的notifyDataSetChanged,notifyItemChanged ...方法
                
                                
                    9删除排队的作业在Laravel 5
                
                                
                    10什么是SSO(例如SAML)中使用的RelayState参数？
                
                                
                    11如何让git-diff忽略所有的空白变化而忽略一个？
                
                                
                    12Sinon JS:有没有办法在sinon js中对对象参数的键值存根方法
                
                                
                    13Winston记录器文件名错误未定义
                
                                
                    14PHP 7.0.1无法加载ini文件
                
                                
                    15写入BinaryWriter时的类型大小
                
                                
                    16rails数据库连接池的工作原理
                
                                
                    17如何通过单个NPM脚本获取node-sass监视和实时重新加载？
                
                                
                    18AND运算符不使用MySQL在PHP函数中工作
                
                                
                    19是否有超级标记逗号的Unicode符号？
                
                                
                    20为什么JavaScript中的"〜undefined"为-1？