当BOM(字节顺序标记)丢失时,如何最好地猜测编码？

作者：地之南_816 | 2023-09-01 19:17

如何解决《当BOM(字节顺序标记)丢失时,如何最好地猜测编码？》经验，为你挑选了2个好方法。

我的程序必须读取使用各种编码的文件.它们可以是ANSI,UTF-8或UTF-16(大或小端).

当BOM(字节顺序标记)出现时,我没有问题.我知道文件是UTF-8还是UTF-16 BE或LE.

我想假设没有BOM文件是ANSI.但我发现我正在处理的文件经常缺少BOM.因此,没有BOM可能意味着该文件是ANSI,UTF-8,UTF-16 BE或LE.

当文件没有BOM时,扫描某些文件并最准确地猜测编码类型的最佳方法是什么？如果文件是ANSI,我希望接近100%的时间,如果是UTF格式,我希望接近100.

我正在寻找一种通用的算法来确定这一点.但实际上我使用Delphi 2009,它知道Unicode并且有一个TEncoding类,所以特定的东西将是一个奖励.

回答:

ShreevatsaR的回答让我在Google上搜索"通用编码检测器delphi",这让我感到惊讶,因为这个帖子在活着只有大约45分钟后被列为#1位置!这是快速googlebotting !! 同样令人惊讶的是Stackoverflow如此迅速地进入第一名.

Google的第二个条目是Fred Eaker关于字符编码检测的博客文章,列出了各种语言的算法.

我发现在该页面上提到了Delphi,它让我直接进入SourceForge的Free OpenSource ChsDet Charset Detector,这是用Delphi编写的,基于Mozilla的i18n组件.

太棒了!谢谢所有回复的人(全+1),谢谢ShreevatsaR,再次感谢Stackoverflow,帮助我在不到一个小时内找到答案!

1> ShreevatsaR..：

也许你可以使用Chardet:Universal Encoding Detector来编写Python脚本.它是Firefox使用的字符编码检测的重新实现,并被许多不同的应用程序使用.有用的链接:Mozilla的代码,它基于的研究论文(具有讽刺意味的是,我的Firefox无法正确检测该页面的编码),简短的解释,详细的解释.

2> Igal Serban..：

这是记事本如何做到的

还有python通用编码检测器,你可以检查.

MS隐藏了事实

推荐阅读

程序员
d3访问分组条形图中的嵌套数据

如何解决《d3访问分组条形图中的嵌套数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
Dynamics CRM 2013图表DrillDown排序

如何解决《DynamicsCRM2013图表DrillDown排序》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Visual Studio 2015中切换已登录的用户？

如何解决《如何在VisualStudio2015中切换已登录的用户？》经验，为你挑选了1个好方法。 ... [详细]
程序员
是不是可以为ForkJoinPool提供线程库或名称模式？

如何解决《是不是可以为ForkJoinPool提供线程库或名称模式？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Flask:如何在蓝图中的每个路径之前运行方法？

如何解决《Flask:如何在蓝图中的每个路径之前运行方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Textarea字段在提交时返回空

如何解决《Textarea字段在提交时返回空》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在OSx更新后修复损坏的python 2.7.11

如何解决《如何在OSx更新后修复损坏的python2.7.11》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用HTML,CSS和JS制作基于音频标签的自定义音乐播放器

如何解决《如何使用HTML,CSS和JS制作基于音频标签的自定义音乐播放器》经验，为你挑选了0个好方法。 ... [详细]
程序员
在嵌入代码和非嵌入代码之间维护单个代码库

如何解决《在嵌入代码和非嵌入代码之间维护单个代码库》经验，为你挑选了1个好方法。 ... [详细]
程序员
我们可以直接将Parquet文件加载到Hive吗？

如何解决《我们可以直接将Parquet文件加载到Hive吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在app进入前台之前准备UI更新

如何解决《如何在app进入前台之前准备UI更新》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Ipython(py 2.7)笔记本中更改markdown单元格的字体大小和颜色

如何解决《如何在Ipython(py2.7)笔记本中更改markdown单元格的字体大小和颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django Queryset过滤列表中的参数

如何解决《DjangoQueryset过滤列表中的参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
Lua coroutines - setjmp longjmp clobbering？

如何解决《Luacoroutines-setjmplongjmpclobbering？》经验，为你挑选了1个好方法。 ... [详细]
程序员
主持人是否知道MVP模式中的活动/上下文是个坏主意？

如何解决《主持人是否知道MVP模式中的活动/上下文是个坏主意？》经验，为你挑选了2个好方法。 ... [详细]
程序员
AngularJS 1.4.8 - 当我在选项之前以编程方式设置模型时,选择 - 无限$ digest()循环中的ngOptions在ngOptions中

如何解决《AngularJS1.4.8-当我在选项之前以编程方式设置模型时,选择-无限$digest()循环中的ngOptions在ngOptions中》经验，为你挑选了0个好方法。 ... [详细]
程序员
时间(NULL)是否会返回失败？

如何解决《时间(NULL)是否会返回失败？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在Visual Studio 2015上隐藏团队活动行？

如何解决《如何在VisualStudio2015上隐藏团队活动行？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Spring启动时编写自定义查询

如何解决《在Spring启动时编写自定义查询》经验，为你挑选了1个好方法。 ... [详细]
程序员
用javascript替换图像上的src

如何解决《用javascript替换图像上的src》经验，为你挑选了1个好方法。 ... [详细]

地之南_816

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章