如何检查文件是否有效UTF-8？

作者：wangtao | 2023-09-05 10:15

如何解决《如何检查文件是否有效UTF-8？》经验，为你挑选了3个好方法。

我正在处理一些应该是有效的UTF-8但不是的数据文件,这导致解析器(不受我的控制)失败.我想为UTF-8格式良好地添加预先验证数据的阶段,但我还没有找到帮助实现这一目标的实用程序.

在W3C上有一个Web服务似乎已经死了,我找到了一个仅用于Windows的验证工具,它报告了无效的UTF-8文件,但没有报告要修复的行/字符.

无论是我可以插入和使用的工具(理想情况是跨平台),还是我可以参与我的数据加载过程的ruby/perl脚本,我都会感到满意.

1> Torsten Mare..：

你可以使用GNU iconv:

$ iconv -f UTF-8 your_file -o /dev/null; echo $?

或者使用旧版本的iconv,例如在macOS上:

$ iconv -f UTF-8 your_file > /dev/null; echo $?

如果文件可以成功转换,该命令将返回0,否则返回1.此外,它将打印出无效字节序列发生的字节偏移量.

编辑:不必指定输出编码,它将被假定为UTF-8.

在较旧版本的iconv中,就像在OSX或fink上一样,没有-o标志.但是,重定向标准输出应始终有效.

更好的是,将stdout和stderr重定向到/ dev/null:`iconv -f UTF-8 your_file>/dev/null 2>&1; echo $？`

2> tzot..：

使用python和str.encode |解码函数.

>>> a="????"
>>> a
'\xce\xb3\xce\xb5\xce\xb9\xce\xb1'
>>> b='\xce\xb3\xce\xb5\xce\xb9\xff\xb1' # note second-to-last char changed
>>> print b.decode("utf_8")
Traceback (most recent call last):
  File "", line 1, in 
  File "/usr/local/lib/python2.5/encodings/utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xff in position 6: unexpected code byte

抛出的异常在其.args属性中请求了信息.

>>> try: print b.decode("utf_8")
... except UnicodeDecodeError, exc: pass
...
>>> exc
UnicodeDecodeError('utf8', '\xce\xb3\xce\xb5\xce\xb9\xff\xb1', 6, 7, 'unexpected code byte')
>>> exc.args
('utf8', '\xce\xb3\xce\xb5\xce\xb9\xff\xb1', 6, 7, 'unexpected code byte')

3> Roger Dahl..：

您可以使用isutf8从moreutils集合.

$ apt-get install moreutils
$ isutf8 your_file

在shell脚本中,使用--quiet开关并检查退出状态,对于有效的utf-8文件,该状态为零.

对于mac os"brew install moreutils".https://rentes.github.io/unix/utilities/2015/07/27/moreutils-package/

推荐阅读

程序员
无法从链接中删除下划线

如何解决《无法从链接中删除下划线》经验，为你挑选了1个好方法。 ... [详细]
程序员
排序字符串是O(n ^ 2logn)是真的吗？

如何解决《排序字符串是O(n^2logn)是真的吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Firebase Hosting上提供gzip压缩文件

如何解决《在FirebaseHosting上提供gzip压缩文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android Studio 2.0 - NoSuchAlgorithmException:SHA256WITHDSA签名不可用

如何解决《AndroidStudio2.0-NoSuchAlgorithmException:SHA256WITHDSA签名不可用》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java方法重载:参数的顺序是否会影响延迟？

如何解决《Java方法重载:参数的顺序是否会影响延迟？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何离线安装适用于Windows 10的D3D11 SDK图层

如何解决《如何离线安装适用于Windows10的D3D11SDK图层》经验，为你挑选了1个好方法。 ... [详细]
程序员
当PHP没有被修改时,PHP是否优化了数组类型的函数参数,而不是通过引用显式传递的？

如何解决《当PHP没有被修改时,PHP是否优化了数组类型的函数参数,而不是通过引用显式传递的？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么sbt编译失败并出现StackOverflowError？

如何解决《为什么sbt编译失败并出现StackOverflowError？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Protractor获取ng-repeat ng-repeat

如何解决《使用Protractor获取ng-repeatng-repeat》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何处理Spring Boot重定向到/ error？

如何解决《如何处理SpringBoot重定向到/error？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Powershell哈希表中获得特定值的名称？

如何解决《如何在Powershell哈希表中获得特定值的名称？》经验，为你挑选了0个好方法。 ... [详细]
程序员
递归函数中堆栈溢出的原因

如何解决《递归函数中堆栈溢出的原因》经验，为你挑选了0个好方法。 ... [详细]
程序员
UICollectionViewCell和UICollectionView的高度相等

如何解决《UICollectionViewCell和UICollectionView的高度相等》经验，为你挑选了2个好方法。 ... [详细]
程序员
PyCharm类型暗示古怪

如何解决《PyCharm类型暗示古怪》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Angular 2(beta和更新版本)加载RxJS(和zone.js/reflect-metadata)？

如何解决《如何使用Angular2(beta和更新版本)加载RxJS(和zone.js/reflect-metadata)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
SQL有MAX(COUNT)错误

如何解决《SQL有MAX(COUNT)错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
再现"关闭一个foreach的变量"得到了

如何解决《再现"关闭一个foreach的变量"得到了》经验，为你挑选了2个好方法。 ... [详细]
程序员
张量流softmax回归始终预测1

如何解决《张量流softmax回归始终预测1》经验，为你挑选了1个好方法。 ... [详细]
程序员
Qt安装程序框架:自动更新

如何解决《Qt安装程序框架:自动更新》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么构成"有效"C标识符？

如何解决《什么构成"有效"C标识符？》经验，为你挑选了3个好方法。 ... [详细]

wangtao

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章