ruby 1.9:UTF-8中的无效字节序列

作者：吻过彩虹的脸_378 | 2023-07-08 15:02

如何解决《ruby1.9:UTF-8中的无效字节序列》经验，为你挑选了4个好方法。

我在Ruby(1.9)中编写了一个爬虫程序,它从很多随机站点中消耗了大量的HTML.
当试图提取链接时,我决定使用.scan(/href="(.*?)"/i)而不是nokogiri/hpricot(主要加速).问题是我现在收到很多" invalid byte sequence in UTF-8"错误.
根据我的理解,该net/http库没有任何特定于编码的选项,并且所引入的内容基本上没有正确标记.
实际使用传入数据的最佳方法是什么？我尝试.encode使用替换和无效选项集,但到目前为止没有成功...

1> ecerulm..：

在Ruby 1.9.3中,可以使用String.encode来"忽略"无效的UTF-8序列.这是一个可以在1.8(iconv)和1.9(String #coding)中工作的片段:

require 'iconv' unless String.method_defined?(:encode)
if String.method_defined?(:encode)
  file_contents.encode!('UTF-8', 'UTF-8', :invalid => :replace)
else
  ic = Iconv.new('UTF-8', 'UTF-8//IGNORE')
  file_contents = ic.iconv(file_contents)
end

或者如果你有非常麻烦的输入,你可以进行从UTF-8到UTF-16并返回到UTF-8的双重转换:

require 'iconv' unless String.method_defined?(:encode)
if String.method_defined?(:encode)
  file_contents.encode!('UTF-16', 'UTF-8', :invalid => :replace, :replace => '')
  file_contents.encode!('UTF-8', 'UTF-16')
else
  ic = Iconv.new('UTF-8', 'UTF-8//IGNORE')
  file_contents = ic.iconv(file_contents)
end

还有`force_encoding`选项.如果您读取ISO8859-1作为UTF-8(因此该字符串包含无效的UTF-8),那么您可以使用the_string.force_encoding("ISO8859-1")将其"重新解释"为ISO8859-1并且正常工作使用该字符串进行实际编码.

我认为双重转换是有效的,因为它强制进行编码转换(并检查无效字符).如果源字符串已经以UTF-8编码,那么只调用`.encode('UTF-8')`是无操作,并且不运行任何检查.[用于编码的Ruby核心文档](http://www.ruby-doc.org/core-1.9.3/String.html#method-i-encode).但是,将其转换为UTF-16会首先强制执行对无效字节序列的所有检查,并根据需要进行替换.

对于一些有问题的输入,我还使用从UTF-8到UTF-16的双重转换,然后返回到UTF-8`file_contents.encode!('UTF-16','UTF-8',:invalid =>:replace, :replace =>'')``file_contents.encode!('UTF-8','UTF-16')`

这个双重编码技巧刚刚保存了我的培根!我想知道为什么它是必需的？

2> Amir Raminfa..：

接受的答案和其他答案对我有用.我发现这个职位这表明

string.encode!('UTF-8', 'binary', invalid: :replace, undef: :replace, replace: '')

这解决了我的问题.

3> Marc Seeger..：

我目前的解决方案是运行:

my_string.unpack("C*").pack("U*")

这将至少摆脱我的主要问题的例外

我正在使用这个方法与`valid_encoding？`结合使用,它似乎可以检测到什么时候出错了.`val.unpack('C*').pack('U*')if!val.valid_encoding？`.

4> Ranjithkumar..：

试试这个:

def to_utf8(str)
  str = str.force_encoding('UTF-8')
  return str if str.valid_encoding?
  str.encode("UTF-8", 'binary', invalid: :replace, undef: :replace, replace: '')
end

推荐阅读

程序员
在TensorFlow中显示图表的图像？

如何解决《在TensorFlow中显示图表的图像？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Python 3.5类型提示动态生成的实例属性

如何解决《Python3.5类型提示动态生成的实例属性》经验，为你挑选了0个好方法。 ... [详细]
程序员
隐藏Python脚本中的登录凭据

如何解决《隐藏Python脚本中的登录凭据》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用r package xlsx删除Excel中的工作表

如何解决《使用rpackagexlsx删除Excel中的工作表》经验，为你挑选了1个好方法。 ... [详细]
程序员
用ggplot2中的geom_smooth绘制虚线回归线

如何解决《用ggplot2中的geom_smooth绘制虚线回归线》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有办法在symfony2中向多个路径添加违规？

如何解决《有没有办法在symfony2中向多个路径添加违规？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将IEnumerable <？>转换为IEnumerable <string>？

如何解决《如何将IEnumerable<？>转换为IEnumerable<string>？》经验，为你挑选了1个好方法。 ... [详细]
程序员
查找具有格式不佳的结束标记的特定HTML标记

如何解决《查找具有格式不佳的结束标记的特定HTML标记》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何修复“找不到GLEW（丢失：GLEW_INCLUDE_DIR GLEW_LIBRARY）”

如何解决《如何修复“找不到GLEW（丢失：GLEW_INCLUDE_DIRGLEW_LIBRARY）”》经验，为你挑选了1个好方法。 ... [详细]
程序员
VideoView不在RecyclerView中播放视频或音频

如何解决《VideoView不在RecyclerView中播放视频或音频》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用C++ strtk导致xutility错误C4996

如何解决《使用C++strtk导致xutility错误C4996》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何跳过if语句转到下一个if语句

如何解决《如何跳过if语句转到下一个if语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
Gradle依赖树,(*)是什么意思？

如何解决《Gradle依赖树,(*)是什么意思？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将时间戳与描述分组

如何解决《将时间戳与描述分组》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么不应该将PostGIS安装在PostgreSQL数据库“ postgres”中？

如何解决《为什么不应该将PostGIS安装在PostgreSQL数据库“postgres”中？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Excel行读取为数组:PHPExcel是否具有fgetcsv()等效项？

如何解决《将Excel行读取为数组:PHPExcel是否具有fgetcsv()等效项？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在python中对一个2d numpy数组进行下采样

如何解决《在python中对一个2dnumpy数组进行下采样》经验，为你挑选了1个好方法。 ... [详细]
程序员
传递一个数组

如何解决《传递一个数组》经验，为你挑选了2个好方法。 ... [详细]
程序员
D3.js时间刻度刻度线-仅年份和月份-自定义时间格式

如何解决《D3.js时间刻度刻度线-仅年份和月份-自定义时间格式》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在rxjs中使用节点的变换流？

如何解决《如何在rxjs中使用节点的变换流？》经验，为你挑选了0个好方法。 ... [详细]

吻过彩虹的脸_378

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章