BeautifulSoup给了我unicode + html符号,而不是直接unicode.这是一个错误还是误解？

作者：有风吹过best | 2023-08-29 16:08

如何解决《BeautifulSoup给了我unicode+html符号,而不是直接unicode.这是一个错误还是误解？》经验，为你挑选了1个好方法。

我正在使用BeautifulSoup来抓一个网站.该网站的页面在我的浏览器中呈现:

乐施会国际的报告题为"越位! http://www.coopamerica.org/programs/responsibleshopper/company.cfm?id=271

特别是单引号和双引号看起来很好.它们看起来是html符号而不是ascii,但奇怪的是当我在FF3中查看源代码时,它们似乎是正常的ascii.

不幸的是,当我刮掉的时候我会得到类似的东西

u'Oxfam International\xe2的报告题为"xe2"--Offside!

哎呀,我的意思是:

u'Oxfam International\xe2€™s report entitled \xe2€œOffside!

页面的元数据表示'iso-88959-1'编码.我尝试了不同的编码,使用unicode-> ascii和html-> ascii第三方功能,并查看了MS/iso-8859-1的差异,但事实是该™与a无关单引号,我似乎无法将unicode + htmlsymbol组合转换为正确的ascii或html符号 - 在我有限的知识中,这就是我寻求帮助的原因.

我很满意ascii双引号,"或"

以下问题是我担心其他有趣的符号解码不正确.

\xe2€™

下面是一些python来重现我所看到的,然后是我尝试过的东西.

import twill
from twill import get_browser
from twill.commands import go

from BeautifulSoup import BeautifulSoup as BSoup

url = 'http://www.coopamerica.org/programs/responsibleshopper/company.cfm?id=271'
twill.commands.go(url)
soup = BSoup(twill.commands.get_browser().get_html())
ps = soup.body("p")
p = ps[52]

>>> p         
Traceback (most recent call last):
  File "", line 1, in 
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe2' in position 22: ordinal not in range(128)

>>> p.string
u'Oxfam International\xe2€™s report entitled \xe2€œOffside!\r\n'

http://groups.google.com/group/comp.lang.python/browse_frm/thread/9b7bb3f621b4b8e4/3b00a890cf3a5e46?q=htmlentitydefs&rnum=3&hl=en#3b00a890cf3a5e46

http://www.fourmilab.ch/webtools/demoroniser/

http://www.crummy.com/software/BeautifulSoup/documentation.html

http://www.cs.tut.fi/~jkorpela/www/windows-chars.html

>>> AsciiDammit.asciiDammit(p.decode())
u'Oxfam International\xe2€™s report entitled \xe2€œOffside!

>>> handle_html_entities(p.decode())
u'
Oxfam International\xe2\u20ac\u2122s report entitled \xe2\u20ac\u0153Offside! 

>>> unicodedata.normalize('NFKC', p.decode()).encode('ascii','ignore')
'
Oxfam International€™s report entitled €œOffside!

>>> htmlStripEscapes(p.string)
u'Oxfam International\xe2TMs report entitled \xe2Offside!

编辑:

我尝试过使用不同的BS解析器:

import html5lib
bsoup_parser = html5lib.HTMLParser(tree=html5lib.treebuilders.getTreeBuilder("beautifulsoup"))
soup = bsoup_parser.parse(twill.commands.get_browser().get_html())
ps = soup.body("p")
ps[55].decode()

这给了我这个

Oxfam International\xe2\u20ac\u2122s report entitled \xe2\u20ac\u0153Offside!

最好的情况解码似乎给了我相同的结果:

unicodedata.normalize('NFKC', p.decode()).encode('ascii','ignore')
'Oxfam InternationalTMs report entitled Offside!

编辑2:

我正在使用FF 3.0.7和Firebug运行Mac OS X 4

Python 2.5(哇,不敢相信我从一开始就没有说明这一点)

1> Jarret Hardi..：

这是一个严重混乱的页面,编码明智:-)

你的方法根本没有什么问题.在将它传递给BeautifulSoup之前,我可能倾向于进行转换,因为我是忍者:

import urllib
html = urllib.urlopen('http://www.coopamerica.org/programs/responsibleshopper/company.cfm?id=271').read()
h = html.decode('iso-8859-1')
soup = BeautifulSoup(h)

在这种情况下,页面的元标记与编码有关.该页面实际上是在utf-8 ... Firefox的页面信息显示了真正的编码,你实际上可以在服务器返回的响应头中看到这个charset:

curl -i http://www.coopamerica.org/programs/responsibleshopper/company.cfm?id=271
HTTP/1.1 200 OK
Connection: close
Date: Tue, 10 Mar 2009 13:14:29 GMT
Server: Microsoft-IIS/6.0
X-Powered-By: ASP.NET
Set-Cookie: COMPANYID=271;path=/
Content-Language: en-US
Content-Type: text/html; charset=UTF-8

如果你使用'utf-8'进行解码,它将适合你(或者,至少,对我来说):

import urllib
html = urllib.urlopen('http://www.coopamerica.org/programs/responsibleshopper/company.cfm?id=271').read()
h = html.decode('utf-8')
soup = BeautifulSoup(h)
ps = soup.body("p")
p = ps[52]
print p

推荐阅读

程序员
这个反汇编如何与给定的C代码相对应？

如何解决《这个反汇编如何与给定的C代码相对应？》经验，为你挑选了1个好方法。 ... [详细]
程序员
否定Elixir中的谓词

如何解决《否定Elixir中的谓词》经验，为你挑选了1个好方法。 ... [详细]
程序员
C# - 使用反射从列表<Class>中提取值列表

如何解决《C#-使用反射从列表<Class>中提取值列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
在R中使用httr到POST文件时指定文件名

如何解决《在R中使用httr到POST文件时指定文件名》经验，为你挑选了1个好方法。 ... [详细]
程序员
当x = 0时,Java的Math.pow(x,2)表现不佳

如何解决《当x=0时,Java的Math.pow(x,2)表现不佳》经验，为你挑选了1个好方法。 ... [详细]
程序员
连接到MySQL数据库时有关SSL连接的警告

如何解决《连接到MySQL数据库时有关SSL连接的警告》经验，为你挑选了8个好方法。 ... [详细]
程序员
将预编译的Cython代码分发给Windows

如何解决《将预编译的Cython代码分发给Windows》经验，为你挑选了1个好方法。 ... [详细]
程序员
低功耗蓝牙：被动扫描-但是不会永远循环吗？

如何解决《低功耗蓝牙：被动扫描-但是不会永远循环吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用不同的属性执行两次maven插件

如何解决《如何使用不同的属性执行两次maven插件》经验，为你挑选了1个好方法。 ... [详细]
程序员
读取异步管道 - 丢失数据

如何解决《读取异步管道-丢失数据》经验，为你挑选了0个好方法。 ... [详细]
程序员
C的Haskell导出函数

如何解决《C的Haskell导出函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
ColorSpacePoint到DepthSpacePoint

如何解决《ColorSpacePoint到DepthSpacePoint》经验，为你挑选了1个好方法。 ... [详细]
程序员
ArrayList <>无法解析为类型

如何解决《ArrayList<>无法解析为类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以(如何)在MS Edge Browser中禁用"友好HTTP错误消息"？

如何解决《我可以(如何)在MSEdgeBrowser中禁用"友好HTTP错误消息"？》经验，为你挑选了0个好方法。 ... [详细]
程序员
阵列平均程序的输出错误

如何解决《阵列平均程序的输出错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
MPI_Cart_Shift.Corner邻居

如何解决《MPI_Cart_Shift.Corner邻居》经验，为你挑选了0个好方法。 ... [详细]
程序员
是否有一个简单的方法来检查NSRange传递给NSString上的substringWithRange是否存在(所以不会导致错误)？

如何解决《是否有一个简单的方法来检查NSRange传递给NSString上的substringWithRange是否存在(所以不会导致错误)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
对象文字之外的JS冒号语法？

如何解决《对象文字之外的JS冒号语法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
<Python> for循环中的两个迭代变量

如何解决《<Python>for循环中的两个迭代变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
添加新事件/日志后刷新TensorBoard的最佳方法是什么？

如何解决《添加新事件/日志后刷新TensorBoard的最佳方法是什么？》经验，为你挑选了1个好方法。 ... [详细]

有风吹过best

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章