8赞

BeautifulSoup解析的问题

作者：ar_wen2402851455 | 2023-08-29 22:35

如何解决《BeautifulSoup解析的问题》经验，为你挑选了1个好方法。

我试图用BeautifulSoup解析一个html页面,但看起来BeautifulSoup根本不喜欢html或那个页面.当我运行下面的代码时,方法prettify()只返回页面的脚本块(见下文).有人知道它为什么会发生吗？

import urllib2
from BeautifulSoup import BeautifulSoup

url = "http://www.futureshop.ca/catalog/subclass.asp?catid=10607&mfr=&logon=&langid=FR&sort=0&page=1"
html = "".join(urllib2.urlopen(url).readlines())
print "-- HTML ------------------------------------------"
print html
print "-- BeautifulSoup ---------------------------------"
print BeautifulSoup(html).prettify()

这是BeautifulSoup产生的输出.

-- BeautifulSoup ---------------------------------

谢谢!

更新:我使用的是以下版本,这似乎是最新版本.

__author__ = "Leonard Richardson (leonardr@segfault.org)"
__version__ = "3.1.0.1"
__copyright__ = "Copyright (c) 2004-2009 Leonard Richardson"
__license__ = "New-style BSD"

miles82.. 6

尝试使用版本3.0.7a作为Łukasz建议.BeautifulSoup 3.1旨在与Python 3.0兼容,因此他们必须将解析器从SGMLParser更改为HTMLParser,这似乎更容易受到不良HTML的攻击.

从BeautifulSoup 3.1的更改日志:

"Beautiful Soup现在基于HTMLParser而不是SGMLParser,它在Python 3中消失了.有一些不好的HTML,SGMLParser处理但是HTMLParser没有"

1> miles82..：

尝试使用版本3.0.7a作为Łukasz建议.BeautifulSoup 3.1旨在与Python 3.0兼容,因此他们必须将解析器从SGMLParser更改为HTMLParser,这似乎更容易受到不良HTML的攻击.

从BeautifulSoup 3.1的更改日志:

"Beautiful Soup现在基于HTMLParser而不是SGMLParser,它在Python 3中消失了.有一些不好的HTML,SGMLParser处理但是HTMLParser没有"

推荐阅读

程序员
理解Beautiful Soup中的Find()函数

如何解决《理解BeautifulSoup中的Find()函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么`getNumPartitions()`没有给我"repartition"指定的正确数量的分区？

如何解决《为什么`getNumPartitions()`没有给我"repartition"指定的正确数量的分区？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在页面刷新时保留Chrome DOM断点？

如何解决《如何在页面刷新时保留ChromeDOM断点？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Web Audio API中AudioWorkerNode的状态

如何解决《WebAudioAPI中AudioWorkerNode的状态》经验，为你挑选了1个好方法。 ... [详细]
程序员
Loop没有捕获重复项并在Android(Java)中删除它们

如何解决《Loop没有捕获重复项并在Android(Java)中删除它们》经验，为你挑选了0个好方法。 ... [详细]
程序员
我应该为我写的每一个javascript函数'使用严格'吗？

如何解决《我应该为我写的每一个javascript函数'使用严格'吗？》经验，为你挑选了3个好方法。 ... [详细]
程序员
在facebook sdk服务文件上启用压缩以优化网站

如何解决《在facebooksdk服务文件上启用压缩以优化网站》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何为eclipse安装最新版本的ADT插件

如何解决《如何为eclipse安装最新版本的ADT插件》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Swift(iOS应用程序)中,何时需要使用其他整数类型？

如何解决《在Swift(iOS应用程序)中,何时需要使用其他整数类型？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用node.js将查询字符串参数传递给Smartsheet API？

如何解决《如何使用node.js将查询字符串参数传递给SmartsheetAPI？》经验，为你挑选了1个好方法。 ... [详细]
程序员
TensorFlow LSTM生成模型

如何解决《TensorFlowLSTM生成模型》经验，为你挑选了1个好方法。 ... [详细]
程序员
Double Sapply嵌套功能

如何解决《DoubleSapply嵌套功能》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在不嵌套其他容器的情况下垂直对齐内容？

如何解决《如何在不嵌套其他容器的情况下垂直对齐内容？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Bash脚本中隐藏输出

如何解决《在Bash脚本中隐藏输出》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从Google Apps脚本项目属性中存储和检索对象？

如何解决《如何从GoogleApps脚本项目属性中存储和检索对象？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Qt C++我怎么不用信号垃圾邮件我的UI线程

如何解决《QtC++我怎么不用信号垃圾邮件我的UI线程》经验，为你挑选了1个好方法。 ... [详细]
程序员
与Docker共享设备(网络摄像头,USB驱动器等)

如何解决《与Docker共享设备(网络摄像头,USB驱动器等)》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Laravel中征服意见

如何解决《在Laravel中征服意见》经验，为你挑选了1个好方法。 ... [详细]
程序员
d3.js:从时间尺度获取刻度格式

如何解决《d3.js:从时间尺度获取刻度格式》经验，为你挑选了0个好方法。 ... [详细]
程序员
Phonegap Android写入SD卡

如何解决《PhonegapAndroid写入SD卡》经验，为你挑选了1个好方法。 ... [详细]

ar_wen2402851455

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章