BeautifulSoup:如何忽略虚假结束标记

作者：手机用户2402852387 | 2023-09-09 17:38

如何解决《BeautifulSoup:如何忽略虚假结束标记》经验，为你挑选了1个好方法。

我已经阅读了很多关于BeautifulSoup的好东西,这就是为什么我现在正试图用它来刮掉一组格式错误的HTML网站.

不幸的是,BeautifulSoup的一个功能目前几乎是一个showstopper:

似乎当BeautifulSoup遇到一个

从未打开的结束标记(在我的情况下)时,它决定改为结束文档.此外,在这种情况下,该find方法似乎不会搜索(自感应)标签后面的内容.这意味着当我感兴趣的块恰好位于虚假的结束标记后面时,我无法访问内容.

有没有办法可以配置BeautifulSoup来忽略不匹配的结束标记,而不是在遇到它们时关闭文档？

1> Martijn Piet..：

BeautifulSoup不进行任何解析,它使用专用解析器(lxml或html.parser或html5lib)的输出.

如果您当前使用的解析器不能按照您希望的方式处理损坏的HTML,请选择其他解析器.lxml是一个更快的解析器,可以很好地处理损坏的HTML,html5lib最接近你的浏览器解析破碎的HTML,但速度慢很多.

另请参阅BeautifulSoup文档中的安装解析器,以及解析器之间的差异部分.

推荐阅读

程序员
__uuidof（someVar）是做什么的？

如何解决《__uuidof（someVar）是做什么的？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用MATLAB将信号发送到IP地址的端口？

如何解决《如何使用MATLAB将信号发送到IP地址的端口？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何从新行设置数组的每个元素

如何解决《如何从新行设置数组的每个元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在代码优先迁移中强制删除并重新创建选定的表？

如何解决《如何在代码优先迁移中强制删除并重新创建选定的表？》经验，为你挑选了1个好方法。 ... [详细]
程序员
尝试执行迁移时模型的未处理挂起操作

如何解决《尝试执行迁移时模型的未处理挂起操作》经验，为你挑选了0个好方法。 ... [详细]
程序员
Xcode命令行测试执行问题

如何解决《Xcode命令行测试执行问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
将字符串拆分为数组并修剪每个值的有效方法 - Swift

如何解决《将字符串拆分为数组并修剪每个值的有效方法-Swift》经验，为你挑选了1个好方法。 ... [详细]
程序员
django - 在查询集上切片/过滤后过滤,其中结果已被限制

如何解决《django-在查询集上切片/过滤后过滤,其中结果已被限制》经验，为你挑选了2个好方法。 ... [详细]
程序员
Laravel 5:Apache php http认证

如何解决《Laravel5:Apachephphttp认证》经验，为你挑选了0个好方法。 ... [详细]
程序员
SQL Server - 正确分解付款

如何解决《SQLServer-正确分解付款》经验，为你挑选了1个好方法。 ... [详细]
程序员
Swift PureMVC:不符合NSObjectProtocol

如何解决《SwiftPureMVC:不符合NSObjectProtocol》经验，为你挑选了1个好方法。 ... [详细]
程序员
Sitecore“随机”对象引用未设置为对象的实例

如何解决《Sitecore“随机”对象引用未设置为对象的实例》经验，为你挑选了0个好方法。 ... [详细]
程序员
滚动并获取具有对资源的特定访问权限的用户列表

如何解决《滚动并获取具有对资源的特定访问权限的用户列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误C2355:'this':只能在非静态成员函数或非静态数据成员初始值设定项中引用

如何解决《错误C2355:'this':只能在非静态成员函数或非静态数据成员初始值设定项中引用》经验，为你挑选了1个好方法。 ... [详细]
程序员
从inquirer.js菜单运行protractor.js测试

如何解决《从inquirer.js菜单运行protractor.js测试》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用JAAS从webapp1登录webapp2

如何解决《使用JAAS从webapp1登录webapp2》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用sorted()一次对两列进行排序

如何解决《如何使用sorted()一次对两列进行排序》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何刷新(F5)并使用AngularJS获取另一个页面？

如何解决《如何刷新(F5)并使用AngularJS获取另一个页面？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何水平居中UICollectionView细胞？

如何解决《如何水平居中UICollectionView细胞？》经验，为你挑选了6个好方法。 ... [详细]
程序员
如何组合2个SQL查询并检索累积计数？

如何解决《如何组合2个SQL查询并检索累积计数？》经验，为你挑选了0个好方法。 ... [详细]

手机用户2402852387

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章