当前位置:  开发笔记 > 编程语言 > 正文

BeautifulSoup:如何忽略虚假结束标记

如何解决《BeautifulSoup:如何忽略虚假结束标记》经验,为你挑选了1个好方法。

我已经阅读了很多关于BeautifulSoup的好东西,这就是为什么我现在正试图用它来刮掉一组格式错误的HTML网站.

不幸的是,BeautifulSoup的一个功能目前几乎是一个showstopper:

似乎当BeautifulSoup遇到一个

从未打开的结束标记(在我的情况下)时,它决定改为结束文档.此外,在这种情况下,该find方法似乎不会搜索(自感应)标签后面的内容.这意味着当我感兴趣的块恰好位于虚假的结束标记后面时,我无法访问内容.

有没有办法可以配置BeautifulSoup来忽略不匹配的结束标记,而不是在遇到它们时关闭文档?



1> Martijn Piet..:

BeautifulSoup不进行任何解析,它使用专用解析器(lxmlhtml.parserhtml5lib)的输出.

如果您当前使用的解析器不能按照您希望的方式处理损坏的HTML,请选择其他解析器.lxml是一个更快的解析器,可以很好地处理损坏的HTML,html5lib最接近你的浏览器解析破碎的HTML,但速度慢很多.

另请参阅BeautifulSoup文档中的安装解析器,以及解析器之间差异部分.

推荐阅读
手机用户2402852387
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有