18赞

BeautifulSoup 3.1解析器很容易打破

作者：我我檬檬我我186 | 2023-08-31 18:20

如何解决《BeautifulSoup3.1解析器很容易打破》经验，为你挑选了1个好方法。

我在使用BeautifulSoup解析一些狡猾的HTML时遇到了麻烦.事实证明,较新版本中使用的HTMLParser不如先前使用的SGMLParser容忍.

BeautifulSoup有某种调试模式吗？我正在试图弄清楚如何阻止它从一个令人讨厌的HTML borking我从一个crabby网站加载:

BeautifulSoup在标签后放弃

In [1]: print BeautifulSoup(c).prettify()

 
  
   Title

这个问题显然是HTTP-EQUIV标签,这实在是一个很畸形的标签.显然,我需要将其指定为自动关闭,但无论我指定什么,我都无法修复它:

In [2]: print BeautifulSoup(c,selfClosingTags=['http-equiv',
                            'http-equiv="pragma"']).prettify()

 
  
   Title

是否有一个详细的调试模式,BeautifulSoup将告诉我它在做什么,所以我可以弄清楚它在这种情况下作为标签名称处理什么？

1> jfs..：

有美丽的汤3.1.0的问题？建议使用html5lib的解析器作为解决方法之一.

#!/usr/bin/env python
from html5lib import HTMLParser, treebuilders

parser = HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup"))

c = """
    
        Title
        
    
    
        ...
        ...
    
"""

soup = parser.parse(c)
print soup.prettify()

输出:


 
  
   Title
  
 
 
  
   ...
        ...

输出显示html5lib在这种情况下没有解决问题.

推荐阅读

程序员
有没有关于如何生成包含经过训练的TensorFlow图的protobuf文件的示例

如何解决《有没有关于如何生成包含经过训练的TensorFlow图的protobuf文件的示例》经验，为你挑选了2个好方法。 ... [详细]
程序员
Java中的数字格式错误

如何解决《Java中的数字格式错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在命令行上排除Maven模块

如何解决《如何在命令行上排除Maven模块》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP7中的分段错误

如何解决《PHP7中的分段错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
休眠验证器错误Spring Boot

如何解决《休眠验证器错误SpringBoot》经验，为你挑选了1个好方法。 ... [详细]
程序员
从Dictionary中加入键和值

如何解决《从Dictionary中加入键和值》经验，为你挑选了1个好方法。 ... [详细]
程序员
从Windows Universal App中的ListView中获取选定的ListViewItem容器

如何解决《从WindowsUniversalApp中的ListView中获取选定的ListViewItem容器》经验，为你挑选了1个好方法。 ... [详细]
程序员
CSS表中第一行和第一列的每个单元格的背景颜色不同

如何解决《CSS表中第一行和第一列的每个单元格的背景颜色不同》经验，为你挑选了1个好方法。 ... [详细]
程序员
R:在ggplot中的两点之间划一条线

如何解决《R:在ggplot中的两点之间划一条线》经验，为你挑选了1个好方法。 ... [详细]
程序员
禁用Chrome通知(Selenium)

如何解决《禁用Chrome通知(Selenium)》经验，为你挑选了2个好方法。 ... [详细]
程序员
缓冲区为整数.无法理解这一行代码

如何解决《缓冲区为整数.无法理解这一行代码》经验，为你挑选了0个好方法。 ... [详细]
程序员
施放给出错误

如何解决《施放给出错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在不使用while循环的情况下生成不包含一个随机数的随机数？

如何解决《如何在不使用while循环的情况下生成不包含一个随机数的随机数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
图像对齐不适用于github中的.rst

如何解决《图像对齐不适用于github中的.rst》经验，为你挑选了0个好方法。 ... [详细]
程序员
TSaveDialog失败,客户端视觉样式被禁用

如何解决《TSaveDialog失败,客户端视觉样式被禁用》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么RijndaelManaged的长度键有效？

如何解决《为什么RijndaelManaged的长度键有效？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么具有虚函数的类与没有的类对齐？

如何解决《为什么具有虚函数的类与没有的类对齐？》经验，为你挑选了1个好方法。 ... [详细]
程序员
WordPress 4.4简码纹理化问题

如何解决《WordPress4.4简码纹理化问题》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Matlab中划分矩阵的行

如何解决《在Matlab中划分矩阵的行》经验，为你挑选了1个好方法。 ... [详细]
程序员
模数警告:输出目录位于源树下

如何解决《模数警告:输出目录位于源树下》经验，为你挑选了0个好方法。 ... [详细]

我我檬檬我我186

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章