4赞

忽略Python中的XML错误

作者：TXCWB_523 | 2023-09-01 15:11

如何解决《忽略Python中的XML错误》经验，为你挑选了1个好方法。

我在Python中使用XML minidom(xml.dom.minidom),但XML中的任何错误都将终止解析器.是否可以忽略它们,例如浏览器？我试图用Python编写浏览器,但如果标签不完全兼容,它只会引发异常.

1> David Arcos..：

有一个叫做BeautifulSoup的图书馆,我想这就是你要找的东西.当您尝试解析无效的XML时,普通的XML解析器将无法正常工作.BeautifulSoup更容错,它仍然可以从无效的XML中提取信息.

Beautiful Soup是一个Python HTML/XML解析器,专为快速周转项目而设计,例如屏幕抓取.三个功能使其功能强大:

如果给它不好的标记,美丽的汤不会窒息.它产生一个解析树,使其与原始文档几乎一样有意义.这通常足以收集您需要的数据并逃跑.

Beautiful Soup提供了一些简单的方法和Pythonic习语,用于导航,搜索和修改解析树:用于剖析文档和提取所需内容的工具包.您不必为每个应用程序创建自定义解析器.

Beautiful Soup会自动将传入的文档转换为Unicode,将传出的文档转换为UTF-8.您不必考虑编码,除非文档没有指定编码并且Beautiful Soup不能自动检测编码.然后你只需要指定原始编码.

美丽的汤解析你给它的任何东西,并为你做树遍历的东西.您可以告诉它"查找所有链接",或"查找类externalLink的所有链接",或"查找其网址匹配的所有链接"foo.com",或"查找具有粗体文本的表格标题,然后给出我那个文字."

推荐阅读

程序员
糟糕的导入"系统调用"的云存储API

如何解决《糟糕的导入"系统调用"的云存储API》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何从单个RDD添加2个RDD列,然后根据PySpark中的日期数据进行行聚合

如何解决《如何从单个RDD添加2个RDD列,然后根据PySpark中的日期数据进行行聚合》经验，为你挑选了0个好方法。 ... [详细]
程序员
有条件地省略bash中的命令行选项

如何解决《有条件地省略bash中的命令行选项》经验，为你挑选了1个好方法。 ... [详细]
程序员
两个进程之间的顺序信号

如何解决《两个进程之间的顺序信号》经验，为你挑选了1个好方法。 ... [详细]
程序员
Jasmine:如何对使用moment.js的日期过滤器进行单元测试？

如何解决《Jasmine:如何对使用moment.js的日期过滤器进行单元测试？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django 1.9编译错误

如何解决《Django1.9编译错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
升级到Symfony3后,为什么我的用户登录不再有效

如何解决《升级到Symfony3后,为什么我的用户登录不再有效》经验，为你挑选了1个好方法。 ... [详细]
程序员
Flexbox的.避免高于父母的孩子(栏目方向)

如何解决《Flexbox的.避免高于父母的孩子(栏目方向)》经验，为你挑选了1个好方法。 ... [详细]
程序员
更改按钮的颜色单击引导程序

如何解决《更改按钮的颜色单击引导程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
Swift 2.0:如果参数化类继承自Equatable类,则它不会调用正确的==函数

如何解决《Swift2.0:如果参数化类继承自Equatable类,则它不会调用正确的==函数》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在移动设备Javascript上更改元素的文本

如何解决《如何在移动设备Javascript上更改元素的文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
EntityFramework从SQL Server视图返回损坏/交换的数据

如何解决《EntityFramework从SQLServer视图返回损坏/交换的数据》经验，为你挑选了0个好方法。 ... [详细]
程序员
滚动div自动收报机

如何解决《滚动div自动收报机》经验，为你挑选了1个好方法。 ... [详细]
程序员
ASP.net 5.0 - WebAPI授权和ErrorCode 302而不是401

如何解决《ASP.net5.0-WebAPI授权和ErrorCode302而不是401》经验，为你挑选了0个好方法。 ... [详细]
程序员
文件中最少的常用词

如何解决《文件中最少的常用词》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用JS和HTML将当前URL插入到链接中

如何解决《使用JS和HTML将当前URL插入到链接中》经验，为你挑选了0个好方法。 ... [详细]
程序员
Spark Streaming Kafka流

如何解决《SparkStreamingKafka流》经验，为你挑选了1个好方法。 ... [详细]
程序员
flexbox在Safari中添加1px左边距

如何解决《flexbox在Safari中添加1px左边距》经验，为你挑选了2个好方法。 ... [详细]
程序员
Kotlin中的2D阵列

如何解决《Kotlin中的2D阵列》经验，为你挑选了3个好方法。 ... [详细]
程序员
等待新任务<T>(...):任务不运行？

如何解决《等待新任务<T>():任务不运行？》经验，为你挑选了2个好方法。 ... [详细]

TXCWB_523

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章