16赞

使用BeautifulSoup提取CData

作者：我我檬檬我我186 | 2023-09-08 11:52

如何解决《使用BeautifulSoup提取CData》经验，为你挑选了1个好方法。

我正在尝试使用bs4/Python 3中的BeautifulSoup来提取CData.但是,每当我使用以下内容搜索它时,它都会返回一个空结果.谁能指出我做错了什么？

from bs4 import BeautifulSoup,CData

txt = '''We have
         
         and more.
         '''
soup = BeautifulSoup(txt)
for cd in soup.findAll(text=True):
    if isinstance(cd, CData):
        print('CData contents: %r' % cd)

Ryan Heathco.. 10

问题似乎是默认解析器无法正确解析CDATA.如果指定了正确的解析器,CDATA将显示:

soup = BeautifulSoup(txt,'html.parser')

有关解析器的更多信息,请参阅文档

我通过使用诊断函数来实现这一点,文档建议:

如果您对Beautiful Soup有疑问或遇到问题,请发送邮件给讨论组.如果您的问题涉及解析HTML文档,请务必提及diagnose()函数对该文档的说明.

使用diagnose()函数可以输出不同解析器如何看到您的html,这使您可以为您的用例选择正确的解析器.

1> Ryan Heathco..：

问题似乎是默认解析器无法正确解析CDATA.如果指定了正确的解析器,CDATA将显示:

soup = BeautifulSoup(txt,'html.parser')

有关解析器的更多信息,请参阅文档

我通过使用诊断函数来实现这一点,文档建议:

如果您对Beautiful Soup有疑问或遇到问题,请发送邮件给讨论组.如果您的问题涉及解析HTML文档,请务必提及diagnose()函数对该文档的说明.

使用diagnose()函数可以输出不同解析器如何看到您的html,这使您可以为您的用例选择正确的解析器.

推荐阅读

程序员
"int &&"和"auto &&"之间的不同行为

如何解决《"int&&"和"auto&&"之间的不同行为》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Node.js路径模块返回目录

如何解决《使用Node.js路径模块返回目录》经验，为你挑选了1个好方法。 ... [详细]
程序员
hybrid_property表达式中的if语句

如何解决《hybrid_property表达式中的if语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么datanode将块位置信息发送到namenode？

如何解决《为什么datanode将块位置信息发送到namenode？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在JavaScript中删除事件列表器

如何解决《在JavaScript中删除事件列表器》经验，为你挑选了1个好方法。 ... [详细]
程序员
惯用语Clojure功能别名

如何解决《惯用语Clojure功能别名》经验，为你挑选了1个好方法。 ... [详细]
程序员
确定使用哪些包

如何解决《确定使用哪些包》经验，为你挑选了0个好方法。 ... [详细]
程序员
Android Butterknife - 片段绑定

如何解决《AndroidButterknife-片段绑定》经验，为你挑选了3个好方法。 ... [详细]
程序员
用碳将小时转换为PM和AM

如何解决《用碳将小时转换为PM和AM》经验，为你挑选了1个好方法。 ... [详细]
程序员
Golang客户为Cassandra

如何解决《Golang客户为Cassandra》经验，为你挑选了0个好方法。 ... [详细]
程序员
Kotlin:尚不支持Java 8的哪些功能？

如何解决《Kotlin:尚不支持Java8的哪些功能？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在单个页面上创建多个p:确认对话框

如何解决《如何在单个页面上创建多个p:确认对话框》经验，为你挑选了1个好方法。 ... [详细]
程序员
在列表视图中设置选定的索引

如何解决《在列表视图中设置选定的索引》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果它正在运行,则停止并删除docker容器

如何解决《如果它正在运行,则停止并删除docker容器》经验，为你挑选了4个好方法。 ... [详细]
程序员
为什么这个导入工作？

如何解决《为什么这个导入工作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
不要使用CSS显示空的内联块元素

如何解决《不要使用CSS显示空的内联块元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java泛型和流

如何解决《Java泛型和流》经验，为你挑选了1个好方法。 ... [详细]
程序员
在switch语句中通过引用返回

如何解决《在switch语句中通过引用返回》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio 2015 IIS Express 500错误

如何解决《VisualStudio2015IISExpress500错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
从snake_case到camel

如何解决《从snake_case到camel》经验，为你挑选了1个好方法。 ... [详细]

我我檬檬我我186

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章