20赞

使用BeautifulSoup在HTML注释之间提取文本

作者：ifx0448363 | 2023-09-08 09:42

如何解决《使用BeautifulSoup在HTML注释之间提取文本》经验，为你挑选了1个好方法。

使用Python 3和BeautifulSoup 4，我希望能够从HTML页面中提取仅由其上方的注释描绘的文本。一个例子：

<\!--UNIQUE COMMENT-->
I would like to get this text
<\!--SECOND UNIQUE COMMENT-->
I would also like to find this text

我找到了多种方法来提取页面的文本或评论，但没有办法完成我要寻找的事情。任何帮助将不胜感激。

1> Martin Evans..：

您只需要遍历所有可用注释，以查看它是否是必需的条目之一，然后显示以下元素的文本，如下所示：

from bs4 import BeautifulSoup, Comment

html = """


p tag text

I would like to get this text

I would also like to find this text


"""
soup = BeautifulSoup(html, 'lxml')

for comment in soup.findAll(text=lambda text:isinstance(text, Comment)):
    if comment in ['UNIQUE COMMENT', 'SECOND UNIQUE COMMENT']:
        print comment.next_element.strip()

这将显示以下内容：

from bs4 import BeautifulSoup, Comment

html = """


p tag text

I would like to get this text

I would also like to find this text


"""
soup = BeautifulSoup(html, 'lxml')

for comment in soup.findAll(text=lambda text:isinstance(text, Comment)):
    if comment in ['UNIQUE COMMENT', 'SECOND UNIQUE COMMENT']:
        print comment.next_element.strip()

推荐阅读

程序员
无法在c ++中将集合的元素插入向量

如何解决《无法在c++中将集合的元素插入向量》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用jQuery一次向许多不同的按钮添加确认对话框？

如何解决《如何使用jQuery一次向许多不同的按钮添加确认对话框？》经验，为你挑选了0个好方法。 ... [详细]
程序员
VS2015 LINQ在调试器监视窗口中

如何解决《VS2015LINQ在调试器监视窗口中》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用SQL在字符串中反转使用混合的从左到右和从右到左的语言？

如何解决《使用SQL在字符串中反转使用混合的从左到右和从右到左的语言？》经验，为你挑选了0个好方法。 ... [详细]
程序员
用于连接django模型中数据的性能优化

如何解决《用于连接django模型中数据的性能优化》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法转换为泛型类型c#

如何解决《无法转换为泛型类型c#》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Azure Storage SDK与Django一起使用(并完全删除对django-storage的依赖)

如何解决《将AzureStorageSDK与Django一起使用(并完全删除对django-storage的依赖)》经验，为你挑选了0个好方法。 ... [详细]
程序员
函数错误从数字列表返回3个最大值

如何解决《函数错误从数字列表返回3个最大值》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何查找时钟的秒针是在更大的区域还是更小的区域

如何解决《如何查找时钟的秒针是在更大的区域还是更小的区域》经验，为你挑选了1个好方法。 ... [详细]
程序员
Qt和OpenGLWindow - 调整大小的闪烁

如何解决《Qt和OpenGLWindow-调整大小的闪烁》经验，为你挑选了0个好方法。 ... [详细]
程序员
vscode中的tasks.json文件在哪里？

如何解决《vscode中的tasks.json文件在哪里？》经验，为你挑选了1个好方法。 ... [详细]
程序员
AVAudioEngine.start()崩溃,即使它包含在do/catch中

如何解决《AVAudioEngine.start()崩溃,即使它包含在do/catch中》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何解决这个"索引0超出空数组的界限!"

如何解决《如何解决这个"索引0超出空数组的界限!"》经验，为你挑选了1个好方法。 ... [详细]
程序员
IntelliJ中的调试gradle任务

如何解决《IntelliJ中的调试gradle任务》经验，为你挑选了0个好方法。 ... [详细]
程序员
正确处理PHP 7返回类型的方法

如何解决《正确处理PHP7返回类型的方法》经验，为你挑选了3个好方法。 ... [详细]
程序员
选择一个选项时，显示组合框值而不是文本

如何解决《选择一个选项时，显示组合框值而不是文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
414 URI太长了.但不总是

如何解决《414URI太长了.但不总是》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Microsoft SQL Server中使用复合键

如何解决《在MicrosoftSQLServer中使用复合键》经验，为你挑选了0个好方法。 ... [详细]
程序员
适用于iOS 9+的Objective-C iOS日历视图

如何解决《适用于iOS9+的Objective-CiOS日历视图》经验，为你挑选了1个好方法。 ... [详细]
程序员
得到奇怪的'未定义方法'错误

如何解决《得到奇怪的'未定义方法'错误》经验，为你挑选了1个好方法。 ... [详细]

ifx0448363

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章