当前位置:  开发笔记 > 编程语言 > 正文

从html代码中过滤掉空的<span>标记

如何解决《从html代码中过滤掉空的<span>标记》经验,为你挑选了1个好方法。

我有一些HTML代码,其中有很多我想删除的行看起来像这样


现在还有span标签,它们之间有文本,我想保留.

我想使用python re.sub函数删除那些无用的span标签.我写了这个,但它没有用

html_code_filtered = re.sub('', '', html_code)

我想我在正则表达式上缺少一些东西以正确匹配线条?



1> alecxe..:

您可以使用HTML Parser BeautifulSoup来删除span没有文本的元素.

工作范例:

from bs4 import BeautifulSoup

data = """
useful text
""" soup = BeautifulSoup(data, "html.parser") # find and remove "span" elements with empty contents for useless in soup.find_all("span", text=lambda text: not text): useless.extract() print(soup.prettify())

打印(如您所见span,没有删除内容的元素):

useful text

推荐阅读
刘美娥94662
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有