当前位置:  开发笔记 > 编程语言 > 正文

Python正则表达式提取html段落

如何解决《Python正则表达式提取html段落》经验,为你挑选了1个好方法。

我正在尝试使用以下代码行从HTML中提取parapgraph:

paragraphs = re.match(r'

.{1,}

', html)

但即使我知道有,也没有返回.为什么?



1> alecxe..:

为什么不使用HTML解析器来解析HTML.示例使用BeautifulSoup:

>>> from bs4 import BeautifulSoup
>>> 
>>> data = """
...     
...

text1

...

...

text2

...
... """ >>> soup = BeautifulSoup(data, "html.parser") >>> [p.get_text() for p in soup.find_all("p", text=True)] [u'text1', u'text2']

请注意,这text=True有助于过滤掉空段落.

推荐阅读
黄晓敏3023
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有