我正在尝试使用以下代码行从HTML中提取parapgraph:
paragraphs = re.match(r'.{1,}
', html)
但即使我知道有,也没有返回.为什么?
为什么不使用HTML解析器来解析HTML.示例使用BeautifulSoup
:
>>> from bs4 import BeautifulSoup >>> >>> data = """ ......... """ >>> soup = BeautifulSoup(data, "html.parser") >>> [p.get_text() for p in soup.find_all("p", text=True)] [u'text1', u'text2']text1
... ...text2
...
请注意,这text=True
有助于过滤掉空段落.