当前位置:  开发笔记 > 编程语言 > 正文

过滤掉HTML标签并解析python中的实体

如何解决《过滤掉HTML标签并解析python中的实体》经验,为你挑选了3个好方法。

因为正则表达式吓到我了,所以我试图找到一种方法来删除所有HTML标记并从Python中的字符串中解析HTML实体.



1> Peter Hoffma..:

使用lxml这是python最好的xml/html库.

import lxml.html
t = lxml.html.fromstring("...")
t.text_content()

如果你只是想清理lxml.html.clean 模块的html外观



2> John Milliki..:

使用BeautifulSoup!它是完美的,你可以获得可疑的美德标记,并需要从中得到合理的东西.只需传入原始文本,提取所有字符串标记,然后加入它们.


这样做的代码是:''.join(BeautifulSoup(value,convertEntities = BeautifulSoup.HTML_ENTITIES).findAll(text = True))

3> Grey Panther..:

虽然我同意Lucas的观点,正则表达式并不那么可怕,但我仍然认为你应该使用专门的HTML解析器.这是因为HTML标准足够多(特别是如果你想解析从Internet上取下的任意"HTML"页面),你需要编写大量代码来处理极端情况.似乎python包含一个开箱即用的.

您还应该查看TidyLib的python绑定,它可以清理损坏的HTML,使任何HTML解析的成功率更高.

推荐阅读
李桂平2402851397
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有