当前位置:  开发笔记 > 编程语言 > 正文

是否有一个开源Python库用于清理HTML并删除所有Javascript?

如何解决《是否有一个开源Python库用于清理HTML并删除所有Javascript?》经验,为你挑选了1个好方法。



1> Ned Batcheld..:

正如Klaus所提到的,社区中的明确共识是使用BeautifulSoup来完成这些任务:

soup = BeautifulSoup.BeautifulSoup(html)
for script_elt in soup.findAll('script'):
    script_elt.extract()
html = str(soup)


第二个想法,既然你这样做是为了防止出现安全问题,你真的需要一个允许标记的白名单.通过黑名单过滤器隐藏不良内容的方法太多了.
推荐阅读
手机用户2402851335
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有