12赞

如何制作美丽的汤输出HTML实体？

作者：跟我搞对象吧 | 2023-06-30 11:13

如何解决《如何制作美丽的汤输出HTML实体？》经验，为你挑选了1个好方法。

我正在尝试清理和XSS证明来自客户端的一些HTML输入.我正在使用Python 2.6和Beautiful Soup.我解析输入,剥离不在白名单中的所有标签和属性,并将树转换回字符串.

然而...

>>> unicode(BeautifulSoup('text < text'))
u'text < text'

对我来说,这看起来不像是有效的HTML.使用我的标签剥离器,它打开了各种各样的肮脏的方式:

>>> print BeautifulSoup('<script>alert("xss")<script>').prettify()
<

script>alert("xss")<

script>

这些对将被删除,剩下的不仅是XSS攻击,甚至是有效的HTML.

The obvious solution is to replace all < characters by < that, after parsing, are found not to belong to a tag (and similar for >&'"). But the Beautiful Soup documentation only mentions the parsing of entities, not the producing of them. Of course I can run a replace over all NavigableString nodes, but since I might miss something, I'd rather let some tried and tested code do the work.

Why doesn't Beautiful Soup escape < (and other magic characters) by default, and how do I make it do that?

NB我也看过了lxml.html.clean.它似乎是在黑名单的基础上工作,而不是白名单,所以它对我来说似乎不太安全.标签可以列入白名单,但属性不能,并且它允许我的品味太多属性(例如tabindex).此外,它给出AssertionError了输入.不好.

其他清理HTML方法的建议也非常受欢迎.我不是世界上唯一尝试这样做的人,但似乎没有标准的解决方案.

1> Jason S..：

我知道这是你原来的问题后3.5yrs,但你可以使用formatter='html'参数prettify(),encode()或decode()产生良好的HTML.

推荐阅读

程序员
std :: enable_shared_from_this :: shared_from_this如何工作

如何解决《std::enable_shared_from_this::shared_from_this如何工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
衍生品在python中爆炸

如何解决《衍生品在python中爆炸》经验，为你挑选了0个好方法。 ... [详细]
程序员
C#通过动态格式化其名称来调用变量

如何解决《C#通过动态格式化其名称来调用变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过推文位置和用户位置来抓取推文

如何解决《通过推文位置和用户位置来抓取推文》经验，为你挑选了1个好方法。 ... [详细]
程序员
java.lang.LinkageError:MainActivity

如何解决《java.lang.LinkageError:MainActivity》经验，为你挑选了1个好方法。 ... [详细]
程序员
在TypeScript中使用clipboardData

如何解决《在TypeScript中使用clipboardData》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么我的模式("yyyyMM")无法使用DateTimeFormatter进行解析(java 8)

如何解决《为什么我的模式("yyyyMM")无法使用DateTimeFormatter进行解析(java8)》经验，为你挑选了1个好方法。 ... [详细]
程序员
android工具栏popupTheme vs主题

如何解决《android工具栏popupThemevs主题》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么在OpenShift V3环境中使用pod而不是直接使用容器

如何解决《为什么在OpenShiftV3环境中使用pod而不是直接使用容器》经验，为你挑选了1个好方法。 ... [详细]
程序员
名称冲突时局部变量和类属性之间的优先级

如何解决《名称冲突时局部变量和类属性之间的优先级》经验，为你挑选了1个好方法。 ... [详细]
程序员
Scala案例类在receive方法中不匹配(在akka actor中)

如何解决《Scala案例类在receive方法中不匹配(在akkaactor中)》经验，为你挑选了1个好方法。 ... [详细]
程序员
代码混淆 - 为什么一个工作,而另一个工作？

如何解决《代码混淆-为什么一个工作,而另一个工作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以在Swift中访问阴影顶级函数？

如何解决《是否可以在Swift中访问阴影顶级函数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#等待问题

如何解决《C#等待问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
CSS悬停样式在不相关的元素上？

如何解决《CSS悬停样式在不相关的元素上？》经验，为你挑选了1个好方法。 ... [详细]
程序员
事件处理程序S100的方法名称

如何解决《事件处理程序S100的方法名称》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何分发asdf/quicklisp依赖项以及使用Embeddable Common Lisp编译的应用程序？

如何解决《如何分发asdf/quicklisp依赖项以及使用EmbeddableCommonLisp编译的应用程序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Excel VBA保存截图

如何解决《ExcelVBA保存截图》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何显示文本框重复值的警报

如何解决《如何显示文本框重复值的警报》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以在LINQ to Entities查询中使用CAST吗？

如何解决《我可以在LINQtoEntities查询中使用CAST吗？》经验，为你挑选了0个好方法。 ... [详细]

跟我搞对象吧

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章