好的,Java有很多HTML/XML解析器.我想要做的不仅仅是知道如何解析它.我想过滤内容并以合适的形式使用.
更准确地说,我想只保留文字和图像.但是,我想保留一些文本格式,例如:斜体,粗体,对齐等.
所有这一切都是因为我正在尝试实现一个转换器,它将html转换为我自己为自己的目的创建的特定格式.
有任何想法吗?当然,以前必须做过很多次.
如果您打算根据安全白名单清除用户提交的内容以防止XSS,那么我建议使用Jsoup.它提供了内置的白名单.然后就像这样简单:
String safeHtml = Jsoup.clean(unsafeHtml, Whitelist.basicWithImages());
您可以Whitelist
按照其javadoc中的描述进行自定义.
Java中HTML解析器的优缺点