是否有现有的Java库提供了从String中剥离所有HTML标记的方法?我正在寻找strip_tags
与PHP中的函数等效的东西.
我知道我可以使用这个Stackoverflow问题中描述的正则表达式,但是我很好奇是否已经有一个stripTags()
方法可以在Apache Commons库中的某个地方浮动,可以使用.
使用JSoup,它有很好的文档记录,可以在Maven上使用,经过一天的花费时间与几个库,对我来说,这是我能想象的最好的..我自己的意见是,这样的工作,解析html到plain-文本,应该可以在一行代码 - >否则库已经以某种方式失败...只是说^^所以这里是,JSoup的单行 - 在Markdown4J,类似的东西是不可能的,在Markdownj ,在htmlCleaner中,这有点大约50行代码的痛苦...
String plain = new HtmlToPlainText().getPlainText(Jsoup.parse(html));
你得到的是真正的纯文本(不仅仅是作为字符串的html源代码,就像在其他库中一样) - >他真的做得很好.它与Markdownify for PHP或多或少相同的质量....
无论您做什么,请确保在开始尝试剥离标记之前对数据进行标准化.我最近参加了一个涵盖XSS过滤器规避的Web应用安全研讨会.人们通常认为搜索<
或<
或其十六进制等效就足够了.看到幻灯片后,我看到了一个<
可以编码为超过滤镜的70种方式.
更新:
下面是我所指的演示文稿,请参阅幻灯片26,了解70种编码方式<
.
过滤器逃避:电线上的Houdini
这是我在谷歌上发现的.对我来说它工作得很好.
String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");
可能有一些,但最强大的是使用实际的HTML解析器.有一个在这里,如果它是相当不错形成,也可以使用SAX或另一个XML分析器.
在将这个问题打开将近一周之后,我可以肯定地说,Java API或Apache库中没有可用的方法从String中删除HTML标记.您可能必须使用前面答案中描述的HTML解析器,或者编写一个简单的正则表达式来去除标记.
使用Jsoup时,它比上面的答案更容易:
String html = "bla hehe
this is awesome simple"; String text = Jsoup.parse(html).text();
我用过nekoHtml来做到这一点.它可以剥离所有标签,但它可以轻松地保留或剥离标签的子集.
我知道这个问题已经很老了,但我一直在寻找这个问题,似乎在java中找到一个好的和简单的解决方案似乎仍然不容易.
今天我遇到了这个小函数库.它实际上试图模仿PHP strip_tags
功能.
http://jmelo.lyncode.com/java-strip_tags-php-function/
它的工作原理如下(从他们的网站复制):
import static com.lyncode.jtwig.functions.util.HtmlUtils.stripTags; public class StripTagsExample { public static void main(String... args) { String result = stripTags("Test", ""); // Produced result: Test } }