当前位置:  开发笔记 > 编程语言 > 正文

在Java中剥离HTML标记

如何解决《在Java中剥离HTML标记》经验,为你挑选了8个好方法。

是否有现有的Java库提供了从String中剥离所有HTML标记的方法?我正在寻找strip_tags与PHP中的函数等效的东西.

我知道我可以使用这个Stackoverflow问题中描述的正则表达式,但是我很好奇是否已经有一个stripTags()方法可以在Apache Commons库中的某个地方浮动,可以使用.



1> jebbie..:

使用JSoup,它有很好的文档记录,可以在Maven上使用,经过一天的花费时间与几个库,对我来说,这是我能想象的最好的..我自己的意见是,这样的工作,解析html到plain-文本,应该可以在一行代码 - >否则库已经以某种方式失败...只是说^^所以这里是,JSoup的单行 - 在Markdown4J,类似的东西是不可能的,在Markdownj ,在htmlCleaner中,这有点大约50行代码的痛苦...

String plain = new HtmlToPlainText().getPlainText(Jsoup.parse(html));

你得到的是真正的纯文本(不仅仅是作为字符串的html源代码,就像在其他库中一样) - >他真的做得很好.它与Markdownify for PHP或多或少相同的质量....



2> Jason Fritch..:

无论您做什么,请确保在开始尝试剥离标记之前对数据进行标准化.我最近参加了一个涵盖XSS过滤器规避的Web应用安全研讨会.人们通常认为搜索<<或其十六进制等效就足够了.看到幻灯片后,我看到了一个<可以编码为超过滤镜的70种方式.

更新:

下面是我所指的演示文稿,请参阅幻灯片26,了解70种编码方式<.

过滤器逃避:电线上的Houdini



3> Jakob Alexan..:

这是我在谷歌上发现的.对我来说它工作得很好.

String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");


这不会删除像这样的非html标签吗?
我不相信像这样的短正则表达式_can_涵盖所有ht​​ml案例......什么是特殊格式?像JSoup这样的好库甚至在生成纯文本时都会关注格式化(!)...我的意思是转换,你永远不会用正则表达式实现这一点

4> Charlie Mart..:

可能有一些,但最强大的是使用实际的HTML解析器.有一个在这里,如果它是相当不错形成,也可以使用SAX或另一个XML分析器.


也许,如果您可以停止居高临下的话,它会更有用。我对HTML解析器非常熟悉,并且在过去20年中使用了许多解析器。通常,HTML解析器的输出将是DOM或类似的东西,但是问题显然要求使用字符串,因此,我假设您的建议是使用所解析的DOM的W3C DOM属性“ textContent”,或者如果使用输出不是DOM的解析器,则等效。如果这是您的建议,那么这很危险,因为如果在源文档中将其编码为实体,它将允许通过HTML内容。

5> Todd..:

在将这个问题打开将近一周之后,我可以肯定地说,Java API或Apache库中没有可用的方法从String中删除HTML标记.您可能必须使用前面答案中描述的HTML解析器,或者编写一个简单的正则表达式来去除标记.



6> George Garch..:

使用Jsoup时,它比上面的答案更容易:

String html = "bla hehe 
this is awesome simple"; String text = Jsoup.parse(html).text();



7> Solomon Dusk..:

我用过nekoHtml来做到这一点.它可以剥离所有标签,但它可以轻松地保留或剥离标签的子集.



8> michaeldd..:

我知道这个问题已经很老了,但我一直在寻找这个问题,似乎在java中找到一个好的和简单的解决方案似乎仍然不容易.

今天我遇到了这个小函数库.它实际上试图模仿PHP strip_tags功能.

http://jmelo.lyncode.com/java-strip_tags-php-function/

它的工作原理如下(从他们的网站复制):

    import static com.lyncode.jtwig.functions.util.HtmlUtils.stripTags;

    public class StripTagsExample {
      public static void main(String... args) {
        String result = stripTags("Test", "");
        // Produced result: Test
      }
    }

推荐阅读
惬听风吟jyy_802
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有