8赞

在Java中剥离HTML标记

作者：惬听风吟jyy_802 | 2023-08-26 20:33

如何解决《在Java中剥离HTML标记》经验，为你挑选了8个好方法。

是否有现有的Java库提供了从String中剥离所有HTML标记的方法？我正在寻找strip_tags与PHP中的函数等效的东西.

我知道我可以使用这个Stackoverflow问题中描述的正则表达式,但是我很好奇是否已经有一个stripTags()方法可以在Apache Commons库中的某个地方浮动,可以使用.

1> jebbie..：

使用JSoup,它有很好的文档记录,可以在Maven上使用,经过一天的花费时间与几个库,对我来说,这是我能想象的最好的..我自己的意见是,这样的工作,解析html到plain-文本,应该可以在一行代码 - >否则库已经以某种方式失败...只是说^^所以这里是,JSoup的单行 - 在Markdown4J,类似的东西是不可能的,在Markdownj ,在htmlCleaner中,这有点大约50行代码的痛苦...

String plain = new HtmlToPlainText().getPlainText(Jsoup.parse(html));

你得到的是真正的纯文本(不仅仅是作为字符串的html源代码,就像在其他库中一样) - >他真的做得很好.它与Markdownify for PHP或多或少相同的质量....

2> Jason Fritch..：

无论您做什么,请确保在开始尝试剥离标记之前对数据进行标准化.我最近参加了一个涵盖XSS过滤器规避的Web应用安全研讨会.人们通常认为搜索<或<或其十六进制等效就足够了.看到幻灯片后,我看到了一个<可以编码为超过滤镜的70种方式.

更新:

下面是我所指的演示文稿,请参阅幻灯片26,了解70种编码方式<.

过滤器逃避:电线上的Houdini

3> Jakob Alexan..：

这是我在谷歌上发现的.对我来说它工作得很好.

String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");

这不会删除像这样的非html标签吗？

我不相信像这样的短正则表达式_can_涵盖所有html案例......什么是特殊格式？像JSoup这样的好库甚至在生成纯文本时都会关注格式化(!)...我的意思是转换,你永远不会用正则表达式实现这一点

4> Charlie Mart..：

可能有一些,但最强大的是使用实际的HTML解析器.有一个在这里,如果它是相当不错形成,也可以使用SAX或另一个XML分析器.

也许，如果您可以停止居高临下的话，它会更有用。我对HTML解析器非常熟悉，并且在过去20年中使用了许多解析器。通常，HTML解析器的输出将是DOM或类似的东西，但是问题显然要求使用字符串，因此，我假设您的建议是使用所解析的DOM的W3C DOM属性“ textContent”，或者如果使用输出不是DOM的解析器，则等效。如果这是您的建议，那么这很危险，因为如果在源文档中将其编码为实体，它将允许通过HTML内容。

5> Todd..：

在将这个问题打开将近一周之后,我可以肯定地说,Java API或Apache库中没有可用的方法从String中删除HTML标记.您可能必须使用前面答案中描述的HTML解析器,或者编写一个简单的正则表达式来去除标记.

6> George Garch..：

使用Jsoup时,它比上面的答案更容易:

String html = "bla hehe 
 this is awesome simple";

String text = Jsoup.parse(html).text();

7> Solomon Dusk..：

我用过nekoHtml来做到这一点.它可以剥离所有标签,但它可以轻松地保留或剥离标签的子集.

8> michaeldd..：

我知道这个问题已经很老了,但我一直在寻找这个问题,似乎在java中找到一个好的和简单的解决方案似乎仍然不容易.

今天我遇到了这个小函数库.它实际上试图模仿PHP strip_tags功能.

http://jmelo.lyncode.com/java-strip_tags-php-function/

它的工作原理如下(从他们的网站复制):

    import static com.lyncode.jtwig.functions.util.HtmlUtils.stripTags;

    public class StripTagsExample {
      public static void main(String... args) {
        String result = stripTags("Test", "");
        // Produced result: Test
      }
    }

推荐阅读

程序员
如何找到具有相同值的三个连续行

如何解决《如何找到具有相同值的三个连续行》经验，为你挑选了0个好方法。 ... [详细]
程序员
Codeigniter php7错误

如何解决《Codeigniterphp7错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用"if let"与逻辑"或"运算符

如何解决《使用"iflet"与逻辑"或"运算符》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何对齐Kindle(KF8)的表格数据

如何解决《如何对齐Kindle(KF8)的表格数据》经验，为你挑选了0个好方法。 ... [详细]
程序员
Jframe setDefaultCloseOperation不起作用

如何解决《JframesetDefaultCloseOperation不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
当字符串默认不可变时,如何描述可变字符串？

如何解决《当字符串默认不可变时,如何描述可变字符串？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Erlang中获取fread一个没有""的字符串

如何解决《如何在Erlang中获取fread一个没有""的字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法从其DataSource获取单元格

如何解决《无法从其DataSource获取单元格》经验，为你挑选了3个好方法。 ... [详细]
程序员
ImportError:在安装的应用程序中输入'registration'时无法导入名称RequestSite

如何解决《ImportError:在安装的应用程序中输入'registration'时无法导入名称RequestSite》经验，为你挑选了2个好方法。 ... [详细]
程序员
postgres数组字段上的ActiveAdmin过滤器

如何解决《postgres数组字段上的ActiveAdmin过滤器》经验，为你挑选了0个好方法。 ... [详细]
程序员
Symfony 2：如何覆盖另一个捆绑软件的存储库

如何解决《Symfony2：如何覆盖另一个捆绑软件的存储库》经验，为你挑选了0个好方法。 ... [详细]
程序员
react:从父组件调用子组件的方法

如何解决《react:从父组件调用子组件的方法》经验，为你挑选了0个好方法。 ... [详细]
程序员
Android Dagger 2和MVP注入一个注入的对象

如何解决《AndroidDagger2和MVP注入一个注入的对象》经验，为你挑选了1个好方法。 ... [详细]
程序员
Hostgator上的CHange php 5.4到5.5

如何解决《Hostgator上的CHangephp5.4到5.5》经验，为你挑选了1个好方法。 ... [详细]
程序员
将立方体贴图转换为Equirectangular全景图

如何解决《将立方体贴图转换为Equirectangular全景图》经验，为你挑选了1个好方法。 ... [详细]
程序员
在RxJava服务中管理事务性的正确方法是什么？

如何解决《在RxJava服务中管理事务性的正确方法是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
确定与数组中的间隔匹配的值的最快方法

如何解决《确定与数组中的间隔匹配的值的最快方法》经验，为你挑选了0个好方法。 ... [详细]
程序员
phpexcel将qrcode插入excel并将其保存到客户端

如何解决《phpexcel将qrcode插入excel并将其保存到客户端》经验，为你挑选了1个好方法。 ... [详细]
程序员
ANTLR4中交替与测序的优先顺序

如何解决《ANTLR4中交替与测序的优先顺序》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在iOS设备中保存您的上一个已知位置？

如何解决《如何在iOS设备中保存您的上一个已知位置？》经验，为你挑选了1个好方法。 ... [详细]

惬听风吟jyy_802

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章