我正在使用Jsoup从HTML页面中删除所有图像.我通过HTTP响应接收页面 - 它还包含内容字符集.
问题是Jsoup取消了一些特殊字符.
例如,输入:
isn’t
跑完之后
String check = "isn’t
"; Document doc = Jsoup.parse(check); System.out.println(doc.outerHtml());
我明白了:
isn’t
我想避免以任何其他方式更改html ,除了删除图像.
通过使用命令:
doc.outputSettings().prettyPrint(false).charset("ASCII").escapeMode(EscapeMode.extended);
我确实得到了正确的输出,但我确信有些情况下,charset不会很好.我只想使用HTTP标头中指定的字符集,我担心这会以我无法预测的方式更改我的文档.有没有其他更清洁的方法来删除图像而不会无意中更改任何其他内容?
谢谢!