我正在使用第三方库返回无效的"XML",因为它包含无效字符以及未声明的实体.我需要使用Java XML解析器来解析这个XML,但它很窒息.
是否有一种通用的方法来清理这个XML,使其变得有效?
我认为你的选择是这样的:
标签汤
JTidy
滚动你自己.
前两个是更重量级的,因为它们旨在解析生成错误的HTML.如果你知道这些问题是由于编码和实体造成的,那么我建议你自己动手:
将编码标准化为UTF-8
使用标准编码器来处理>和<字符(文本实体)之间的文本.