当前位置:  开发笔记 > 编程语言 > 正文

如何在读取文件时忽略空格以生成XML DOM

如何解决《如何在读取文件时忽略空格以生成XMLDOM》经验,为你挑选了2个好方法。

我正在尝试读取一个文件来生成一个DOM文档,但该文件有空格和换行符,我试图忽略它们,但我不能:

DocumentBuilderFactory docfactory=DocumentBuilderFactory.newInstance();
docfactory.setIgnoringElementContentWhitespace(true);

我在Javadoc中看到setIgnoringElementContentWhitespace方法仅在启用验证标志时才运行,但我没有文档的DTD或XML Schema.

我能做什么?

更新

我不喜欢介绍mySelf

1> bobince..:


'IgnoringElementContentWhitespace'不是关于删除所有纯空白文本节点,而是仅删除其父项在模式中描述为具有ELEMENT内容的空白节点 - 也就是说,它们仅包含其他元素而从不包含文本.

如果您没有使用架构(DTD或XSD),则元素内容默认为MIXED,因此此参数将永远不会产生任何影响.(除非解析器提供非标准的DOM扩展来将所有未知元素视为包含ELEMENT内容,据我所知,Java可用的内容不会.)

您可以在进入解析器的途中破解文档以包含架构信息,例如通过向包含声明的声明添加内部子集,然后使用IgnoringElementContentWhitespace参数.

或者,可能更容易,您可以在后处理中或在使用LSParserFilter时删除空白节点.



2> jjnguy..:

这是一个(真的)迟到的答案,但这是我如何解决它.我编写了自己的NodeList类实现.它只是忽略空的文本节点.代码如下:

private static class NdLst implements NodeList, Iterable {

    private List nodes;

    public NdLst(NodeList list) {
        nodes = new ArrayList();
        for (int i = 0; i < list.getLength(); i++) {
            if (!isWhitespaceNode(list.item(i))) {
                nodes.add(list.item(i));
            }
        }
    }

    @Override
    public Node item(int index) {
        return nodes.get(index);
    }

    @Override
    public int getLength() {
        return nodes.size();
    }

    private static boolean isWhitespaceNode(Node n) {
        if (n.getNodeType() == Node.TEXT_NODE) {
            String val = n.getNodeValue();
            return val.trim().length() == 0;
        } else {
            return false;
        }
    }

    @Override
    public Iterator iterator() {
        return nodes.iterator();
    }
}

然后将所有NodeLists 包装在此类中,它将有效地忽略所有空白节点.(我将其定义为带有0长度修剪文本的文本节点.)

它还具有能够在for-each循环中使用的额外好处.

推荐阅读
依然-狠幸福
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有