在java中解析非常大的XML文档(以及更多)

作者：刘美娥94662 | 2023-09-02 09:01

如何解决《在java中解析非常大的XML文档(以及更多)》经验，为你挑选了2个好方法。

(以下所有内容均以Java编写)

我必须构建一个应用程序,它将输入可能非常大的XML文档作为输入.该文档是加密的 - 不是使用XMLsec,而是使用我客户的预先存在的加密算法 - 将分三个阶段进行处理:

首先,根据上述算法对流进行解密.

其次,扩展类(由我提供的API的第三方编写)将读取文件的某些部分.读取的数量是不可预测的 - 特别是它不能保证在文件的标题中,但可能出现在XML中的任何位置.

最后,另一个扩展类(相同的交易)将输入XML细分为1..n子集文档.这些可能会在某些方面与第二个操作处理的文档部分重叠,即:我相信我需要回放我用来处理这个对象的任何机制.

这是我的问题:

有没有办法在没有一次将整个数据读入内存的情况下执行此操作？显然我可以将解密实现为输入流过滤器,但我不确定是否可以按照我描述的方式解析XML; 通过遍历,需要收集第二步的信息,然后通过倒回文档并再次传递它以将其拆分为作业,理想情况下释放文档的所有不再使用的部分他们已经通过了.

1> mzehrer..：

Stax是正确的方法.我建议看看Woodstox

2> Guillaume..：

这听起来像是StAX(JSR 173)的工作.StAX是一个拉解析器,这意味着它或多或少像SAX这样的基于事件的解析器,但你可以更好地控制何时停止读取,拉动哪些元素,......

此解决方案的可用性将在很大程度上取决于您的扩展类实际执行的操作,是否可以控制其实现等...

重点是,如果文档非常大,您可能希望使用基于事件的解析器而不是基于树的,因此您不会使用大量内存.

可以从SUN(SJSXP),Codehaus或其他一些提供商处找到StAX的实现.

推荐阅读

程序员
在关闭Go中的应用程序之前是否需要关闭数据库连接？

如何解决《在关闭Go中的应用程序之前是否需要关闭数据库连接？》经验，为你挑选了0个好方法。 ... [详细]
程序员
我在ubuntu中使用sleep函数,但printf函数在while循环中运行得非常慢.为什么？

如何解决《我在ubuntu中使用sleep函数,但printf函数在while循环中运行得非常慢.为什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
缺少权利文件

如何解决《缺少权利文件》经验，为你挑选了2个好方法。 ... [详细]
程序员
Hadoop中的map，shuffle，merge和减少时间的精确定义

如何解决《Hadoop中的map，shuffle，merge和减少时间的精确定义》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在android上使用离线包来反应原生项目？

如何解决《如何在android上使用离线包来反应原生项目？》经验，为你挑选了3个好方法。 ... [详细]
程序员
在Windows 10上运行dot net 3.5应用程序

如何解决《在Windows10上运行dotnet3.5应用程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用熊猫和scipy的树状图

如何解决《使用熊猫和scipy的树状图》经验，为你挑选了1个好方法。 ... [详细]
程序员
在java中与弹性城堡的标志文件

如何解决《在java中与弹性城堡的标志文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
float或double值如何存储在C中的变量中？

如何解决《float或double值如何存储在C中的变量中？》经验，为你挑选了2个好方法。 ... [详细]
程序员
将数据注入Phoenix的Action params

如何解决《将数据注入Phoenix的Actionparams》经验，为你挑选了1个好方法。 ... [详细]
程序员
日期时间无效

如何解决《日期时间无效》经验，为你挑选了1个好方法。 ... [详细]
程序员
VB.NET没什么日期时间？DataReader的

如何解决《VB.NET没什么日期时间？DataReader的》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Linq没有条件

如何解决《在Linq没有条件》经验，为你挑选了1个好方法。 ... [详细]
程序员
Twig检查数组中是否有任何值

如何解决《Twig检查数组中是否有任何值》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用libsvm库(Matlab)实现1对1多类分类？

如何解决《如何使用libsvm库(Matlab)实现1对1多类分类？》经验，为你挑选了1个好方法。 ... [详细]
程序员
filter:notarray预期的数组但收到:0

如何解决《filter:notarray预期的数组但收到:0》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在yocto中本地安装内核补丁？

如何解决《如何在yocto中本地安装内核补丁？》经验，为你挑选了1个好方法。 ... [详细]
程序员
git add和git stage命令之间的差异

如何解决《gitadd和gitstage命令之间的差异》经验，为你挑选了2个好方法。 ... [详细]
程序员
git push试图推送未在git ls-files中列出的文件

如何解决《gitpush试图推送未在gitls-files中列出的文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
敌人出现在5号球员机会1后面

如何解决《敌人出现在5号球员机会1后面》经验，为你挑选了1个好方法。 ... [详细]

刘美娥94662

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章