当前位置:  开发笔记 > 编程语言 > 正文

在Lucene获取学期频率

如何解决《在Lucene获取学期频率》经验,为你挑选了1个好方法。

是否有一种快速简便的方法可以从Lucene索引中获取术语频率,而无需通过TermVectorFrequencies类进行,因为这需要花费大量时间来处理大型集合?

我的意思是,有没有像TermEnum文件频率和术语频率一样的东西?

更新:使用TermDocs太慢了.



1> erickson..:

使用TermDocs以获得长期的频率给定文档.与文档频率一样,您可以IndexReader使用感兴趣的术语从a获得术语文档.


你不会找到比TermDocs没有失去一般性更快的方法.TermDocs直接从索引段中的".frq"文件中读取,其中每个术语频率按文档顺序列出.

如果这"太慢",请确保您已优化索引以将多个段合并为一个段.按顺序迭代文档(跳过正常,但不能有效地在文档列表中来回跳转).

您的下一步可能是进行额外的处理,以创建一个更加专业化的文件结构SkipData.我个人会寻找一个更好的算法来实现我的目标,或提供更好的硬件 - 大量的内存,要么持有RAMDirectory,要么给操作系统在自己的文件缓存系统上使用.

推荐阅读
ar_wen2402851455
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有