我正在编写一个小程序,它创建了我目录中所有文件的索引.它基本上遍历磁盘上的每个文件并将其存储到可搜索的数据库中,就像Unix的locate一样.问题是,由于我有大约一百万个文件,因此索引生成非常慢.
生成索引后,是否可以快速找到自上次运行以来在磁盘上添加或删除的文件?
编辑:我不想监视文件系统事件.我认为风险太高而无法实现同步,我更喜欢快速重新扫描,以便快速找到添加/删除文件的位置.也许目录上次修改日期或其他什么?
我刚做了一点基准.运行
dir /b /s M:\tests\ >c:\out.txt
需要0.9秒,并提供我需要的所有信息.当我使用Java实现(很像这样)时,大约需要4.5秒.任何想法如何改善至少这种蛮力的方法?
相关文章:如何查看目录的子文件是否已更改
你能跳出java吗?
你可以简单地使用
dir /b /s /on M:\tests\
/按名称排序
如果你把它输出到out.txt
然后在上次以Java或批处理文件运行此文件时执行diff操作.在Dos中有类似的东西.你需要得到一个diff工具,在cygwin中的diff或者优秀的http://gnuwin32.sourceforge.net/packages/diffutils.htm
dir /b /s /on m:\tests >new.txt diff new.txt archive.txt >diffoutput.txt del archive.txt ren new.txt archive.txt
显然你也可以使用java diff类,但我认为接受的是shell命令几乎总是在文件列表操作中击败Java.
不幸的是,没有标准的方法来监听java中的文件系统事件.这可能是在java7中出现的.
目前,您必须谷歌"java文件系统事件"并选择与您的平台匹配的自定义实现.