我有一个大的启动文件(hdf),我需要启用搜索.对于Java,我会使用Lucene,因为它是一个文件和文档索引引擎.我不知道python的等价物是什么.
任何人都可以推荐我应该使用哪个库来索引大量文件以进行快速搜索?或者是推出自己的首选方式?
我看过pylucene和lupy,但是两个项目看起来都很不活跃且不受支持,所以我不确定是否应该依赖它们.
最后的注意事项:Woosh和pylucene似乎很有希望,但woosh仍然是alpha,所以我不确定我是否要依赖它,我在编译pylucene方面遇到了问题,并且没有实际的释放.在我对数据进行了更多研究之后,它主要是数字和默认文本字符串,所以现在关闭索引引擎对我没用.希望这些图书馆能够稳定下来,以后访问者会发现它们有用处.
卢皮已经退役和开发商建议PyLucene代替.至于PyLucene,它的邮件列表活动可能很少,但它肯定是支持的.事实上,它最近才成为官方的apache子项目.
你可能还想看一个新的竞争者: 飞快移动.它与lucene类似,但是在纯python中实现.
我之前没有做过索引,但以下内容可能会有所帮助: -
pyIndex - http://rgaucher.info/beta/pyIndex/ - Python的文件索引库
http://www.xml.com/pub/a/ws/2003/05/13/email.html - 这是一个使用Python和Lucene搜索Outlook电子邮件的脚本
http://gadfly.sourceforge.net/ - Aaron water的gadfly数据库(我想你可以用这个来编制索引.我自己没用过.)
至于使用HDF文件,我听说过一个名为h5py的模块.
我希望这有帮助.