当前位置:  开发笔记 > 后端 > 正文

有关与Lucene或Solr一起使用的蜘蛛工具的建议吗?

如何解决《有关与Lucene或Solr一起使用的蜘蛛工具的建议吗?》经验,为你挑选了2个好方法。

什么是用于HTML和XML文档(本地或基于Web)的良好爬虫(蜘蛛),并且在Lucene/Solr解决方案空间中运行良好?可能是基于Java的,但不一定是.



1> 小智..:

在我看来,这是一个非常重要的漏洞,它阻止了Solr的广泛采用.新的DataImportHandler是导入结构化数据的第一步,但Solr没有一个好的文档摄取管道.Nutch确实有效,但Nutch履带式和Solr之间的集成有些笨拙.
我已经尝试过每一个我都能找到的开源爬虫,而且没有一个与Solr集成开箱即用.
密切关注OpenPipeline和Apache Tika.



2> John..:

我尝试过nutch,但很难与Solr集成.我会看看Heritrix.它有一个广泛的插件系统,可以很容易地与Solr集成,并且它在爬行时要快得多.它广泛使用线程来加速进程.

推荐阅读
N个小灰流_701
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有