什么是用于HTML和XML文档(本地或基于Web)的良好爬虫(蜘蛛),并且在Lucene/Solr解决方案空间中运行良好?可能是基于Java的,但不一定是.
在我看来,这是一个非常重要的漏洞,它阻止了Solr的广泛采用.新的DataImportHandler是导入结构化数据的第一步,但Solr没有一个好的文档摄取管道.Nutch确实有效,但Nutch履带式和Solr之间的集成有些笨拙.
我已经尝试过每一个我都能找到的开源爬虫,而且没有一个与Solr集成开箱即用.
密切关注OpenPipeline和Apache Tika.
我尝试过nutch,但很难与Solr集成.我会看看Heritrix.它有一个广泛的插件系统,可以很容易地与Solr集成,并且它在爬行时要快得多.它广泛使用线程来加速进程.