我有兴趣进行网页抓取.我在看solr
.
是否solr
进行网页抓取,或者进行网页抓取的步骤是什么?
事实上,Solr 5+ DOES现在进行网络爬行! http://lucene.apache.org/solr/
较旧的Solr版本不单独进行网络爬网,因为历史上它是一个提供全文搜索功能的搜索服务器.它建立在Lucene之上.
如果您需要使用另一个Solr项目抓取网页,那么您有许多选项,包括:
Nutch - http://lucene.apache.org/nutch/
Websphinx - http://www.cs.cmu.edu/~rcm/websphinx/
JSpider - http://j-spider.sourceforge.net/
Heritrix - http://crawler.archive.org/
如果您想使用Lucene或SOLR提供的搜索工具,您需要从Web爬网结果中构建索引.
看到这个:
Lucene爬虫(它需要构建lucene索引)
Solr本身没有网络爬行功能.
Nutch是Solr的"事实上"的爬虫(然后是一些).