当前位置:  开发笔记 > 后端 > 正文

solr会做网络抓取吗?

如何解决《solr会做网络抓取吗?》经验,为你挑选了2个好方法。

我有兴趣进行网页抓取.我在看solr.

是否solr进行网页抓取,或者进行网页抓取的步骤是什么?



1> Jon..:

事实上,Solr 5+ DOES现在进行网络爬行! http://lucene.apache.org/solr/

较旧的Solr版本不单独进行网络爬网,因为历史上它是一个提供全文搜索功能的搜索服务器.它建立在Lucene之上.

如果您需要使用另一个Solr项目抓取网页,那么您有许多选项,包括:

Nutch - http://lucene.apache.org/nutch/

Websphinx - http://www.cs.cmu.edu/~rcm/websphinx/

JSpider - http://j-spider.sourceforge.net/

Heritrix - http://crawler.archive.org/

如果您想使用Lucene或SOLR提供的搜索工具,您需要从Web爬网结果中构建索引.

看到这个:

Lucene爬虫(它需要构建lucene索引)


你能详细说明«Solr 5+ DOES实际上现在做网络爬行»?我没有在整个文档中看到任何抓取功能.

2> mjv..:

Solr本身没有网络爬行功能.

Nutch是Solr的"事实上"的爬虫(然后是一些).

推荐阅读
mobiledu2402851323
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有