目前收集信息我应该使用Nutch与Solr(域 - 垂直网络搜索).
你能建议我吗?
Nutch是一个构建网络爬虫和搜索引擎的框架.Nutch可以完成从收集网页到构建倒排索引的整个过程.它还可以将这些索引推送到Solr.
Solr主要是一个支持分面搜索和许多其他功能的搜索引擎.但Solr无法获取数据,您必须提供数据.
因此,为了在两者之间进行选择,您可能首先要问的是,您是否已经将索引数据提供(在XML中,在CMS或数据库中).在这种情况下,您应该只使用Solr并将其提供给该数据.另一方面,如果你必须从网上获取数据,你可能更适合使用Nutch.