我正在尝试建立一个专门的搜索引擎网站,为有限数量的网站编制索引.我想出的解决方案是:
使用Nutch作为网络爬虫,
使用Solr作为搜索引擎,
前端和站点逻辑用Wicket编码.
问题是我发现Nutch非常复杂,而且它是一个很大的自定义软件,尽管事实上不存在详细的文档(书籍,最近的教程......等).
现在问题:
关于网站漏洞的任何建设性批评?
是否有一个很好但简单的替代Nutch(作为网站的爬行部分)?
谢谢