我搜索一个网络爬虫解决方案,它可以很成熟,可以简单地扩展.我对以下功能感兴趣...或者扩展爬虫以满足它们的可能性:
部分只是为了阅读几个网站的供稿
废弃这些网站的内容
如果该网站有一个存档我想抓取并索引它
爬虫应该能够为我探索网络的一部分,它应该能够决定哪些网站符合给定的标准
如果找到可能符合我兴趣的东西,我应该能够通知我
爬虫不应该通过太多的请求攻击它来杀死服务器,它应该聪明地进行爬行
爬虫应该能够抵御怪胎网站和服务器
上面的内容可以一个接一个地完成而不需要付出太大的努力,但我对任何提供可定制的,可扩展的爬虫的解决方案感兴趣.我听说过Apache Nutch,但到目前为止对这个项目非常不确定.你有经验吗?你能推荐替代品吗?