当前位置:  开发笔记 > 后端 > 正文

是否存在任何开放的,可扩展的网络爬虫?

如何解决《是否存在任何开放的,可扩展的网络爬虫?》经验,为你挑选了0个好方法。

我搜索一个网络爬虫解决方案,它可以很成熟,可以简单地扩展.我对以下功能感兴趣...或者扩展爬虫以满足它们的可能性:

部分只是为了阅读几个网站的供稿

废弃这些网站的内容

如果该网站有一个存档我想抓取并索引它

爬虫应该能够为我探索网络的一部分,它应该能够决定哪些网站符合给定的标准

如果找到可能符合我兴趣的东西,我应该能够通知我

爬虫不应该通过太多的请求攻击它来杀死服务器,它应该聪明地进行爬行

爬虫应该能够抵御怪胎网站和服务器

上面的内容可以一个接一个地完成而不需要付出太大的努力,但我对任何提供可定制的,可扩展的爬虫的解决方案感兴趣.我听说过Apache Nutch,但到目前为止对这个项目非常不确定.你有经验吗?你能推荐替代品吗?

推荐阅读
linjiabin43
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有