当前位置:  开发笔记 > 后端 > 正文

太激进的机器人?

如何解决《太激进的机器人?》经验,为你挑选了1个好方法。

我正在制作一个小机器人来抓取一些网站.现在,我现在只是测试它,我尝试了两种类型的设置:

    每3秒约10次请求 - IP被禁止,所以我说 - 好吧,那太快了.

    每3秒发出2次请求 - 30分钟后IP被禁用,1000多个链接被抓取.

这还是太快了吗?我的意思是,如果我收到"我们只是不想被抓取?还是那还是太快了?

谢谢.

编辑

再次尝试 - 每5秒2次请求 - 30分钟后550个链接我被禁止了.

我会每2秒发出一次请求,但我怀疑会发生同样的情况.我想我必须联系管理员 - 如果我能找到他的话.



1> z -..:

这里有一些准则 对 网络 爬虫 礼貌.

通常情况下,如果页面下载需要x秒,那么在重新下载之前等待至少10x-15x是很有礼貌的.

另外,请确保您也尊重robots.txt.

推荐阅读
罗文彬2502852027
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有