当前位置:  开发笔记 > 编程语言 > 正文

网络爬虫性能

如何解决《网络爬虫性能》经验,为你挑选了1个好方法。

我很想知道在一般情况下(家庭酿造的业余网络爬虫)会有什么样的表现.更具体地说,爬虫程序可以处理多少页面.

当我说家用啤酒从各方面来看,2.4Ghz核心2处理器,java编写,50mbit互联网速度等等.

您在这方面可能分享的任何资源将不胜感激

非常感谢,

卡洛斯



1> Piskvor cc-b..:

首先,计算机的速度不会成为限制因素; 至于连接,你应该人为地限制你的爬虫的速度 - 如果你开始锤击他们,大多数网站将禁止你的IP地址.换句话说,不要过快地抓取网站(每个请求10秒以上,99.99%的网站应该没问题,但要低于自己的危险).

因此,虽然您可以在多个线程中抓取单个站点,但我建议每个线程抓取一个不同的站点(检查它是否也不是共享的IP地址); 这样,你可以使你的连接饱和,从蜘蛛网站被禁止的可能性降低.

有些网站不希望您抓取网站的某些部分,并且您应该遵循常用的机制:robots.txt文件.阅读链接的网站并实现它.

另请注意,某些网站完全禁止任何自动抓取; 根据网站的管辖权(你的也可能适用),打破这可能是非法的(你负责你的脚本做什么,"机器人做到了"甚至不是一个借口,更不用说辩护了).


"你应该人为地限制你的抓取工具的速度" - 你可以在不同的网站之间反弹,以最大限度地提高抓取速度,但不能锤击任何一个网站.因此,不必限制爬行器的速度.所以在那个级别,你可以/将/应该最大化连接(这将始终比机器慢)
推荐阅读
罗文彬2502852027
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有