我很想知道在一般情况下(家庭酿造的业余网络爬虫)会有什么样的表现.更具体地说,爬虫程序可以处理多少页面.
当我说家用啤酒从各方面来看,2.4Ghz核心2处理器,java编写,50mbit互联网速度等等.
您在这方面可能分享的任何资源将不胜感激
非常感谢,
卡洛斯
首先,计算机的速度不会成为限制因素; 至于连接,你应该人为地限制你的爬虫的速度 - 如果你开始锤击他们,大多数网站将禁止你的IP地址.换句话说,不要过快地抓取网站(每个请求10秒以上,99.99%的网站应该没问题,但要低于自己的危险).
因此,虽然您可以在多个线程中抓取单个站点,但我建议每个线程抓取一个不同的站点(检查它是否也不是共享的IP地址); 这样,你可以使你的连接饱和,从蜘蛛网站被禁止的可能性降低.
有些网站不希望您抓取网站的某些部分,并且您应该遵循常用的机制:robots.txt文件.阅读链接的网站并实现它.
另请注意,某些网站完全禁止任何自动抓取; 根据网站的管辖权(你的也可能适用),打破这可能是非法的(你负责你的脚本做什么,"机器人做到了"甚至不是一个借口,更不用说辩护了).