网络爬虫性能

作者：罗文彬2502852027 | 2023-06-29 23:47

如何解决《网络爬虫性能》经验，为你挑选了1个好方法。

我很想知道在一般情况下(家庭酿造的业余网络爬虫)会有什么样的表现.更具体地说,爬虫程序可以处理多少页面.

当我说家用啤酒从各方面来看,2.4Ghz核心2处理器,java编写,50mbit互联网速度等等.

您在这方面可能分享的任何资源将不胜感激

非常感谢,

卡洛斯

1> Piskvor cc-b..：

首先,计算机的速度不会成为限制因素; 至于连接,你应该人为地限制你的爬虫的速度 - 如果你开始锤击他们,大多数网站将禁止你的IP地址.换句话说,不要过快地抓取网站(每个请求10秒以上,99.99%的网站应该没问题,但要低于自己的危险).

因此,虽然您可以在多个线程中抓取单个站点,但我建议每个线程抓取一个不同的站点(检查它是否也不是共享的IP地址); 这样,你可以使你的连接饱和,从蜘蛛网站被禁止的可能性降低.

有些网站不希望您抓取网站的某些部分,并且您应该遵循常用的机制:robots.txt文件.阅读链接的网站并实现它.

另请注意,某些网站完全禁止任何自动抓取; 根据网站的管辖权(你的也可能适用),打破这可能是非法的(你负责你的脚本做什么,"机器人做到了"甚至不是一个借口,更不用说辩护了).

"你应该人为地限制你的抓取工具的速度" - 你可以在不同的网站之间反弹,以最大限度地提高抓取速度,但不能锤击任何一个网站.因此,不必限制爬行器的速度.所以在那个级别,你可以/将/应该最大化连接(这将始终比机器慢)

推荐阅读

程序员
如何正确地将mysql连接传递给express.js的路由

如何解决《如何正确地将mysql连接传递给express.js的路由》经验，为你挑选了1个好方法。 ... [详细]
程序员
数组中的数组作为队列

如何解决《数组中的数组作为队列》经验，为你挑选了0个好方法。 ... [详细]
程序员
requireJS将配置信息传递给所有带"*"通配符的模块

如何解决《requireJS将配置信息传递给所有带"*"通配符的模块》经验，为你挑选了1个好方法。 ... [详细]
程序员
停止副本集MongoDB

如何解决《停止副本集MongoDB》经验，为你挑选了2个好方法。 ... [详细]
程序员
Angular:重构控制器将$ routeParams转为undefined

如何解决《Angular:重构控制器将$routeParams转为undefined》经验，为你挑选了1个好方法。 ... [详细]
程序员
git reset - hard HEAD和git clean --force -d有什么区别？

如何解决《gitreset-hardHEAD和gitclean--force-d有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
RegEx for C#中的名称

如何解决《RegExforC#中的名称》经验，为你挑选了1个好方法。 ... [详细]
程序员
内部的小胡子模板字符串呈现为HTML

如何解决《内部的小胡子模板字符串呈现为HTML》经验，为你挑选了1个好方法。 ... [详细]
程序员
Carrierwave默认图像不显示

如何解决《Carrierwave默认图像不显示》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么canvas2d上下文不再填充省略号？

如何解决《为什么canvas2d上下文不再填充省略号？》经验，为你挑选了1个好方法。 ... [详细]
程序员
验证Dart中的电子邮件地址？

如何解决《验证Dart中的电子邮件地址？》经验，为你挑选了4个好方法。 ... [详细]
程序员
关闭资源的订单

如何解决《关闭资源的订单》经验，为你挑选了1个好方法。 ... [详细]
程序员
Joomla 3.0模板未显示打印,电子邮件和编辑图标

如何解决《Joomla3.0模板未显示打印,电子邮件和编辑图标》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用私有成员变量返回类型推导

如何解决《使用私有成员变量返回类型推导》经验，为你挑选了2个好方法。 ... [详细]
程序员
socket.io中关闭超时和心跳间隔有什么区别

如何解决《socket.io中关闭超时和心跳间隔有什么区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
WinDbg能告诉我Visual Studio不能做什么？

如何解决《WinDbg能告诉我VisualStudio不能做什么？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Vim Syntastic:如何找出当前使用的语法检查程序？

如何解决《VimSyntastic:如何找出当前使用的语法检查程序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从IF语句的结果声明String？

如何解决《如何从IF语句的结果声明String？》经验，为你挑选了2个好方法。 ... [详细]
程序员
创建一个随时可用的symfony 2应用程序zip

如何解决《创建一个随时可用的symfony2应用程序zip》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用带扩展名的Python运行Selenium WebDriver(.crx文件)

如何解决《使用带扩展名的Python运行SeleniumWebDriver(.crx文件)》经验，为你挑选了1个好方法。 ... [详细]

罗文彬2502852027

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章