速度最好的网络图形爬虫？

作者：贴进你的心聆听你的世界 | 2023-07-03 11:55

如何解决《速度最好的网络图形爬虫？》经验，为你挑选了1个好方法。

在过去的一个月里,我一直在使用Scrapy进行我已经开始的网络爬行项目.

此项目涉及在主页中可以访问的单个域名中提取所有网页的完整文档内容.使用Scrapy写这个很容易,但它运行得太慢了.在2-3天内,我只能下载100,000页.

我已经意识到我最初认为Scrapy不适合这种类型的爬行的想法是揭示自己.

我开始把注意力集中在Nutch和Methabot上,希望能有更好的表现.我在爬网期间需要存储的唯一数据是网页的完整内容,最好是页面上的所有链接(但即使这样也可以在后处理中完成).

我正在寻找一种快速并且使用许多并行请求的爬虫.

1> whalebot.hel..：

这是我的服务器而不是Scrapy的错.服务器可能没有您想要的那么快,或者可能是(或网站管理员)检测到此连接/ cookie的爬行和限制速度.你用代理吗？这可能会减慢爬行速度.这可能是Scrapy的智慧,如果你将爬行过于密集,你可能会被禁止使用此服务器.对于我的C++ 手写爬虫,我人为地设置了每秒1个请求的限制.但是这个速度对于1个线程来说足够了(1 req*60秒*60分钟*24小时= 86400 req/day).如果您有兴趣,可以给whalebot.helmsman {AT} gmail.com写电子邮件.

推荐阅读

程序员
Vectorize Triple Loop - MATLAB

如何解决《VectorizeTripleLoop-MATLAB》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否不支持NUnit异步安装？

如何解决《是否不支持NUnit异步安装？》经验，为你挑选了2个好方法。 ... [详细]
程序员
cordova离子框架:获取位置后台服务

如何解决《cordova离子框架:获取位置后台服务》经验，为你挑选了1个好方法。 ... [详细]
程序员
href ="mailto:"无法在任何浏览器上运行

如何解决《href="mailto:"无法在任何浏览器上运行》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使不规则形状的SVG重叠,同时保持所有区域可点击？

如何解决《如何使不规则形状的SVG重叠,同时保持所有区域可点击？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python:不以#开头的行

如何解决《Python:不以#开头的行》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何更换一个句子

如何解决《如何更换一个句子》经验，为你挑选了1个好方法。 ... [详细]
程序员
创建重音字符SQL Server

如何解决《创建重音字符SQLServer》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用where子句删除MySQL行

如何解决《使用where子句删除MySQL行》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用GCM关闭应用程序时在iOS中接收推送通知

如何解决《使用GCM关闭应用程序时在iOS中接收推送通知》经验，为你挑选了1个好方法。 ... [详细]
程序员
JavaScript中的重入

如何解决《JavaScript中的重入》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何理解"RESTful API是无状态的"？

如何解决《如何理解"RESTfulAPI是无状态的"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring 4.2:CacheControl不允许no-store和no-cache标头

如何解决《Spring4.2:CacheControl不允许no-store和no-cache标头》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在iOS swift中获取分接点(坐标)

如何解决《如何在iOSswift中获取分接点(坐标)》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在AngularJs中存储和读取会话(值)？

如何解决《如何在AngularJs中存储和读取会话(值)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将数据拆分为Hive中的多个列

如何解决《将数据拆分为Hive中的多个列》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何过滤chrome devtools中的缓存请求？

如何解决《如何过滤chromedevtools中的缓存请求？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在cherrypy中的静态URL

如何解决《在cherrypy中的静态URL》经验，为你挑选了0个好方法。 ... [详细]
程序员
Option literal与Option变量

如何解决《Optionliteral与Option变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
给列表变量命名

如何解决《给列表变量命名》经验，为你挑选了1个好方法。 ... [详细]

贴进你的心聆听你的世界

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章