在过去的一个月里,我一直在使用Scrapy进行我已经开始的网络爬行项目.
此项目涉及在主页中可以访问的单个域名中提取所有网页的完整文档内容.使用Scrapy写这个很容易,但它运行得太慢了.在2-3天内,我只能下载100,000页.
我已经意识到我最初认为Scrapy不适合这种类型的爬行的想法是揭示自己.
我开始把注意力集中在Nutch和Methabot上,希望能有更好的表现.我在爬网期间需要存储的唯一数据是网页的完整内容,最好是页面上的所有链接(但即使这样也可以在后处理中完成).
我正在寻找一种快速并且使用许多并行请求的爬虫.
这是我的服务器而不是Scrapy的错.服务器可能没有您想要的那么快,或者可能是(或网站管理员)检测到此连接/ cookie的爬行和限制速度.你用代理吗?这可能会减慢爬行速度.这可能是Scrapy的智慧,如果你将爬行过于密集,你可能会被禁止使用此服务器.对于我的C++ 手写爬虫,我人为地设置了每秒1个请求的限制.但是这个速度对于1个线程来说足够了(1 req*60秒*60分钟*24小时= 86400 req/day).如果您有兴趣,可以给whalebot.helmsman {AT} gmail.com写电子邮件.