如何构建基于Scrapy的Web爬虫永远运行？

作者：郑谊099_448 | 2023-08-08 09:15

如何解决《如何构建基于Scrapy的Web爬虫永远运行？》经验，为你挑选了1个好方法。

我想构建一个基于Scrapy的网络爬虫来从几个新闻门户网站上获取新闻图片.我想这个爬虫是:

永远奔跑

意味着它会定期重新访问一些门户页面以获取更新.

安排优先事项

为不同类型的URL提供不同的优先级.

多线程获取

我已经阅读了Scrapy文档,但没有找到与我列出的相关的东西(也许我不够谨慎).这里有人知道怎么做吗？或者只是给出一些关于它的想法/例子.谢谢!

1> msw..：

Scrapy是一个网站抓取的框架,因此,它旨在支持您的标准,但它不会为您提供开箱即用的舞蹈; 对于某些任务,您可能需要相对熟悉该模块.

永远运行取决于您的应用程序调用Scrapy.你告诉蜘蛛去哪里以及何时去那里.

优先级是Scheduler中间件的工作,您必须创建并插入Scrapy.关于这个的文档似乎参差不齐,我没有看过代码 - 原则上功能就在那里.

Scrapy本质上是从根本上是异步的,这可能是你想要的:请求B可以满足,而请求A仍然是未完成的.底层连接引擎不会阻止您进行真正的多线程,但Scrapy不提供线程服务.

Scrapy是一个库,而不是一个应用程序.模块的用户需要进行大量的工作(代码).

推荐阅读

程序员
R strsplit不会拆分为"."？

如何解决《Rstrsplit不会拆分为"."？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ember单元测试组件具有冒泡动作

如何解决《Ember单元测试组件具有冒泡动作》经验，为你挑选了0个好方法。 ... [详细]
程序员
通过VSTS Rest API启动构建并传递变量

如何解决《通过VSTSRestAPI启动构建并传递变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
react-router - 创建没有组件嵌套的嵌套路由

如何解决《react-router-创建没有组件嵌套的嵌套路由》经验，为你挑选了1个好方法。 ... [详细]
程序员
在`fwprintf'之后使用`fprintf'时无输出

如何解决《在`fwprintf'之后使用`fprintf'时无输出》经验，为你挑选了0个好方法。 ... [详细]
程序员
async/await deadlock而不使用Task.Result

如何解决《async/awaitdeadlock而不使用Task.Result》经验，为你挑选了1个好方法。 ... [详细]
程序员
Dockerfile COPY文件未在VOLUME上显示

如何解决《DockerfileCOPY文件未在VOLUME上显示》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何测试DeferredResult timeoutResult

如何解决《如何测试DeferredResulttimeoutResult》经验，为你挑选了1个好方法。 ... [详细]
程序员
Stomp spring web socket消息超出大小限制

如何解决《Stompspringwebsocket消息超出大小限制》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有关于如何生成包含经过训练的TensorFlow图的protobuf文件的示例

如何解决《有没有关于如何生成包含经过训练的TensorFlow图的protobuf文件的示例》经验，为你挑选了2个好方法。 ... [详细]
程序员
Java中的数字格式错误

如何解决《Java中的数字格式错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在命令行上排除Maven模块

如何解决《如何在命令行上排除Maven模块》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP7中的分段错误

如何解决《PHP7中的分段错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
休眠验证器错误Spring Boot

如何解决《休眠验证器错误SpringBoot》经验，为你挑选了1个好方法。 ... [详细]
程序员
从Dictionary中加入键和值

如何解决《从Dictionary中加入键和值》经验，为你挑选了1个好方法。 ... [详细]
程序员
从Windows Universal App中的ListView中获取选定的ListViewItem容器

如何解决《从WindowsUniversalApp中的ListView中获取选定的ListViewItem容器》经验，为你挑选了1个好方法。 ... [详细]
程序员
CSS表中第一行和第一列的每个单元格的背景颜色不同

如何解决《CSS表中第一行和第一列的每个单元格的背景颜色不同》经验，为你挑选了1个好方法。 ... [详细]
程序员
R:在ggplot中的两点之间划一条线

如何解决《R:在ggplot中的两点之间划一条线》经验，为你挑选了1个好方法。 ... [详细]
程序员
禁用Chrome通知(Selenium)

如何解决《禁用Chrome通知(Selenium)》经验，为你挑选了2个好方法。 ... [详细]
程序员
缓冲区为整数.无法理解这一行代码

如何解决《缓冲区为整数.无法理解这一行代码》经验，为你挑选了0个好方法。 ... [详细]

郑谊099_448

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章