如何在scrapy的同一过程中运行多个蜘蛛后停止反应堆？

作者：夏晶阳--艺术 | 2023-06-14 13:16

如何解决《如何在scrapy的同一过程中运行多个蜘蛛后停止反应堆？》经验，为你挑选了1个好方法。

我有几种不同的蜘蛛,想要立刻运行它们.基于此和此,我可以在同一个过程中运行多个蜘蛛.但是,我不知道如何设计一个信号系统,以便在所有蜘蛛完成后停止反应堆.

我试过了:

crawler.signals.connect(reactor.stop, signal=signals.spider_closed)

和

crawler.signals.connect(reactor.stop, signal=signals.spider_idle)

在这两种情况下,当第一个履带关闭时,反应器停止.当然,我希望在所有蜘蛛完成后反应堆停止.

有人能告诉我如何做到这一点吗？

1> 小智..：

睡了一夜后,我意识到我知道该怎么做.我只需要一个柜台:

from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy import log, signals
from scrapy.utils.project import get_project_settings

class ReactorControl:

    def __init__(self):
        self.crawlers_running = 0

    def add_crawler(self):
        self.crawlers_running += 1

    def remove_crawler(self):
        self.crawlers_running -= 1
        if self.crawlers_running == 0 :
            reactor.stop()

def setup_crawler(spider_name):
    crawler = Crawler(settings)
    crawler.configure()
    crawler.signals.connect(reactor_control.remove_crawler, signal=signals.spider_closed)
    spider = crawler.spiders.create(spider_name)
    crawler.crawl(spider)
    reactor_control.add_crawler()
    crawler.start()

reactor_control = ReactorControl()
log.start()
settings = get_project_settings()
crawler = Crawler(settings)

for spider_name in crawler.spiders.list():
    setup_crawler(spider_name)

reactor.run()

我假设Scrapy不平行.

我不知道这是否是最佳方式,但它确实有效!

编辑:已更新.见@ Jean-Robert评论.

好的解决方案但有一件事:由于scrapy的异步行为,你可能会在将爬虫添加到"ReactorControl"之前触发"spider_closed"信号(可能是在过程中很早就有异常),在这种情况下伯爵错了.可能会将`add_crawler`向上移动一行.但这是一个极端的情况......

推荐阅读

程序员
hub.docker.com的自托管替代方案？

如何解决《hub.docker.com的自托管替代方案？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何调试鱼脚本？

如何解决《如何调试鱼脚本？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Swagger UI/Editor like page - 添加到我的网站

如何解决《SwaggerUI/Editorlikepage-添加到我的网站》经验，为你挑选了1个好方法。 ... [详细]
程序员
Laravel 5.1 @can,如何使用OR子句

如何解决《Laravel5.1@can,如何使用OR子句》经验，为你挑选了3个好方法。 ... [详细]
程序员
我如何解决java2d中的ClassCastException(Bug-ID 7172749)

如何解决《我如何解决java2d中的ClassCastException(Bug-ID7172749)》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在C中为数组分配数组

如何解决《如何在C中为数组分配数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
在numpy中索引多个非相邻范围

如何解决《在numpy中索引多个非相邻范围》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果没有子集总和等于给定值，则返回最接近该值的子集总和

如何解决《如果没有子集总和等于给定值，则返回最接近该值的子集总和》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取IntelliJ以识别AnnotationProcessor生成的类

如何解决《获取IntelliJ以识别AnnotationProcessor生成的类》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从spring数据代码中清晰地(物理地)分离域层？

如何解决《如何从spring数据代码中清晰地(物理地)分离域层？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用递归F#运行函数

如何解决《使用递归F#运行函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以从布局中获取视图名称？

如何解决《是否可以从布局中获取视图名称？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Swift:使用Failable Initializer从JSON创建模型类

如何解决《Swift:使用FailableInitializer从JSON创建模型类》经验，为你挑选了1个好方法。 ... [详细]
程序员
发送带有电子webview的发布请求

如何解决《发送带有电子webview的发布请求》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么编程语言不使用简化的布尔表达式？

如何解决《为什么编程语言不使用简化的布尔表达式？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用按钮启用/禁用文本框

如何解决《如何使用按钮启用/禁用文本框》经验，为你挑选了1个好方法。 ... [详细]
程序员
对于标准库实现来说,专门化一个带有子概念的概念上的函数是否合法？

如何解决《对于标准库实现来说,专门化一个带有子概念的概念上的函数是否合法？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如果我将JavaScript事件绑定到一个元素,然后删除该元素,该事件会发生什么？

如何解决《如果我将JavaScript事件绑定到一个元素,然后删除该元素,该事件会发生什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
放大Chrome后,svg模式中的图像变得模糊

如何解决《放大Chrome后,svg模式中的图像变得模糊》经验，为你挑选了0个好方法。 ... [详细]
程序员
python中的文字是什么？

如何解决《python中的文字是什么？》经验，为你挑选了2个好方法。 ... [详细]

夏晶阳--艺术

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章