12赞

在烧瓶应用程序中运行scrapy蜘蛛在背景中

作者：家具销售_903 | 2023-06-15 16:24

如何解决《在烧瓶应用程序中运行scrapy蜘蛛在背景中》经验，为你挑选了1个好方法。

我正在构建一个使用Flask和Scrapy的应用程序.访问我的应用程序的根URL时,它会处理一些数据并显示它.另外,如果它还没有运行,我也想(重新)启动我的蜘蛛.由于我的蜘蛛需要大约1.5小时才能完成运行,因此我使用线程将其作为后台进程运行.这是一个最小的例子(你还需要testspiders):

import os
from flask import Flask, render_template
import threading
from twisted.internet import reactor
from scrapy import log, signals
from scrapy.crawler import Crawler
from scrapy.settings import Settings    
from testspiders.spiders.followall import FollowAllSpider

def crawl():
    spider = FollowAllSpider(domain='scrapinghub.com')
    crawler = Crawler(Settings())
    crawler.configure()
    crawler.signals.connect(reactor.stop, signal=signals.spider_closed)
    crawler.crawl(spider)
    crawler.start()
    log.start()
    reactor.run()

app = Flask(__name__)

@app.route('/')
def main():
    run_in_bg = threading.Thread(target=crawl, name='crawler')
    thread_names = [t.name for t in threading.enumerate() if isinstance(t, threading.Thread)]

    if 'crawler' not in thread_names:
        run_in_bg.start()

    return 'hello world'

if __name__ == "__main__":
    port = int(os.environ.get('PORT', 5000))
    app.run(host='0.0.0.0', port=port)

作为旁注,以下几行是我尝试识别我的爬虫程序线程是否仍在运行的临时方法.如果有一种更惯用的方法,我会很感激一些指导.

run_in_bg = threading.Thread(target=crawl, name='crawler')
thread_names = [t.name for t in threading.enumerate() if isinstance(t, threading.Thread)]

if 'crawler' not in thread_names:
    run_in_bg.start()

继续讨论问题 - 如果我将上述脚本保存为crawler.py,运行python crawler.py并访问localhost:5000,则会出现以下错误(忽略scrapy的HtmlXPathSelector弃用错误):

exceptions.ValueError: signal only works in main thread

虽然蜘蛛运行,但它不会停止,因为signals.spider_closed信号只能在主线程中工作(根据此错误).正如预期的那样,对根URL的后续请求会导致严重错误.

我如何设计我的应用程序以启动我的蜘蛛,如果它还没有爬行,同时立即将控制权返回到我的应用程序(即我不想等待爬虫完成)其他东西？

1> bwbrowning..：

烧瓶开始长时间运行这样的线程并不是最好的主意.

我建议使用像芹菜或rabbitmq这样的队列系统.您的烧瓶应用程序可以将任务放在您希望在后台执行的队列中,然后立即返回.

然后,您可以让主应用程序之外的工作人员处理这些任务并完成所有操作.

推荐阅读

程序员
尝试确定在干净安装的Windows 10 + vs2015上托管应用程序的DNX进程的进程ID时发生错误

如何解决《尝试确定在干净安装的Windows10+vs2015上托管应用程序的DNX进程的进程ID时发生错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么具有相同哈希码的对象不相等

如何解决《为什么具有相同哈希码的对象不相等》经验，为你挑选了3个好方法。 ... [详细]
程序员
Slack Bitbucket集成

如何解决《SlackBitbucket集成》经验，为你挑选了1个好方法。 ... [详细]
程序员
Sql查询 - 搜索包含通配符的varchar

如何解决《Sql查询-搜索包含通配符的varchar》经验，为你挑选了1个好方法。 ... [详细]
程序员
ImportError:没有名为cycler的模块

如何解决《ImportError:没有名为cycler的模块》经验，为你挑选了2个好方法。 ... [详细]
程序员
键盘覆盖屏幕而不是推高布局？

如何解决《键盘覆盖屏幕而不是推高布局？》经验，为你挑选了0个好方法。 ... [详细]
程序员
contentful api markdown转换为HTML

如何解决《contentfulapimarkdown转换为HTML》经验，为你挑选了1个好方法。 ... [详细]
程序员
Javascript在Python中给出了相同算法的不同答案

如何解决《Javascript在Python中给出了相同算法的不同答案》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何用"yyyyMMdd Hmm"格式将字符串解析为DateTime？

如何解决《如何用"yyyyMMddHmm"格式将字符串解析为DateTime？》经验，为你挑选了1个好方法。 ... [详细]
程序员
詹金斯（Jenkins）存档失败说：“您必须提供营销或技术版本的价值。两者都找不到。”

如何解决《詹金斯（Jenkins）存档失败说：“您必须提供营销或技术版本的价值。两者都找不到。”》经验，为你挑选了0个好方法。 ... [详细]
程序员
适用于Android 4.0.3(API 15)及以下版本的TextView.getMaxLines()的替代方法

如何解决《适用于Android4.0.3(API15)及以下版本的TextView.getMaxLines()的替代方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
在copytree()完成之前,print()不会打印

如何解决《在copytree()完成之前,print()不会打印》经验，为你挑选了1个好方法。 ... [详细]
程序员
pandas.DataFrame可以有列表类型列吗？

如何解决《pandas.DataFrame可以有列表类型列吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Spark Java返回静态html页面？

如何解决《如何使用SparkJava返回静态html页面？》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Java的流中,Haskell的scanl相当于什么？

如何解决《在Java的流中,Haskell的scanl相当于什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用静态或非静态类

如何解决《使用静态或非静态类》经验，为你挑选了1个好方法。 ... [详细]
程序员
NET :: ERR_CERT_AUTHORITY_INVALID https为红色

如何解决《NET::ERR_CERT_AUTHORITY_INVALIDhttps为红色》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用公共属性创建动态对象

如何解决《使用公共属性创建动态对象》经验，为你挑选了1个好方法。 ... [详细]
程序员
不使用https的chrome 47中的getUserMedia()

如何解决《不使用https的chrome47中的getUserMedia()》经验，为你挑选了1个好方法。 ... [详细]
程序员
Symfony 3.0嵌套实体不保存

如何解决《Symfony3.0嵌套实体不保存》经验，为你挑选了1个好方法。 ... [详细]

家具销售_903

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章