详解Python的爬虫框架 Scrapy

作者：雨天是最美 | 2022-01-05 17:07

这篇文章主要介绍了Python的爬虫框架Scrapy的相关资料，文中讲解非常细致，代码帮助大家更好的理解和学习，感兴趣的朋友可以了解下

网络爬虫，是在网上进行数据抓取的程序，使用它能够抓取特定网页的HTML数据。虽然我们利用一些库开发一个爬虫程序，但是使用框架可以大大提高效率，缩短开发时间。Scrapy是一个使用Python编写的，轻量级的，简单轻巧，并且使用起来非常的方便。

一、概述

下图显示了Scrapy的大体架构，其中包含了它的主要组件及系统的数据处理流程（绿色箭头所示）。下面就来一个个解释每个组件的作用及数据的处理过程（注：图片来自互联网）。

二、组件

1、Scrapy Engine（Scrapy引擎）

Scrapy引擎是用来控制整个系统的数据处理流程，并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。

2、Scheduler（调度）

调度程序从Scrapy引擎接受请求并排序列入队列，并在Scrapy引擎发出请求后返还给他们。

3、Downloader（下载器）

下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。

4、Spiders（蜘蛛）

蜘蛛是有Scrapy用户自己定义用来解析网页并抓取制定URL返回的内容的类，每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则。

蜘蛛的整个抓取流程（周期）是这样的：

首先获取第一个URL的初始请求，当请求返回后调取一个回调函数。第一个请求是通过调用start_requests()方法。该方法默认从start_urls中的Url中生成请求，并执行解析来调用回调函数。

在回调函数中，你可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也将包含一个回调，然后被Scrapy下载，然后有指定的回调处理。

在回调函数中，你解析网站的内容，同程使用的是Xpath选择器（但是你也可以使用BeautifuSoup, lxml或其他任何你喜欢的程序），并生成解析的数据项。

最后，从蜘蛛返回的项目通常会进驻到项目管道。

5、Item Pipeline（项目管道）

项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目，他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后，将被发送到项目管道，并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法，同时他们还需要确定的是是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。

项目管道通常执行的过程有：

清洗HTML数据
验证解析到的数据（检查项目是否包含必要的字段）
检查是否是重复数据（如果重复就删除）
将解析到的数据存储到数据库中

6、Downloader middlewares（下载器中间件）

下载中间件是位于Scrapy引擎和下载器之间的钩子框架，主要是处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的，对Scrapy尽享全局控制的底层的系统。

7、Spider middlewares（蜘蛛中间件）

蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架，主要工作是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架，你可以插入自定义的代码来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。

8、Scheduler middlewares（调度中间件）

调度中间件是介于Scrapy引擎和调度之间的中间件，主要工作是处从Scrapy引擎发送到调度的请求和响应。他提供了一个自定义的代码来拓展Scrapy的功能。

三、数据处理流程

Scrapy的整个数据处理流程有Scrapy引擎进行控制，其主要的运行方式为：

1.引擎打开一个域名，时蜘蛛处理这个域名，并让蜘蛛获取第一个爬取的URL。

2.引擎从蜘蛛那获取第一个需要爬取的URL，然后作为请求在调度中进行调度。

3.引擎从调度那获取接下来进行爬取的页面。

4.调度将下一个爬取的URL返回给引擎，引擎将他们通过下载中间件发送到下载器。

5.当网页被下载器下载完成以后，响应内容通过下载中间件被发送到引擎。

6.引擎收到下载器的响应并将它通过蜘蛛中间件发送到蜘蛛进行处理。

7.蜘蛛处理响应并返回爬取到的项目，然后给引擎发送新的请求。

8.引擎将抓取到的项目项目管道，并向调度发送请求。

9.系统重复第二部后面的操作，直到调度中没有请求，然后断开引擎与域之间的联系。

四、驱动器

Scrapy是由Twisted写的一个受欢迎的Python事件驱动网络框架，它使用的是非堵塞的异步处理。

以上就是详解Python的爬虫框架 Scrapy的详细内容，更多关于Python 爬虫框架 Scrapy的资料请关注其它相关文章！

推荐阅读

程序员
了解静态constexpr成员变量

如何解决《了解静态constexpr成员变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
引导时间选择器不显示时间选择器选项

如何解决《引导时间选择器不显示时间选择器选项》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Relay调度即席查询？

如何解决《如何使用Relay调度即席查询？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在js.erb Ruby on Rails中渲染部分后,资产中的Javascript无法正常工作

如何解决《在js.erbRubyonRails中渲染部分后,资产中的Javascript无法正常工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用NUnit 3在Atlassian Bamboo中运行NUnit Runner？

如何解决《如何使用NUnit3在AtlassianBamboo中运行NUnitRunner？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在没有毫秒和Z的情况下在ISO 8601中的javascript中输出日期

如何解决《如何在没有毫秒和Z的情况下在ISO8601中的javascript中输出日期》经验，为你挑选了4个好方法。 ... [详细]
程序员
UI Bootstrap uib-tabs面板右侧

如何解决《UIBootstrapuib-tabs面板右侧》经验，为你挑选了1个好方法。 ... [详细]
程序员
哈希码是否存储在SyncBlockIndex / SyncBlock中

如何解决《哈希码是否存储在SyncBlockIndex/SyncBlock中》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用其他文本中的多行创建JLabel

如何解决《使用其他文本中的多行创建JLabel》经验，为你挑选了1个好方法。 ... [详细]
程序员
处理HTTP请求正文中的可选JSON字段

如何解决《处理HTTP请求正文中的可选JSON字段》经验，为你挑选了1个好方法。 ... [详细]
程序员
连接3个字符串并返回指向新字符串C的指针

如何解决《连接3个字符串并返回指向新字符串C的指针》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Angular 2中使用逗号作为列表分隔符

如何解决《在Angular2中使用逗号作为列表分隔符》经验，为你挑选了2个好方法。 ... [详细]
程序员
Alamofire - 如何通过分段上传获得进度和完成关闭

如何解决《Alamofire-如何通过分段上传获得进度和完成关闭》经验，为你挑选了1个好方法。 ... [详细]
程序员
根据填充的必填字段构建和操作数组

如何解决《根据填充的必填字段构建和操作数组》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将字符串资源添加到cordova项目中的strings.xml

如何解决《如何将字符串资源添加到cordova项目中的strings.xml》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用Autolayout水平对齐5个按钮的最佳方法是什么

如何解决《使用Autolayout水平对齐5个按钮的最佳方法是什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何正确实现抽象类？

如何解决《如何正确实现抽象类？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Espresso中测试ActionMenuItemView的图标

如何解决《如何在Espresso中测试ActionMenuItemView的图标》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio Text Visualizer缺少文本

如何解决《VisualStudioTextVisualizer缺少文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
覆盖UIImageView的图像getter/setter方法

如何解决《覆盖UIImageView的图像getter/setter方法》经验，为你挑选了1个好方法。 ... [详细]

雨天是最美

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章