python爬虫scrapy框架的梨视频案例解析

作者：个性2402852463 | 2021-11-02 23:41

这篇文章主要介绍了python爬虫scrapy框架的梨视频案例解析,本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下

之前我们使用lxml对梨视频网站中的视频进行了下载，感兴趣的朋友点击查看吧。

下面我用scrapy框架对梨视频网站中的视频标题和视频页中对视频的描述进行爬取

在这里插入图片描述

分析：我们要爬取的内容并不在同一个页面，视频描述内容需要我们点开视频，跳转到新的url中才能获取，我们就不能在一个方法中去解析我们需要的不同内容

1.爬虫文件

这里我们可以仿照爬虫文件中的parse方法，写一个新的parse方法，可以将新的url的响应对象传给这个新的parse方法
如果需要在不同的parse方法中使用同一个item对象，可以使用meta参数字典，将item传给callback回调函数
爬虫文件中的parse需要yield的Request请求，而item则在新的parse方法中使用yield item传给下一个parse方法或管道文件

import scrapy

# 从items.py文件中导入BossprojectItem类
from bossProject.items import BossprojectItem

class BossSpider(scrapy.Spider):
 name = 'boss'
 # allowed_domains = ['www.xxx.com']
 start_urls = ['https://www.pearvideo.com/category_5']

 # 回调函数接受响应对象，并且接受传递过来的meata参数
 def content_parse(self,response):
 # meta参数包含在response响应对象中，调用meta，然后根据键值取出对应的值:item
 item = response.meta['item']

 # 解析视频链接中的对视频的描述
 des = response.xpath('//div[@class="summary"]/text()').extract()
 des = "".join(des)
 item['des'] = des

 yield item 

 # 解析首页视频的标题以及视频的链接
 def parse(self, response):
 li_list = response.xpath('//div[@id="listvideoList"]/ul/li')
 for li in li_list:
  href = li.xpath('./div/a/@href').extract()
  href = "https://www.pearvideo.com/" + "".join(href)

  title = li.xpath('./div[1]/a/div[2]/text()').extract()
  title = "".join(title)

  item = BossprojectItem()
  item["title"] = title

  #手动发送请求，并将响应对象传给回调函数
  #请求传参:meta={}，可以将meta字典传递给请求对应的回调函数
  yield scrapy.Request(href,callback=self.content_parse,meta={'item':item})

2.items.py

要将BossprojectItem类导入爬虫文件中才能够创建item对象

import scrapy
class BossprojectItem(scrapy.Item):
 # define the fields for your item here like:
 # name = scrapy.Field()
 # 定义了item属性
 title = scrapy.Field()
 des = scrapy.Field()

3.pipelines.py

open_spider(self,spider)和close_spider(self,spider)重写这两个父类方法，且这两个方法都只执行一次在process_item方法中最好保留return item，因为如果存在多个管道类，return item会自动将item对象传给优先级低于自己的管道类

from itemadapter import ItemAdapter
class BossprojectPipeline:

 def __init__(self):
 self.fp = None

 # 重写父类方法，只调用一次
 def open_spider(self,spider):
 print("爬虫开始")
 self.fp = open('./lishipin.txt','w')

 # 接受爬虫文件中yield传递来的item对象，将item中的内容持久化存储
 def process_item(self, item, spider):
 self.fp.write(item['title'] + '\n\t' + item['des'] + '\n')

 # 如果有多个管道类，会将item传递给下一个管道类
 # 管道类的优先级取决于settings.py中的ITEM_PIPELINES属性中对应的值
  ## ITEM_PIPELINES = {'bossProject.pipelines.BossprojectPipeline': 300,} 键值中的值越小优先级越高
 return item

 # 重写父类方法，只调用一次
 def close_spider(self,spider): 
 self.fp.close()
 print("爬虫结束")

4.进行持久化存储

在这里插入图片描述

到此这篇关于python爬虫scrapy框架的梨视频案例解析的文章就介绍到这了,更多相关python爬虫scrapy框架内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
使用反射填充自定义类属性

如何解决《使用反射填充自定义类属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
查找列表中邻居的最有效方法

如何解决《查找列表中邻居的最有效方法》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法保持jQuery下拉列表滑落

如何解决《无法保持jQuery下拉列表滑落》经验，为你挑选了0个好方法。 ... [详细]
程序员
证明父母留下的div

如何解决《证明父母留下的div》经验，为你挑选了0个好方法。 ... [详细]
程序员
WPF PRISM 6 DelegateComand ObservesCanExecute

如何解决《WPFPRISM6DelegateComandObservesCanExecute》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用C++包装库的C#性能

如何解决《使用C++包装库的C#性能》经验，为你挑选了1个好方法。 ... [详细]
程序员
在R中按计数合并数据帧

如何解决《在R中按计数合并数据帧》经验，为你挑选了1个好方法。 ... [详细]
程序员
__uuidof（someVar）是做什么的？

如何解决《__uuidof（someVar）是做什么的？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用MATLAB将信号发送到IP地址的端口？

如何解决《如何使用MATLAB将信号发送到IP地址的端口？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何从新行设置数组的每个元素

如何解决《如何从新行设置数组的每个元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在代码优先迁移中强制删除并重新创建选定的表？

如何解决《如何在代码优先迁移中强制删除并重新创建选定的表？》经验，为你挑选了1个好方法。 ... [详细]
程序员
尝试执行迁移时模型的未处理挂起操作

如何解决《尝试执行迁移时模型的未处理挂起操作》经验，为你挑选了0个好方法。 ... [详细]
程序员
Xcode命令行测试执行问题

如何解决《Xcode命令行测试执行问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
将字符串拆分为数组并修剪每个值的有效方法 - Swift

如何解决《将字符串拆分为数组并修剪每个值的有效方法-Swift》经验，为你挑选了1个好方法。 ... [详细]
程序员
django - 在查询集上切片/过滤后过滤,其中结果已被限制

如何解决《django-在查询集上切片/过滤后过滤,其中结果已被限制》经验，为你挑选了2个好方法。 ... [详细]
程序员
Laravel 5:Apache php http认证

如何解决《Laravel5:Apachephphttp认证》经验，为你挑选了0个好方法。 ... [详细]
程序员
SQL Server - 正确分解付款

如何解决《SQLServer-正确分解付款》经验，为你挑选了1个好方法。 ... [详细]
程序员
Swift PureMVC:不符合NSObjectProtocol

如何解决《SwiftPureMVC:不符合NSObjectProtocol》经验，为你挑选了1个好方法。 ... [详细]
程序员
Sitecore“随机”对象引用未设置为对象的实例

如何解决《Sitecore“随机”对象引用未设置为对象的实例》经验，为你挑选了0个好方法。 ... [详细]
程序员
滚动并获取具有对资源的特定访问权限的用户列表

如何解决《滚动并获取具有对资源的特定访问权限的用户列表》经验，为你挑选了1个好方法。 ... [详细]

个性2402852463

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章