Python的爬虫框架scrapy用21行代码写一个爬虫

作者：落单鸟人 | 2022-01-26 12:24

最近在学习Python的爬虫框架scrapy，通过爬取线报网站后发现整个过程还是挺值得学习的，所以下面这篇文章主要就给大家介绍了Python的爬虫框架scrapy利用21行代码写一个爬虫的相关资料，需要的朋友可以参考借鉴，下面来一起看看吧。

开发说明

开发环境:Pycharm 2017.1(目前最新)

开发框架:Scrapy 1.3.3(目前最新)

目标

爬取线报网站,并把内容保存到items.json里

页面分析

根据上图我们可以发现内容都在类为post这个div里

下面放出post的代码



04月07日

4月7日 淘金币淘里程领取京东签到已结束
发布日期: 2017-04-07 | 分类: 虚拟币 | 浏览:125177
淘金币一键领取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【电脑端30金币】 https://taojinbi.taobao.com/inde ... auto_take=true 【手机端30金币】 http://h5.m.taobao...

实现方法

1、定义items

class DemoItem(scrapy.Item):
 id = scrapy.Field()
 title = scrapy.Field()
 href = scrapy.Field()
 content = scrapy.Field()

2、新建一个爬虫名为test

# -*- coding: utf-8 -*-
import scrapy
from demo.items import DemoItem
from scrapy.http import Request
class TestSpider(scrapy.Spider):
 #定义爬虫的名字和需要爬取的网址
 name = "test"
 allowed_domains = ["www.abckg.com"]
 start_urls = ['http://www.abckg.com/']
 def parse(self, response):
 for resp in response.css('.post'):
  #实例化item
  item = DemoItem()
  #把获取到的内容保存到item内
  item['href'] = resp.css('h2 a::attr(href)').extract()
  item['title'] = resp.css('h2 a::text').extract()
  item['content'] = resp.css('.intro p::text').extract()
  yield item
  
 #下面是多页面的爬取方法
 urls = response.css('.pageinfo a::attr(href)').extract()
 for url in urls:
  yield Request(url, callback=self.parse)
 categorys = response.css('.menu li a::attr(href)').extract()
 for ct in categorys:
  yield Request(ct, callback=self.parse)

3、修改settings.py,添加以下代码

FEED_EXPORT_ENCODING = 'utf-8'

#运行

打开cmd输入

scrapy crawl test -o items.json

已知bug

如果多次运行该爬虫,不会覆盖原有的内容,而是追加数据(好像是scrapy的bug)

可拓展内容

1、定时运行爬虫,当检查到网站更新时获取新数据并发邮件通知

2、检测数据是否重复

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者使用python能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对的支持。

推荐阅读

程序员
Peewee MySQL服务器已经消失

如何解决《PeeweeMySQL服务器已经消失》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用CSS移动前景图像

如何解决《使用CSS移动前景图像》经验，为你挑选了1个好方法。 ... [详细]
程序员
内存分配功能是否表示不再使用内存内容？

如何解决《内存分配功能是否表示不再使用内存内容？》经验，为你挑选了1个好方法。 ... [详细]
程序员
或C#中的Conditional属性中的运算符

如何解决《或C#中的Conditional属性中的运算符》经验，为你挑选了1个好方法。 ... [详细]
程序员
Pandas datetime到unixtime

如何解决《Pandasdatetime到unixtime》经验，为你挑选了1个好方法。 ... [详细]
程序员
字段名称`username`对于模型无效

如何解决《字段名称`username`对于模型无效》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何定义描述内存位置的宏？

如何解决《如何定义描述内存位置的宏？》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP检查Filesize以查看它是否正在发生变化

如何解决《PHP检查Filesize以查看它是否正在发生变化》经验，为你挑选了1个好方法。 ... [详细]
程序员
单元测试Asp.Net WebApi:如何使用[FromUri]参数测试方法的正确路由

如何解决《单元测试Asp.NetWebApi:如何使用[FromUri]参数测试方法的正确路由》经验，为你挑选了0个好方法。 ... [详细]
程序员
Supervisord - 在supervisord.conf中使用变量INSIDE

如何解决《Supervisord-在supervisord.conf中使用变量INSIDE》经验，为你挑选了0个好方法。 ... [详细]
程序员
'val'会产生可变数据吗？

如何解决《'val'会产生可变数据吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
DataTemplate x:绑定名称空间错误

如何解决《DataTemplatex:绑定名称空间错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
节日2.4:为什么有些声音不适合唱歌模式？

如何解决《节日2.4:为什么有些声音不适合唱歌模式？》经验，为你挑选了0个好方法。 ... [详细]
程序员
带有python请求库的zomato api请求

如何解决《带有python请求库的zomatoapi请求》经验，为你挑选了1个好方法。 ... [详细]
程序员
Emacs - 组织模式插入复选框

如何解决《Emacs-组织模式插入复选框》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么指令有范围？

如何解决《为什么指令有范围？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Redux路由器 - 刷新后如何重播状态？

如何解决《Redux路由器-刷新后如何重播状态？》经验，为你挑选了1个好方法。 ... [详细]
程序员
创建具有多个级别的摘要表

如何解决《创建具有多个级别的摘要表》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么空分配不起作用？

如何解决《为什么空分配不起作用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Swift进行单元测试:未执行封闭体

如何解决《使用Swift进行单元测试:未执行封闭体》经验，为你挑选了1个好方法。 ... [详细]

落单鸟人

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章

DevBox开发工具箱 | 专业的在线开发工具网站

Python的爬虫框架scrapy用21行代码写一个爬虫

4月7日 淘金币淘里程领取京东签到已结束

发布日期: 2017-04-07 | 分类: 虚拟币 | 浏览:125177

4月7日淘金币淘里程领取京东签到已结束