一个入门级python爬虫教程详解

作者：保佑欣疼你的芯疼 | 2021-11-02 23:51

这篇文章主要介绍了一个入门级python爬虫教程详解,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下

前言

本文目的：根据本人的习惯与理解，用最简洁的表述，介绍爬虫的定义、组成部分、爬取流程，并讲解示例代码。

基础

爬虫的定义：定向抓取互联网内容（大部分为网页）、并进行自动化数据处理的程序。主要用于对松散的海量信息进行收集和结构化处理，为数据分析和挖掘提供原材料。

今日t条就是一只巨大的“爬虫”。

爬虫由URL库、采集器、解析器组成。

流程

如果待爬取的url库不为空，采集器会自动爬取相关内容，并将结果给到解析器，解析器提取目标内容后进行写入文件或入库等操作。

在这里插入图片描述

代码

第一步：写一个采集器

如下是一个比较简单的采集器函数。需要用到requests库。
首先，构造一个http的header，里面有浏览器和操作系统等信息。如果没有这个伪造的header，可能会被目标网站的WAF等防护设备识别为机器代码并干掉。

然后，用requests库的get方法获取url内容。如果http响应代码是200 ok，说明页面访问正常，将该函数返回值设置为文本形式的html代码内容。

如果响应代码不是200 ok，说明页面不能正常访问，将函数返回值设置为特殊字符串或代码。

import requests

def get_page(url):
	headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
	response = requests.get(url, headers= headers)
	if response.status_code == 200:
	  return response.text
	else:
		return 'GET HTML ERROR !'

第二步：解析器

解析器的作用是对采集器返回的html代码进行过滤筛选，提取需要的内容。
作为一个14年忠实用户，当然要用豆瓣举个栗子 _

我们计划爬取豆瓣排名TOP250电影的8个参数：排名、电影url链接、电影名称、导演、上映年份、国家、影片类型、评分。整理成字典并写入文本文件。

待爬取的页面如下，每个页面包括25部电影，共计10个页面。

在这里插入图片描述

在这里，必须要表扬豆瓣的前端工程师们，html标签排版非常工整具有层次，非常便于信息提取。

下面是“肖申克的救赎”所对应的html代码：（需要提取的8个参数用红线标注）

在这里插入图片描述

根据上面的html编写解析器函数，提取8个字段。该函数返回值是一个可迭代的序列。
我个人喜欢用re（正则表达式）提取内容。8个（.*?）分别对应需要提取的字段。

import re

def parse_page(html):
	pattern = re.compile('(.*?).*?.*?(.*?).*?.*?(.*?) .*?
(.*?) / (.*?) / (.*?)
.*?(.*?)' , re.S)
	items = re.findall(pattern , html)
	for item in items:
		yield {
		  'rank': item[0],
		  'href': item[1],
		  'name': item[2],
		  'director': item[3].strip()[4:],
		  'year': item[4].strip(),
		  'country': item[5].strip(),
		  'style': item[6].strip(),
		  'score': item[7].strip()
		}

提取后的内容如下：

整理成完整的代码：（暂不考虑容错）

import requests
import re
import json

def get_page(url):
	#采集器函数
	headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
	response = requests.get(url, headers= headers)
	if response.status_code == 200:
	  return response.text
	else:
		return 'GET HTML ERROR ! '


def parse_page(html):
	#解析器函数
	pattern = re.compile('(.*?).*?.*?(.*?).*?.*?(.*?) .*?
(.*?) / (.*?) / (.*?)
.*?(.*?)' , re.S)
	items = re.findall(pattern , html)
	for item in items:
		yield {
		  'rank': item[0],
		  'href': item[1],
		  'name': item[2],
		  'director': item[3].strip()[4:],
		  'year': item[4].strip(),
		  'country': item[5].strip(),
		  'style': item[6].strip(),
		  'score': item[7].strip()
		}


def write_to_file(content):
	#写入文件函数
	with open('result.txt' , 'a' , encoding = 'utf-8') as file:
		file.write(json.dumps(content , ensure_ascii = False) + '\n')


if __name__== "__main__":
	# 主程序
	for i in range(10):
		url= 'https://movie.douban.com/top250?start='+ str(i*25)+ '&filter'
		for res in parse_page(get_page(url)):
			write_to_file(res)

非常简洁，非常符合python简单、高效的特点。

说明：

需要掌握待爬取url的规律，才能利用for循环等操作自动化处理。
前25部影片的url是https://movie.douban.com/top250?start=0&filter，第26-50部影片url是https://movie.douban.com/top250?start=25&filter。规律就在start参数，将start依次设置为0、25、50、75。。。225，就能获取所有页面的链接。parse_page函数的返回值是一个可迭代序列，可以理解为字典的集合。运行完成后，会在程序同目录生成result.txt文件。内容如下：

到此这篇关于一个入门级python爬虫教程详解的文章就介绍到这了,更多相关python爬虫入门教程内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
如何防止在YAML中重新定义键？

如何解决《如何防止在YAML中重新定义键？》经验，为你挑选了0个好方法。 ... [详细]
程序员
TypeError:无法读取未定义的D3.js的属性"1"

如何解决《TypeError:无法读取未定义的D3.js的属性"1"》经验，为你挑选了1个好方法。 ... [详细]
程序员
将UserManager传递给ConfigureServices MVC 6中的AuthorizationHandler

如何解决《将UserManager传递给ConfigureServicesMVC6中的AuthorizationHandler》经验，为你挑选了1个好方法。 ... [详细]
程序员
无论如何在sitecore中自动接受克隆通知吗？

如何解决《无论如何在sitecore中自动接受克隆通知吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取客户端的IP地址

如何解决《获取客户端的IP地址》经验，为你挑选了2个好方法。 ... [详细]
程序员
OperationCanceledException VS任务取消时的TaskCanceledException

如何解决《OperationCanceledExceptionVS任务取消时的TaskCanceledException》经验，为你挑选了1个好方法。 ... [详细]
程序员
从孩子那里得到变数

如何解决《从孩子那里得到变数》经验，为你挑选了1个好方法。 ... [详细]
程序员
为`values_at`方法的选择器使用索引数组

如何解决《为`values_at`方法的选择器使用索引数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用步长python列出一个列表项？

如何解决《使用步长python列出一个列表项？》经验，为你挑选了0个好方法。 ... [详细]
程序员
this.value返回包含值的括号

如何解决《this.value返回包含值的括号》经验，为你挑选了1个好方法。 ... [详细]
程序员
调试Spark 1.6.0中的"检测到托管内存泄漏"

如何解决《调试Spark1.6.0中的"检测到托管内存泄漏"》经验，为你挑选了1个好方法。 ... [详细]
程序员
将'$'删除到R中的文本中

如何解决《将'$'删除到R中的文本中》经验，为你挑选了1个好方法。 ... [详细]
程序员
初始化期间无法成功更新网络信息

如何解决《初始化期间无法成功更新网络信息》经验，为你挑选了0个好方法。 ... [详细]
程序员
展平密封的案例类层次结构

如何解决《展平密封的案例类层次结构》经验，为你挑选了0个好方法。 ... [详细]
程序员
pycharm ssh interpter没有这样的文件或目录

如何解决《pycharmsshinterpter没有这样的文件或目录》经验，为你挑选了1个好方法。 ... [详细]
程序员
检查平衡分组字符时在线判断运行时错误

如何解决《检查平衡分组字符时在线判断运行时错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么C++标准为std :: bitset :: reference指定了析构函数？

如何解决《为什么C++标准为std::bitset::reference指定了析构函数？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用JUnit和Hamcrest比较双打？

如何解决《如何使用JUnit和Hamcrest比较双打？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在r中重复一些元素

如何解决《在r中重复一些元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
注释声明中String []的默认值是什么？

如何解决《注释声明中String[]的默认值是什么？》经验，为你挑选了1个好方法。 ... [详细]

保佑欣疼你的芯疼

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章