16赞

python爬虫实战之最简单的网页爬虫教程

作者：地之南_816 | 2022-10-18 21:46

在我们日常上网浏览网页的时候，经常会看到一些好看的图片，我们就希望把这些图片保存下载，或者用户用来做桌面壁纸，或者用来做设计的素材。下面这篇文章就来给大家介绍了关于利用python实现最简单的网页爬虫的相关资料，需要的朋友可以参考借鉴，下面来一起看看吧。

前言

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。最近对python爬虫有了强烈地兴趣，在此分享自己的学习路径，欢迎大家提出建议。我们相互交流，共同进步。话不多说了，来一起看看详细的介绍：

1.开发工具

笔者使用的工具是sublime text3，它的短小精悍（可能男人们都不喜欢这个词）使我十分着迷。推荐大家使用，当然如果你的电脑配置不错，pycharm可能更加适合你。

sublime text3搭建python开发环境推荐查看这篇文章：

[sublime搭建python开发环境][https://www.jb51.net/article/51838.htm]

2.爬虫介绍

爬虫顾名思义，就是像虫子一样，爬在Internet这张大网上。如此，我们便可以获取自己想要的东西。

既然要爬在Internet上，那么我们就需要了解URL，法号“统一资源定位器”，小名“链接”。其结构主要由三部分组成：

（1）协议：如我们在网址中常见的HTTP协议。

（2）域名或者IP地址：域名，如：www.baidu.com，IP地址，即将域名解析后对应的IP。

（3）路径：即目录或者文件等。

3.urllib开发最简单的爬虫

（1）urllib简介

Module	Introduce
urllib.error	Exception classes raised by urllib.request.
urllib.parse	Parse URLs into or assemble them from components.
urllib.request	Extensible library for opening URLs.
urllib.response	Response classes used by urllib.
urllib.robotparser	Load a robots.txt file and answer questions about fetchability of other URLs.

（2）开发最简单的爬虫

百度首页简洁大方，很适合我们爬虫。

爬虫代码如下：

from urllib import request

def visit_baidu():
 URL = "http://www.baidu.com"
 # open the URL
 req = request.urlopen(URL)
 # read the URL 
 html = req.read()
 # decode the URL to utf-8
 html = html.decode("utf_8")
 print(html)

if __name__ == '__main__':
 visit_baidu()

结果如下图：

我们可以通过在百度首页空白处右击，查看审查元素来和我们的运行结果对比。

当然，request也可以生成一个request对象，这个对象可以用urlopen方法打开。

代码如下：

from urllib import request

def vists_baidu():
 # create a request obkect
 req = request.Request('http://www.baidu.com')
 # open the request object
 response = request.urlopen(req)
 # read the response 
 html = response.read()
 html = html.decode('utf-8')
 print(html)

if __name__ == '__main__':
 vists_baidu()

运行结果和刚才相同。

（3）错误处理

错误处理通过urllib模块来处理，主要有URLError和HTTPError错误，其中HTTPError错误是URLError错误的子类，即HTTRPError也可以通过URLError捕获。

HTTPError可以通过其code属性来捕获。

处理HTTPError的代码如下：

from urllib import request
from urllib import error

def Err():
 url = "https://segmentfault.com/zzz"
 req = request.Request(url)

 try:
 response = request.urlopen(req)
 html = response.read().decode("utf-8")
 print(html)
 except error.HTTPError as e:
 print(e.code)
if __name__ == '__main__':
 Err()

运行结果如图：

404为打印出的错误代码，关于此详细信息大家可以自行百度。

URLError可以通过其reason属性来捕获。

chuliHTTPError的代码如下：

from urllib import request
from urllib import error

def Err():
 url = "https://segmentf.com/"
 req = request.Request(url)

 try:
 response = request.urlopen(req)
 html = response.read().decode("utf-8")
 print(html)
 except error.URLError as e:
 print(e.reason)
if __name__ == '__main__':
 Err()

运行结果如图：

既然为了处理错误，那么最好两个错误都写入代码中，毕竟越细致越清晰。须注意的是，HTTPError是URLError的子类，所以一定要将HTTPError放在URLError的前面，否则都会输出URLError的，如将404输出为Not Found。

代码如下：

from urllib import request
from urllib import error

# 第一种方法，URLErroe和HTTPError
def Err():
 url = "https://segmentfault.com/zzz"
 req = request.Request(url)

 try:
 response = request.urlopen(req)
 html = response.read().decode("utf-8")
 print(html)
 except error.HTTPError as e:
 print(e.code)
 except error.URLError as e:
 print(e.reason)

大家可以更改url来查看各种错误的输出形式。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对的支持。

推荐阅读

程序员
HashSet包含不适用于Integer

如何解决《HashSet包含不适用于Integer》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用Python复制和重命名Excel文件

如何解决《使用Python复制和重命名Excel文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在TabLayout和ViewPager中将片段替换为另一个片段

如何解决《如何在TabLayout和ViewPager中将片段替换为另一个片段》经验，为你挑选了0个好方法。 ... [详细]
程序员
Windows.Forms.RichTextBox丢失表背景色

如何解决《Windows.Forms.RichTextBox丢失表背景色》经验，为你挑选了1个好方法。 ... [详细]
程序员
切换以匹配OptionSetType中的多个案例

如何解决《切换以匹配OptionSetType中的多个案例》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将数组传递给函数

如何解决《如何将数组传递给函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么在Win64上调用GetDIBits会失败？

如何解决《为什么在Win64上调用GetDIBits会失败？》经验，为你挑选了1个好方法。 ... [详细]
程序员
升级到Rails 4.2时未初始化的常量Arel :: SqlLiteral

如何解决《升级到Rails4.2时未初始化的常量Arel::SqlLiteral》经验，为你挑选了1个好方法。 ... [详细]
程序员
启用滚动以获得高图表,高库存

如何解决《启用滚动以获得高图表,高库存》经验，为你挑选了1个好方法。 ... [详细]
程序员
read_csv缺少/不完整的标题或不规则的列数

如何解决《read_csv缺少/不完整的标题或不规则的列数》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我的程序在for循环后没有打印出正确的值？

如何解决《为什么我的程序在for循环后没有打印出正确的值？》经验，为你挑选了5个好方法。 ... [详细]
程序员
Django过滤JSONField dicts列表

如何解决《Django过滤JSONFielddicts列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么在严格模式下不允许使用八进制数字文字(什么是变通方法？)

如何解决《为什么在严格模式下不允许使用八进制数字文字(什么是变通方法？)》经验，为你挑选了4个好方法。 ... [详细]
程序员
反应路由器错误 - 无法获取[页面名称]

如何解决《反应路由器错误-无法获取[页面名称]》经验，为你挑选了2个好方法。 ... [详细]
程序员
CakePHP3:如何使用全文索引进行文本搜索

如何解决《CakePHP3:如何使用全文索引进行文本搜索》经验，为你挑选了1个好方法。 ... [详细]
程序员
SKAudioNode播放一次声音

如何解决《SKAudioNode播放一次声音》经验，为你挑选了1个好方法。 ... [详细]
程序员
Libgdx上的通用补间引擎缺少Android Studio"添加为库"

如何解决《Libgdx上的通用补间引擎缺少AndroidStudio"添加为库"》经验，为你挑选了0个好方法。 ... [详细]
程序员
重新加载Spark/Jetty-server中的静态文件

如何解决《重新加载Spark/Jetty-server中的静态文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用MassTransit消耗所有消息

如何解决《使用MassTransit消耗所有消息》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#将图像保存为Mybql数据库为blob

如何解决《C#将图像保存为Mybql数据库为blob》经验，为你挑选了0个好方法。 ... [详细]

地之南_816

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章