17赞

python的爬虫是什么意思

作者：夏晶阳--艺术 | 2021-10-27 08:26

Python爬虫即使用Python程序开发的网络爬虫（网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。爬虫还可以验证超链接和HTML代码，用于网络抓取。

Python爬虫即使用Python程序开发的网络爬虫（网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取 web 页面上自己想要的数据，也就是自动抓取数据。

网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。

网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来，以便搜索引擎事后生成索引供用户搜索。

爬虫访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时，爬虫需要考虑到规划、负载，还需要讲“礼貌”。不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求机器人只对网站的一部分进行索引，或完全不作处理。

互联网上的页面极多，即使是最大的爬虫系统也无法做出完整的索引。因此在公元2000年之前的万维网出现初期，搜索引擎经常找不到多少相关结果。现在的搜索引擎在这方面已经进步很多，能够即刻给出高质量结果。

爬虫还可以验证超链接和HTML代码，用于网络抓取。

Python 爬虫

Python 爬虫架构

Python 爬虫架构主要由五个部分组成，分别是调度器、URL 管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。

调度器：相当于一台电脑的 CPU，主要负责调度 URL 管理器、下载器、解析器之间的协调工作。

URL 管理器：包括待爬取的 URL 地址和已爬取的 URL 地址，防止重复抓取 URL 和循环抓取 URL，实现 URL 管理器主要用三种方式，通过内存、数据库、缓存数据库来实现。

网页下载器：通过传入一个 URL 地址来下载网页，将网页转换成一个字符串，网页下载器有 urllib2（Python 官方基础模块）包括需要登录、代理、和 cookie，requests(第三方包)

网页解析器：将一个网页字符串进行解析，可以按照我们的要求来提取出我们有用的信息，也可以根据 DOM 树的解析方式来解析。网页解析器有正则表达式（直观，将网页转成字符串通过模糊匹配的方式来提取有价值的信息，当文档比较复杂的时候，该方法提取数据的时候就会非常的困难）、html.parser（Python 自带的）、beautifulsoup（第三方插件，可以使用 Python 自带的 html.parser 进行解析，也可以使用 lxml 进行解析，相对于其他几种来说要强大一些）、lxml（第三方插件，可以解析 xml 和 HTML），html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 树的方式进行解析的。

应用程序：就是从网页中提取的有用数据组成的一个应用。

爬虫可以做什么？

你可以用爬虫爬图片，爬取视频等等你想要爬取的数据，只要你能通过浏览器访问的数据都可以通过爬虫获取。

爬虫的本质是什么？

模拟浏览器打开网页，获取网页中我们想要的那部分数据

浏览器打开网页的过程：

当你在浏览器中输入地址后，经过 DNS 服务器找到服务器主机，向服务器发送一个请求，服务器经过解析后发送给用户浏览器结果，包括 html,js,css 等文件内容，浏览器解析出来最后呈现给用户在浏览器上看到的结果

所以用户看到的浏览器的结果就是由 HTML 代码构成的，我们爬虫就是为了获取这些内容，通过分析和过滤 html 代码，从中获取我们想要资源。

推荐阅读

程序员
TensorFlow中的缓存计算

如何解决《TensorFlow中的缓存计算》经验，为你挑选了1个好方法。 ... [详细]
程序员
Pandas:合并两个数据帧时控制新的列名？

如何解决《Pandas:合并两个数据帧时控制新的列名？》经验，为你挑选了2个好方法。 ... [详细]
程序员
JsonMappingException:找不到合适的构造函数

如何解决《JsonMappingException:找不到合适的构造函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用ES6语法导入jquery？

如何解决《如何使用ES6语法导入jquery？》经验，为你挑选了6个好方法。 ... [详细]
程序员
如何重定向到Angular2中的外部URL？

如何解决《如何重定向到Angular2中的外部URL？》经验，为你挑选了6个好方法。 ... [详细]
程序员
如何在Linux bash脚本中调用用户/组ID

如何解决《如何在Linuxbash脚本中调用用户/组ID》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在C＃中使用Windows搜索服务

如何解决《如何在C＃中使用Windows搜索服务》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Spring中指定控制器异步方法的超时

如何解决《在Spring中指定控制器异步方法的超时》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python 3.4中的"async for"

如何解决《Python3.4中的"asyncfor"》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio 2015 Update 1打破了git存储库界面

如何解决《VisualStudio2015Update1打破了git存储库界面》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用jquery从链接中选择href属性？

如何解决《如何使用jquery从链接中选择href属性？》经验，为你挑选了1个好方法。 ... [详细]
程序员
泊坞窗.npm install - >错误:getaddrinfo ENOTFOUND

如何解决《泊坞窗.npminstall->错误:getaddrinfoENOTFOUND》经验，为你挑选了0个好方法。 ... [详细]
程序员
解析程序:分段错误(核心转储)

如何解决《解析程序:分段错误(核心转储)》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么不是每个循环的JavaScript？

如何解决《为什么不是每个循环的JavaScript？》经验，为你挑选了1个好方法。 ... [详细]
程序员
ffmpeg:多个filter_complex的链,重用中间输出流

如何解决《ffmpeg:多个filter_complex的链,重用中间输出流》经验，为你挑选了1个好方法。 ... [详细]
程序员
更新列值为空的表中所有行的列值？

如何解决《更新列值为空的表中所有行的列值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何执行lappend $ varname1 $ varname2

如何解决《如何执行lappend$varname1$varname2》经验，为你挑选了1个好方法。 ... [详细]
程序员
这个表达式有效吗？

如何解决《这个表达式有效吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
声明具有完整定义的子类

如何解决《声明具有完整定义的子类》经验，为你挑选了1个好方法。 ... [详细]
程序员
Pandas:合并多个数据帧和控制列名？

如何解决《Pandas:合并多个数据帧和控制列名？》经验，为你挑选了1个好方法。 ... [详细]

夏晶阳--艺术

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章