Python爬虫部分开篇概念讲解

作者：oDavid_仔o_880 | 2021-10-27 04:25

在学习Python爬虫部分，需要已经学过Python基础和前端的相关知识，本文对python爬虫概念及原理给大家详细介绍，需要的朋友跟随小编一起看看吧

在学习Python爬虫部分，需要你已经学过Python基础和前端的相关知识。

开发环境介绍：

window10 操作系统
Python解释器3.8
集成开发环境pycharm

数据的来源及作用

数据的来源有哪些？

用户产生的数据：百度指数
政府统计的数据：政府数据
数据管理公司：聚合数据
自己爬取的数据：爬取网站上的某些视频

数据的作用

数据分析
智能产品的练习数据
其他（比如买卖）

爬虫的相关概念

a) 爬虫的概念

爬虫就是应用程序，从网上下载各种各样的资源。
换句话说就是使用编程语言编写一个用于爬虫web或者app的数据应用程序。
怎么爬取数据呢？

找到要爬取的目标网站，发起请求
分析url是如何变化的和提取有用的url
提取有用的信息

爬虫什么数据都可以爬吗？
当然不能，需要遵守一定的规则和协议

可以看一下京东的：

在这里插入图片描述

有些是允许的，有些是不允许的。

b) 爬虫分类

通用爬虫

百度等搜索引擎，从一些初始的URL扩展到整个网站，主要为门户站点搜索引起和大型网站服务采集数据

聚焦网站爬虫

主题网络爬虫，选择性爬取根据需求相关的页面的网络爬虫

增量式网络爬虫

对已经下载的页面采取更新知识和只爬新产生的。

c) 爬虫的原理

通用的爬虫原理

在这里插入图片描述

聚焦网络爬虫原理

在这里插入图片描述

d) 各种语言写爬虫的对比

php对多线程，异步支持不是很友好，并发能力弱。速度和效率低
java：代码量大，而且重构成本比较高，任何改动都会导致大量的改动，而爬虫需要经常修改采集代码
Python：开发效率高，代码简洁，支持的模块多，和HTTP请求和html解析模块非常丰富，还有scrapy,scrapy-redis框架，让开发爬虫更简单。

到此这篇关于Python爬虫部分开篇示例讲解的文章就介绍到这了,更多相关Python爬虫部分开篇示例讲解内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
打印任何STL容器

如何解决《打印任何STL容器》经验，为你挑选了2个好方法。 ... [详细]
程序员
当我需要总数时生成NAN

如何解决《当我需要总数时生成NAN》经验，为你挑选了1个好方法。 ... [详细]
程序员
响应式图像拉伸 - 基于y轴的网格？

如何解决《响应式图像拉伸-基于y轴的网格？》经验，为你挑选了0个好方法。 ... [详细]
程序员
显示分配堆栈跟踪时防止程序崩溃

如何解决《显示分配堆栈跟踪时防止程序崩溃》经验，为你挑选了1个好方法。 ... [详细]
程序员
斯坦福依赖解析器设置和NLTK

如何解决《斯坦福依赖解析器设置和NLTK》经验，为你挑选了1个好方法。 ... [详细]
程序员
SecCopyErrorMessageString在swift中给出"使用未解析的标识符"

如何解决《SecCopyErrorMessageString在swift中给出"使用未解析的标识符"》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我还需要打开Swift字典值呢？

如何解决《为什么我还需要打开Swift字典值呢？》经验，为你挑选了1个好方法。 ... [详细]
程序员
ClassCastException Double to Float,即使我没有使用Double

如何解决《ClassCastExceptionDoubletoFloat,即使我没有使用Double》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring 4.2.3.RELEASE和Hibernate 5.0.4.Final兼容性问题

如何解决《Spring4.2.3.RELEASE和Hibernate5.0.4.Final兼容性问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
表中是否始终需要主键自动增量？

如何解决《表中是否始终需要主键自动增量？》经验，为你挑选了1个好方法。 ... [详细]
程序员
当我无法访问CLI工具时,如何关闭JBoss Wildfly？

如何解决《当我无法访问CLI工具时,如何关闭JBossWildfly？》经验，为你挑选了1个好方法。 ... [详细]
程序员
循环python的多个变量

如何解决《循环python的多个变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
PySpark和广播连接示例

如何解决《PySpark和广播连接示例》经验，为你挑选了1个好方法。 ... [详细]
程序员
onEndEditing和onBlur之间的区别？

如何解决《onEndEditing和onBlur之间的区别？》经验，为你挑选了2个好方法。 ... [详细]
程序员
以kdb +为单位的微秒条数据汇总

如何解决《以kdb+为单位的微秒条数据汇总》经验，为你挑选了0个好方法。 ... [详细]
程序员
找到版本号最高的标签

如何解决《找到版本号最高的标签》经验，为你挑选了1个好方法。 ... [详细]
程序员
javax.xml.ws.WebServiceException:java.io.IOException:写入服务器Tomcat 8时出错

如何解决《javax.xml.ws.WebServiceException:java.io.IOException:写入服务器Tomcat8时出错》经验，为你挑选了0个好方法。 ... [详细]
程序员
哪个数据库用于iOS和Android

如何解决《哪个数据库用于iOS和Android》经验，为你挑选了1个好方法。 ... [详细]
程序员
JAX-RS/Jersey路径参数regex用于简单字符串

如何解决《JAX-RS/Jersey路径参数regex用于简单字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Sourcetree中创建分支组

如何解决《在Sourcetree中创建分支组》经验，为你挑选了1个好方法。 ... [详细]

oDavid_仔o_880

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章