python怎么做反爬

作者：jerry613 | 2022-02-02 03:54

伪装浏览器的User-Agent，因为每个浏览器的User-Agent不一样,并且所有的用户都能使用浏览器。所有每次请求的时候条件浏览器的User-Agent，就能解决UA检测。在检测referer的请求中，携带符合的referer值。

网络爬虫，是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。但是当网络爬虫被滥用后，互联网上就出现太多同质的东西，原创得不到保护。于是，很多网站开始反网络爬虫,想方设法保护自己的内容。

所谓 JavaScript 混淆，基本就是:

1.去掉一些实际没有调用的函数。

2.将零散的变量声明合并。

3.逻辑函数的精简。

4.变量名的简化。具体要看不同的压缩工具的考虑优劣。常见的有UglifyJS、JScrambler等工具。

js渲染其实就是对HTML页面的修改。比如有一些网页本身没有返回数据，数据是经过js加载之后添加到HTML当中的。当遇到这种情况的时候，我们要知道爬虫是不会执行JavaScript操作。所以需要用其他的方法处理。

解决方案：

1.通过阅读网站js源码，找到关键的代码，并用python实现。

2.通过阅读网站js源码，找到关键的代码，用PyV8,execjs等库直接执行js代码。

3.通过selenium库直接模拟浏览器环境

三：IP限制频次

WEB系统都是走http协议跟WEB容器连通的，每次请求至少会产生一次客户端与服务器的tcp连接。

对于服务端来说可以很清楚的查看到，一个ip地址在单位时间内发起的请求。

当请求数超过一定的值之后，就可判断为非正常的用户请求。

解决方案：

1.自行设计ip代理池，通过轮换的方式，每次请求携带不同的代理地址。

2.ADSL动态拨号他有个独有的特点，每拨一次号，就获取一个新的IP。也就是它的IP是不固定的。

四：验证码

验证码（CAPTCHA）是“Completely Automated PublicTuring test to tell Computers and HumansApart”（全自动区分计算机和人类的图灵测试）的缩写，是一种区分用户是计算机还是人的公共全自动程序。

可以防止：恶意破解密码、刷票、论坛灌水，有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试。

这个问题可以由计算机生成并评判，但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题，所以回答出问题的用户就可以被认为是人类。

解决方案:

1.手动识别验证码

2.pytesseract识别简单的验证码

3.对接打码平台

4.机器学习

更多Python相关技术文章，请访问Python教程栏目进行学习！

以上就是python怎么做反爬的详细内容，更多请关注其它相关文章！

推荐阅读

程序员
为什么减法超过30天导致错误答案

如何解决《为什么减法超过30天导致错误答案》经验，为你挑选了1个好方法。 ... [详细]
程序员
Chrome DevTools - "排队"在"计时"选项卡中的含义是什么？

如何解决《ChromeDevTools-"排队"在"计时"选项卡中的含义是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用角度2添加firebase的单元测试

如何解决《使用角度2添加firebase的单元测试》经验，为你挑选了0个好方法。 ... [详细]
程序员
从数组中获取最"流行"的数字

如何解决《从数组中获取最"流行"的数字》经验，为你挑选了1个好方法。 ... [详细]
程序员
在UICollectionViewCell中处理滚动视图大小

如何解决《在UICollectionViewCell中处理滚动视图大小》经验，为你挑选了0个好方法。 ... [详细]
程序员
术语弹性搜索中嵌套字段的聚合

如何解决《术语弹性搜索中嵌套字段的聚合》经验，为你挑选了1个好方法。 ... [详细]
程序员
Linux IRQ处理程序中的固有竞争条件

如何解决《LinuxIRQ处理程序中的固有竞争条件》经验，为你挑选了1个好方法。 ... [详细]
程序员
BlueZ D-Bus C或C++示例

如何解决《BlueZD-BusC或C++示例》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++ - 递归结构 - 它可能吗？

如何解决《C++-递归结构-它可能吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
AngularJS捕获$ http操作的所有状态代码？

如何解决《AngularJS捕获$http操作的所有状态代码？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将字符串转换为size_t

如何解决《将字符串转换为size_t》经验，为你挑选了4个好方法。 ... [详细]
程序员
可重用类库内部的依赖注入（DI）

如何解决《可重用类库内部的依赖注入（DI）》经验，为你挑选了0个好方法。 ... [详细]
程序员
C中的这个操作是什么？

如何解决《C中的这个操作是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Microsoft Server studio'脚本表为'用于INSERT到错误的语法

如何解决《MicrosoftServerstudio'脚本表为'用于INSERT到错误的语法》经验，为你挑选了1个好方法。 ... [详细]
程序员
NuGet - 使用packages.config的依赖项创建nuspec

如何解决《NuGet-使用packages.config的依赖项创建nuspec》经验，为你挑选了0个好方法。 ... [详细]
程序员
将Loaders用于网络请求是不好的做法吗？

如何解决《将Loaders用于网络请求是不好的做法吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Java枚举泛型

如何解决《Java枚举泛型》经验，为你挑选了1个好方法。 ... [详细]
程序员
日志消息processIncoming,handlePacket,sendBufferedRequest重复一个LOT - android

如何解决《日志消息processIncoming,handlePacket,sendBufferedRequest重复一个LOT-android》经验，为你挑选了1个好方法。 ... [详细]
程序员
AX 2009的正确部署过程是什么？

如何解决《AX2009的正确部署过程是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Camel blueprint sql事务管理器

如何解决《Camelblueprintsql事务管理器》经验，为你挑选了0个好方法。 ... [详细]

jerry613

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章