2赞

当前位置: 开发笔记 > 编程语言 > 正文

关于爬虫和反爬虫的简略方案分享

作者：路人甲 | 2022-02-28 19:18

这篇文章主要给大家介绍了一些关于爬虫和反爬虫的简略方案的相关资料，文中介绍的非常详细，对大家理解和学习爬虫与反爬虫具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧。

前言

爬虫和反爬虫日益成为每家公司的标配系统。

爬虫在情报获取、虚假流量、动态定价、恶意攻击、薅羊毛等方面都能起到很关键的作用，所以每家公司都或多或少的需要开发一些爬虫程序，业界在这方面的成熟的方案也非常多。

有矛就有盾，每家公司也相应的需要反爬虫系统来达到数据保护、系统稳定性保障、竞争优势保持的目的。

像安全与黑客从来都是相辅相成一样。

爬虫与反爬虫也是在双方程序员的斗智斗勇的过程不断发展和成长的。

抓包

抓包的目的：分析出协议请求使用的数据，请求接口，参数等等。

常用的抓包分析工具：

Fiddler
Charles
Sniffer
Wireshark

具体使用策略，请自行百度，Google。

抓数据

使用 HttpClient 模拟请求

充分了解 HttpClient 的特性，使用方式等。

HttpClient4.5官方教程

user_agent 的使用

使用 user_agent 的伪装和轮换模拟不同的客户端。

建立UserAgent池，可以通过以下地址获取一定量的UserAgent的信息。

http://www.fynas.com/ua/search?b=Chrome&k=

代理IP的使用

建立代理ip池，一般使用的免费或收费代理获取代理ip每秒都会有一定的频率限制。

那么我们在使用的时候，就要在频率限制内建立自己内部的一些策略，

当然这些策略建立在代理服务商的策略之上。因此设计实施时要考虑易维护性。

http代理

有些网站（包括APP、PC）具有一定的反爬虫能力，

如拒绝代理ip直接请求接口:

这是我使用代理ip请求登录接口时，某APP的响应：

CONNECT refused by proxy

而使用socks代理则无此问题。这就不得不要了解http代理和socks代理的区别。

socks代理

待续

设置访问频率

即便是使用了代理ip，那么对目标接口的访问也要有一定的频率控制，

防止目标服务方检测出频率过快，进行拒绝服务的响应。

Cookie 池失效和更新策略

获取目标站点Cookie有效时间，

将对应账号和Cookie存入Redis，

起一个任务对账号Cookie进行定时检测，

接近失效时间，进行提前更新Cookie信息，

具体Cookie 池Cookie的失效和更新策略需要根据自己业务进行适当调整。

防止目标方的分析

确保同一账号的请求使用的是同一个UserAgent、同一个代理ip。
注意访问频率
其他

总而言之，就是模拟正常的客户端发起对服务方的请求，伪装的越像正常的客户端，服务方越难分析出。

只要是服务方能够提供服务，一般情况下都可以进行数据的爬取，

只不过是难易程度不同。

如果出于商业目的，要考虑付出的成本到底是否合适。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对的支持。

推荐阅读

程序员
如果两者都有position:absolute,那么元素及其子元素的左值和顶值是什么？

如何解决《如果两者都有position:absolute,那么元素及其子元素的左值和顶值是什么？》经验，为你挑选了0个好方法。 ... [详细]
程序员
垂直对齐图像和文本在表中

如何解决《垂直对齐图像和文本在表中》经验，为你挑选了1个好方法。 ... [详细]
程序员
NestedScrollView在Recyclerview调整大小时滚动到顶部

如何解决《NestedScrollView在Recyclerview调整大小时滚动到顶部》经验，为你挑选了2个好方法。 ... [详细]
程序员
Caffe可以扩展到多个CPU核心吗？

如何解决《Caffe可以扩展到多个CPU核心吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
java.lang.OutOfMemoryError GC开销限制超过了Java堆空间？

如何解决《java.lang.OutOfMemoryErrorGC开销限制超过了Java堆空间？》经验，为你挑选了0个好方法。 ... [详细]
程序员
仅在php,mysql中显示前50个字符

如何解决《仅在php,mysql中显示前50个字符》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将.caf文件转换为.mp3文件？

如何解决《如何将.caf文件转换为.mp3文件？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Clojure - 处理内存不足的大文件

如何解决《Clojure-处理内存不足的大文件》经验，为你挑选了0个好方法。 ... [详细]
程序员
不能使用jsplumb与第二个功能

如何解决《不能使用jsplumb与第二个功能》经验，为你挑选了0个好方法。 ... [详细]
程序员
设置locationpicker.jquery.js的当前用户位置

如何解决《设置locationpicker.jquery.js的当前用户位置》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将日期值插入表中

如何解决《如何将日期值插入表中》经验，为你挑选了1个好方法。 ... [详细]
程序员
退出并返回QML的返回码

如何解决《退出并返回QML的返回码》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用RAML处理Mule流中的多种安全方案的最佳方法是什么？

如何解决《使用RAML处理Mule流中的多种安全方案的最佳方法是什么？》经验，为你挑选了0个好方法。 ... [详细]
程序员
laravel querybuilder如何在其中使用函数

如何解决《laravelquerybuilder如何在其中使用函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用自动增量字符创建自定义列

如何解决《如何使用自动增量字符创建自定义列》经验，为你挑选了0个好方法。 ... [详细]
程序员
在擦除 - 删除习语中使用UnaryPredicate的否定

如何解决《在擦除-删除习语中使用UnaryPredicate的否定》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用select元素从datatable导出数据会从select元素导出每个选项

如何解决《使用select元素从datatable导出数据会从select元素导出每个选项》经验，为你挑选了1个好方法。 ... [详细]
程序员
理解"cat proc/net/udp"

如何解决《理解"catproc/net/udp"》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用TypeConverter将字符串转换为字符串数组

如何解决《使用TypeConverter将字符串转换为字符串数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从PHP中的html页面中删除H2和H3标签？

如何解决《如何从PHP中的html页面中删除H2和H3标签？》经验，为你挑选了1个好方法。 ... [详细]

路人甲

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章