Python爬虫防封ip的一些技巧

作者：帆侮听我悄悄说星星 | 2022-01-05 17:04

这篇文章主要介绍了Python爬虫防封ip的一些技巧，对平时学习爬虫有所帮助，感兴趣的朋友可以了解下

在编写爬虫爬取数据的时候，因为很多网站都有反爬虫措施，所以很容易被封IP，就不能继续爬了。在爬取大数据量的数据时更是瑟瑟发抖，时刻担心着下一秒IP可能就被封了。

本文就如何解决这个问题总结出一些应对措施，这些措施可以单独使用，也可以同时使用，效果更好。

伪造User-Agent

在请求头中把User-Agent设置成浏览器中的User-Agent，来伪造浏览器访问。比如：

headers ={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'} resp = requests.get(url,headers = headers)

还可以先收集多种浏览器的User-Agent，每次发起请求时随机从中选一个使用，可以进一步提高安全性：

把上面随机选择一个User-Agent的代码封装成一个函数：

在每次重复爬取之间设置一个随机时间间隔

比如：

time.sleep(random.randint(0,3)) # 暂停0~3秒的整数秒，时间区间：[0,3]

或：

time.sleep(random.random()) # 暂停0~1秒，时间区间：[0,1)

伪造cookies

若从浏览器中可以正常访问一个页面，则可以将浏览器中的cookies复制过来使用，比如：

注：用浏览器cookies发起请求后，如果请求频率过于频繁仍会被封IP，这时可以在浏览器上进行相应的手工验证（比如点击验证图片等），然后就可以继续正常使用该cookies发起请求。

使用代理

可以换着用多个代理IP来进行访问，防止同一个IP发起过多请求而被封IP，比如：

附：GitHub上的一个"反反爬虫"项目

道高一尺魔高一丈，你有反爬虫措施，那我也有各种"反反爬虫"的措施，GitHub上就有一位大神专门整理了一个这样的项目：Anti-Anti-Spider，链接地址为：github.com/luyishisi/An可以研究一下。

以上就是Python爬虫防封ip的一些技巧的详细内容，更多关于Python爬虫防封ip的资料请关注其它相关文章！

推荐阅读

程序员
homebrew vim 7.4退格在OSX 10.10.5上不起作用

如何解决《homebrewvim7.4退格在OSX10.10.5上不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在cakephp 3中手动进行密码散列？

如何解决《如何在cakephp3中手动进行密码散列？》经验，为你挑选了1个好方法。 ... [详细]
程序员
android studio adb语法错误:")"意外

如何解决《androidstudioadb语法错误:")"意外》经验，为你挑选了2个好方法。 ... [详细]
程序员
泰勒系列扩展为constexpr

如何解决《泰勒系列扩展为constexpr》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在pyspark中查看RDD中每个分区的内容？

如何解决《如何在pyspark中查看RDD中每个分区的内容？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spark:回归模型阈值和精度

如何解决《Spark:回归模型阈值和精度》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python split()String包含空格的列表

如何解决《Pythonsplit()String包含空格的列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
Cmake不适用于Maverick上的openMP

如何解决《Cmake不适用于Maverick上的openMP》经验，为你挑选了0个好方法。 ... [详细]
程序员
将stdout传递给Perl时,如何让它打印换行符？

如何解决《将stdout传递给Perl时,如何让它打印换行符？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android Studio Gradle Error BuildActionExecuter.withCancellationToken

如何解决《AndroidStudioGradleErrorBuildActionExecuter.withCancellationToken》经验，为你挑选了1个好方法。 ... [详细]
程序员
Chrome中的这个Jquery Ajax请求有什么问题？

如何解决《Chrome中的这个JqueryAjax请求有什么问题？》经验，为你挑选了1个好方法。 ... [详细]
程序员
键入Ctrl-D(EOF)时如何防止iterm2关闭

如何解决《键入Ctrl-D(EOF)时如何防止iterm2关闭》经验，为你挑选了1个好方法。 ... [详细]
程序员
崇高按键"逃脱"无法输入任何内容

如何解决《崇高按键"逃脱"无法输入任何内容》经验，为你挑选了2个好方法。 ... [详细]
程序员
Android - Gridlayout和Staggered Gridlayout之间的区别

如何解决《Android-Gridlayout和StaggeredGridlayout之间的区别》经验，为你挑选了2个好方法。 ... [详细]
程序员
解释目标C保留循环与现实世界的例子？

如何解决《解释目标C保留循环与现实世界的例子？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将扇区加载到内存时出现磁盘读取错误

如何解决《将扇区加载到内存时出现磁盘读取错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
用RxJS反应原生

如何解决《用RxJS反应原生》经验，为你挑选了1个好方法。 ... [详细]
程序员
Express.js"path必须是绝对路径或指定root到res.sendFile"错误

如何解决《Express.js"path必须是绝对路径或指定root到res.sendFile"错误》经验，为你挑选了2个好方法。 ... [详细]
程序员
windows phone 8.1 ComboBox在项目数量更多时显示多个项目

如何解决《windowsphone8.1ComboBox在项目数量更多时显示多个项目》经验，为你挑选了0个好方法。 ... [详细]
程序员
针对多个作业的Spring Batch JUnit测试

如何解决《针对多个作业的SpringBatchJUnit测试》经验，为你挑选了1个好方法。 ... [详细]

帆侮听我悄悄说星星

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章