18赞

cookies应对python反爬虫知识点详解

作者：帆侮听我悄悄说星星 | 2022-01-26 00:58

在本篇文章里小编给大家整理关于cookies应对python反爬虫知识点详解，有兴趣的朋友们可以学习下。

在保持合理的数据采集上，使用python爬虫也并不是一件坏事情，因为在信息的交流上加快了流通的频率。今天小编为大家带来了一个稍微复杂一点的应对反爬虫的方法，那就是我们自己构造cookies。在开始正式的构造之前，我们先进行简单的分析如果不构造cookies爬虫时会出现的一些情况，相信这样更能体会出cookies的作用。

网站需要cookies才能正常返回，但是该网站的cookies过期很快，我总不能用浏览器开发者工具获取cookies，然后让程序跑一会儿，每隔几分钟再手动获取cookies，再让程序继续跑吧。如果反复这样工作，那么写爬虫也就没意义了。便开始对cookies进行分析。

从浏览器的开发者工具获取到的cookies大约有10个字段，经过反复测试，能让网站正常返回的只需要两个字段，分别为__jsluid_h=011a522dbxxxxxxxxc1ce59d336e5e60和__jsl_clearance=1581880640.794|0|trTB4c6b%2BZpvxxxxxxxx8YqCOOo%3D （中间打码处理）。

经过测试，如果请求的时候不自己构造cookies，默认会返回__jsluid_h ：

先尝试了将那段js脚本保存下来，包装成一个html文件打开，发现浏览器不停的刷新，也并没起什么作用。那就分析一下js脚本，原来的代码是单行的，自己整理一下并加了一些变量名和log，大概是这么个样子：

将第16行的变量cmd打印出来看看，发现是另一段类似的脚本：

可以看到第二段脚本已经开始设置cookies的__jsl_clearence 字段了。这些显然就是混淆后的js脚本，但是分析到这里也就大概弄明白了从发送请求到网站返回是怎么回事。之所以在本地跑这段代码会不断刷新，是因为第二行的setTimeout会让其在1.5秒后重新请求，但是我们本地没有服务处理请求让其停止，所以会不断的刷新。

而第一段脚本当中，变量y是完整的js代码，代码中的变量名和关键字被进行编码了，变量x存储的是用来替换的变量名和关键字，后面是解码函数。所以现在的问题变成了获取第一段脚本当中的cmd代码，执行后再获取第二段代码的document.cookie的内容即可。

可是对于python和js的交互我完全没接触过，尝试了PyExecJS和Js2Py，都没办法正常执行第一段脚本。无奈之下，我用python复现了第一段脚本，然后用Js2Py获取了cookie。在请求一次过后，构造cookies，再请求一次，就可以了：

def test():
  url = REQUEST_URL
  # url = 'https://www.baidu.com'
  request_header = get_header()
  html = requests.get(url, headers=request_header)
  print(html)
  jscode = html.text
  # print(jscode)
  # tryjs.get_cookies()为复现的js代码，以及用Js2Py获取cookies的代码
  request_cookies = try_js.get_cookies(jscode)
  request_cookies += ';__jsluid_h=' + html.cookies['__jsluid_h']
  request_header['Cookie'] = request_cookies
  print(request_header)
  html = requests.get(url, headers=request_header, timeout=5)
  print('new connection')
  print(html)
  print(html.text)

在经历重重的分析试验后，我们终于得出以上的代码成功实现了构造cookies。相信经过本篇的学习，小伙伴们又多了一种解决爬虫阻拦获取数据的cookies办法了，赶快行动起来吧。

到此这篇关于cookies应对python反爬虫知识点详解的文章就介绍到这了,更多相关如何构造cookies应对python反爬虫内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
Github创建空分支

如何解决《Github创建空分支》经验，为你挑选了1个好方法。 ... [详细]
程序员
PhantomJS捕获移动浏览器的屏幕截图

如何解决《PhantomJS捕获移动浏览器的屏幕截图》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何为从pandas DataFrame创建的条形图设置x轴刻度位置？

如何解决《如何为从pandasDataFrame创建的条形图设置x轴刻度位置？》经验，为你挑选了1个好方法。 ... [详细]
程序员
检查是否有东西增加了1

如何解决《检查是否有东西增加了1》经验，为你挑选了1个好方法。 ... [详细]
程序员
动态编程（Codility Q：NumberSolitaire）

如何解决《动态编程（CodilityQ：NumberSolitaire）》经验，为你挑选了1个好方法。 ... [详细]
程序员
Apache Thrift:在列表之前使用"可选"时,C++服务器似乎不能正确返回它

如何解决《ApacheThrift:在列表之前使用"可选"时,C++服务器似乎不能正确返回它》经验，为你挑选了1个好方法。 ... [详细]
程序员
我在哪里可以看到路径中的文件getApplicationContext().getFilesDir()

如何解决《我在哪里可以看到路径中的文件getApplicationContext().getFilesDir()》经验，为你挑选了1个好方法。 ... [详细]
程序员
tvOS如何识别Objective C的远程手势？

如何解决《tvOS如何识别ObjectiveC的远程手势？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Tomcat on VPS上缺少webapps

如何解决《TomcatonVPS上缺少webapps》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在动画时使用UIButton

如何解决《如何在动画时使用UIButton》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么在调用printf时会覆盖EDX的值？

如何解决《为什么在调用printf时会覆盖EDX的值？》经验，为你挑选了2个好方法。 ... [详细]
程序员
iOS中模糊的半透明导航栏

如何解决《iOS中模糊的半透明导航栏》经验，为你挑选了2个好方法。 ... [详细]
程序员
Drupal 8,使用预览从BuildForm添加图像字段

如何解决《Drupal8,使用预览从BuildForm添加图像字段》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java:在比较字符串时,相当于!=

如何解决《Java:在比较字符串时,相当于!=》经验，为你挑选了1个好方法。 ... [详细]
程序员
带数组的索引矩阵

如何解决《带数组的索引矩阵》经验，为你挑选了1个好方法。 ... [详细]
程序员
Selenium Code在本地工作,但不在PythonAnywhere上工作

如何解决《SeleniumCode在本地工作,但不在PythonAnywhere上工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从MySQL中的FROM字段中删除子查询

如何解决《如何从MySQL中的FROM字段中删除子查询》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么`x!= x.isdigit()`不起作用？

如何解决《为什么`x!=x.isdigit()`不起作用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Pythons的三元运算符与lambda结合使用的意外输出

如何解决《使用Pythons的三元运算符与lambda结合使用的意外输出》经验，为你挑选了1个好方法。 ... [详细]
程序员
打包Azure项目时错误复制Typescript文件 - Visual Studio 2015 Update1

如何解决《打包Azure项目时错误复制Typescript文件-VisualStudio2015Update1》经验，为你挑选了1个好方法。 ... [详细]

帆侮听我悄悄说星星

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章