python爬虫的一个常见简单js反爬详解

作者：牛尾巴2010 | 2022-02-22 13:48

这篇文章主要介绍了python爬虫的一个常见简单js反爬详解我们在写爬虫是遇到最多的应该就是js反爬了，今天分享一个比较常见的js反爬，我把js反爬分为参数由js加密生成和js生成cookie等来操作浏览器这两部分,需要的朋友可以参考下

前言

我们在写爬虫是遇到最多的应该就是js反爬了，今天分享一个比较常见的js反爬，这个我已经在多个网站上见到过了。

我把js反爬分为参数由js加密生成和js生成cookie等来操作浏览器这两部分，今天说的是第二种情况。

目标网站

列表页url: http://www.hnrexian.com/archives/category/jk。

正常网站我们请求url会返回给我们网页数据内容等，看看这个网站返回给我们的是什么呢？

我们把相应中返回的js代码格式化一下，方便查看。

< script type = "text/javascript" >
function stringToHex(str) {
  var val = "";
  for (var i = 0; i < str.length; i++) {
    if (val == "") val = str.charCodeAt(i).toString(16);
    else val += str.charCodeAt(i).toString(16);
  }
  return val;
}
function YunSuoAutoJump() {
  var width = screen.width;
  var height = screen.height;
  var screendate = width + "," + height;
  var curlocation = window.location.href;
  if ( - 1 == curlocation.indexOf("security_verify_")) {
    document.cookie = "srcurl=" + stringToHex(window.location.href) + ";path=/;";
  }
  self.location = "/archives/category/jk?security_verify_data=" + stringToHex(screendate);
} < /script>

说好的返回网页数据源码呢，这是什么东西!

js破解思路

js破解提供两种思路，一种是直接用Python来重写js内容，实现模拟js的操作，这种一般用于比较简单的js；还有一种是用Python第三方库来解析js，比如pyv8,execjs这些（个人觉得execjs比较好用），这种一般用于比较复杂的js解析。

分析返回的js分成两个部分。第一部分，定义了stringToHex和YunSuoAutoJump两个函数。第二部分，50毫秒后执行YunSuoAutoJump这个函数。

YunSuoAutoJump这个函数功能是添加一个cookie并去请求一个构造的url，可以从document.cookie 和 self.location这里看出。stringToHex这个函数的共能其实就是字符串的转换，具体js内容可以参考这个网址https://www.runoob.com/js/js-tutorial.html自行查找。

python重写代码

那么接下来就是用python来重写js啦，重写后代码如下。

def stringToHex(string):
  length = len(string)
  hex_string = str()
  for i in xrange(length):
    hex_string += hex(ord(string[i]))[2:]
  return hex_string

def get_cookie(url):
  hex_string = stringToHex(url)
  cookie = {"srcurl": hex_string, "path": "/"}
  return cookie

这是那两个函数，一个用于字符串转换，一个用于获取cookie。

最后拿到结果

接下来模拟浏览器操作，其中是分为三部分。第一次，我们请求目标url，然后返回给我们js内容；第二次，js添加1个cookie并请求了1个构造出的url；第三次请求原目标url，得到最终的数据。

这里我们用requests.Session来保持连接，模拟上面三部的内容。

url = "http://www.hnrexian.com/archives/category/jk"
s = requests.Session()
r = s.get(url)
url_2 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r.text)[0]
screen_date = "1920,1080"
url_2 = url_2 + stringToHex(screen_date)
url_2 = urljoin(url, url_2)
cookie = get_cookie(url)
s.cookies.update(cookie)
r2 = s.get(url_2)
url3 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r2.text)[0]
r3 = s.get(url3)
r3.encoding = "gbk"
print r3.text

到这里我们就完美得到最后想要的内容了。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

推荐阅读

程序员
比较C#对象

如何解决《比较C#对象》经验，为你挑选了1个好方法。 ... [详细]
程序员
简单的ASP经典程序不起作用

如何解决《简单的ASP经典程序不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何检查字典中是否存在键值对？

如何解决《如何检查字典中是否存在键值对？》经验，为你挑选了2个好方法。 ... [详细]
程序员
将值传递给路由

如何解决《将值传递给路由》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从AppVeyor发布beta nuget包

如何解决《如何从AppVeyor发布betanuget包》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python导入结构

如何解决《Python导入结构》经验，为你挑选了0个好方法。 ... [详细]
程序员
UIRefreshControl显示在UICollectionViews Cells之上

如何解决《UIRefreshControl显示在UICollectionViewsCells之上》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++析构函数分段错误

如何解决《C++析构函数分段错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
Scala Slick:永无止境

如何解决《ScalaSlick:永无止境》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在不在浏览器中打开页面的情况下运行ASP.NET 5

如何解决《如何在不在浏览器中打开页面的情况下运行ASP.NET5》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Swift Package Manager添加目标依赖项时出错

如何解决《使用SwiftPackageManager添加目标依赖项时出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
检查列的每一行是否在范围内

如何解决《检查列的每一行是否在范围内》经验，为你挑选了1个好方法。 ... [详细]
程序员
TcpClient通过NetworkStream BinaryReader / BinaryWriter传输的字节计数

如何解决《TcpClient通过NetworkStreamBinaryReader/BinaryWriter传输的字节计数》经验，为你挑选了0个好方法。 ... [详细]
程序员
Tensorflow:多GPU单输入队列

如何解决《Tensorflow:多GPU单输入队列》经验，为你挑选了1个好方法。 ... [详细]
程序员
流畅的Nhibernate Automapping with overrides:映射未映射的基类集合

如何解决《流畅的NhibernateAutomappingwithoverrides:映射未映射的基类集合》经验，为你挑选了0个好方法。 ... [详细]
程序员
带有where子句和group by的SQL max()函数不能有效地使用索引

如何解决《带有where子句和groupby的SQLmax()函数不能有效地使用索引》经验，为你挑选了0个好方法。 ... [详细]
程序员
内联块元素不与省略号溢出垂直对齐

如何解决《内联块元素不与省略号溢出垂直对齐》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android:在父进程退出后,停止运行Bonjour服务

如何解决《Android:在父进程退出后,停止运行Bonjour服务》经验，为你挑选了0个好方法。 ... [详细]
程序员
Cordova app无法加载assets/www中的任何文件(仅限index.html)

如何解决《Cordovaapp无法加载assets/www中的任何文件(仅限index.html)》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Bootstrap Datetimepicker中更改方向

如何解决《在BootstrapDatetimepicker中更改方向》经验，为你挑选了1个好方法。 ... [详细]

牛尾巴2010

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章