Scrapy模拟登录赶集网的实现代码

作者：低调pasta_730 | 2022-02-22 09:16

这篇文章主要介绍了Scrapy模拟登录赶集网的实现代码，本文通过代码图文相结合给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

1.打开赶集网登录界面，先模拟登录并抓包，获得post请求的request参数

2. 我们只需构造出上面的参数传入formdata即可

参数分析：

　　setcookie：为自动登录所传的值，不勾选时默认为0。

　　__hash__值的分析：只需要查看response网页源代码即可，然后用正则表达式提取。

3.代码实现

1.workon到自己的虚拟环境 cmd切换到项目目录，输入scrapy startproject ganjiwangdenglu,然后就可以用pycharm打开该目录啦。

2.在pycharm terminal中输入scrapy ganji ganjicom 创建地址，如下为项目目录

3. 代码详情

import scrapy
import re

class GanjiSpider(scrapy.Spider):
  name = 'ganji'
  allowed_domains = ['ganji.com']
  start_urls = ['https://passport.ganji.com/login.php']

  def parse(self, response):
    hash_code = re.search(r'"__hash__":"(.+)"}', response.text).group(1) # 正则获取哈希
    img_url = 'https://passport.ganji.com/ajax.php?dir=captcha&module=login_captcha' # 验证码url
    yield scrapy.Request(img_url, callback=self.do_formdata, meta={'hash_code': hash_code}) # 发送获取验证码请求并保存验证码到本地

  def do_formdata(self, response):
    with open('yzm.jpg', 'wb') as f:
      f.write(response.body)
      # 验证码三种方案：1，保存下来手动输入，2，云打码，3 tesseract模块，在这里我们手动输入
    code = input('请输入验证码：')
    # 创建表单
    formdata = {
      'username': 'your_username',
      'password': 'your_password',
      'setcookie': '14',
      'checkCode': code,
      'next': '',
      'source': 'passport',
      '__hash__': response.request.meta['hash_code'] # meta是在respose.request中
    }
    login_url = "https://passport.ganji.com/login.php"
    yield scrapy.FormRequest(url=login_url, formdata=formdata, callback=self.after_login) # 发送登录请求

  def after_login(self, response):
    print(response.text)

4.终端输入scrapy carwl ganji 即可大功告成。

返回来的json字符串解析如下：

注：setting中的设置不在赘述。

总结

到此这篇关于Scrapy模拟登录赶集网的文章就介绍到这了,更多相关Scrapy登录赶集网内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
ERR_CONNECTION_REFUSED http:// localhost:3000/socket.io/socket.io.js

如何解决《ERR_CONNECTION_REFUSEDhttp://localhost:3000/socket.io/socket.io.js》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python RandomForest - 未知标签错误

如何解决《PythonRandomForest-未知标签错误》经验，为你挑选了2个好方法。 ... [详细]
程序员
将for(;;)循环转换为foreach

如何解决《将for(;;)循环转换为foreach》经验，为你挑选了1个好方法。 ... [详细]
程序员
RxJs:如何基于observable的状态循环？

如何解决《RxJs:如何基于observable的状态循环？》经验，为你挑选了2个好方法。 ... [详细]
程序员
max()与ORDER BY DESC + LIMIT 1的性能

如何解决《max()与ORDERBYDESC+LIMIT1的性能》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果与ClientHttpRequestInterceptor一起使用,Spring Resttemplate postforobject将返回null作为对象响应

如何解决《如果与ClientHttpRequestInterceptor一起使用,SpringResttemplatepostforobject将返回null作为对象响应》经验，为你挑选了1个好方法。 ... [详细]
程序员
奇怪的typename用法c ++ 11

如何解决《奇怪的typename用法c++11》经验，为你挑选了1个好方法。 ... [详细]
程序员
编译器如何确定sml中的类型

如何解决《编译器如何确定sml中的类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用puts显示值

如何解决《使用puts显示值》经验，为你挑选了1个好方法。 ... [详细]
程序员
将4D数据绘制为具有R中的晶格的分层热图

如何解决《将4D数据绘制为具有R中的晶格的分层热图》经验，为你挑选了0个好方法。 ... [详细]
程序员
Apache Spark使用管道分隔的CSV文件

如何解决《ApacheSpark使用管道分隔的CSV文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
与c ++ 11中的boost :: mpl :: if_类似

如何解决《与c++11中的boost::mpl::if_类似》经验，为你挑选了1个好方法。 ... [详细]
程序员
SSIS C#脚本不兼容

如何解决《SSISC#脚本不兼容》经验，为你挑选了1个好方法。 ... [详细]
程序员
在打印时舍入dplyr tbl_df中的数值

如何解决《在打印时舍入dplyrtbl_df中的数值》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在Python中从<span class =“ className”>我想要的文本</ span>中获取文本

如何解决《如何在Python中从<spanclass=“className”>我想要的文本</span>中获取文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
refs vs onChange

如何解决《refsvsonChange》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Firebase Data Swift,Xcode 7填充UITableViewController

如何解决《使用FirebaseDataSwift,Xcode7填充UITableViewController》经验，为你挑选了1个好方法。 ... [详细]
程序员
在每个List.map迭代中递增uniqueID

如何解决《在每个List.map迭代中递增uniqueID》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么python中的列表以这种方式运行？

如何解决《为什么python中的列表以这种方式运行？》经验，为你挑选了1个好方法。 ... [详细]
程序员
sklearn使用prob_a进行逻辑二进制分类

如何解决《sklearn使用prob_a进行逻辑二进制分类》经验，为你挑选了1个好方法。 ... [详细]

低调pasta_730

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章