9赞

Python爬虫实现验证码登录代码实例

作者：手机用户2402852307 | 2022-12-27 10:03

很多网站为了避免被恶意访问，需要设置验证码登录，避免非人类的访问，Python爬虫实现验证码登录的原理则是先到登录页面将生成的验证码保存下来，然后人为输入后，包装后再POST给服务器，实现验证，这里还涉及到了Cookie，其实Cookie保存在本地主机上，避免用户重复输入用户名和密码，在连接服务器的

这里涉及到了两次向服务器POST，一次是Cookie,这里还自行设计想要Cookie的内容，由于是要登录，Cookie中存放的则是用户名和密码。第二次POST则是向服务器提交验证。

这里用到Python3,主要用到的包是re urllib.request http.cookiejar

上代码，借鉴了别人的代码~~~

import re
import urllib.request
import http.cookiejar
#from http.comkie import CookieJar 上面那句和这句等同
 
loginurl='https://www.douban.com/accounts/login'
cookie = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor)#在已存的Cookie下建立连接
 
params={}
params['form_email']='用户名'
params['form_password']='密码'#这里写上已有的用户名和密码
params['source']='http://www.douban.com/accounts/login'
 
#从首页提交登陆
response = opener.open(loginurl,urllib.parse.urlencode(params).encode('utf-8'))#urllib.parse.urlencode(params).encode('utf-8')这个是向服务
#器POST的内容，可以打印一下response.geturl()请求的连接看一下
#print(response.geturl()[0:33])
#验证成功跳转至登陆页
if response.geturl()[0:33]=='https://accounts.douban.com/login':
    html = response.read().decode('utf-8')
    #print(html)，可以先打印一下文件内容，为了看到网页元素更方便的写正则，可以复制下来，在需要获取的地方用(.+?)表示，然后用group()元组来取得，
    #验证图片地址
    imgurl=re.search('',html)
    if imgurl:
       url=imgurl.group(1)
       #print(url)
       #将验证码以v.jpg保存在本地，在输入验证码的时候可以手工输入
       res=urllib.request.urlretrieve(url,'v.jpg')
       captcha = re.search('',html)
       #print(captcha.group(1))
       if captcha:
           vcode=input('请输入图片上的验证码：')
           params["captcha-solution"] = vcode
           params["captcha-id"] = captcha.group(1)#这个是动态生成的，需要从网页中获得
           params["user_login"] = "登录"
           #提交验证码验证
           response = opener.open(loginurl,urllib.parse.urlencode(params).encode('utf-8'))
           if response.geturl()=="https://www.douban.com/":
              print("login sucess")

以上所述是小编给大家介绍的Python爬虫实现验证码登录详解整合，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对网站的支持！

推荐阅读

程序员
为什么在compareTo(Object)中有一个强制转换

如何解决《为什么在compareTo(Object)中有一个强制转换》经验，为你挑选了0个好方法。 ... [详细]
程序员
Prolog - 返回矩阵的第n行

如何解决《Prolog-返回矩阵的第n行》经验，为你挑选了0个好方法。 ... [详细]
程序员
保留内联tinyMCE中的超链接导航

如何解决《保留内联tinyMCE中的超链接导航》经验，为你挑选了1个好方法。 ... [详细]
程序员
反应本机列表视图问题

如何解决《反应本机列表视图问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
在sudo su - myuser之后,我可以使用'systemctl --user'来控制用户systemd吗？

如何解决《在sudosu-myuser之后,我可以使用'systemctl--user'来控制用户systemd吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
ASP.NET 5:"dotnet"命令是否替换"dnu"和"dnx"命令？

如何解决《ASP.NET5:"dotnet"命令是否替换"dnu"和"dnx"命令？》经验，为你挑选了1个好方法。 ... [详细]
程序员
RabbitMQ + TLS:ssl_upgrade_error

如何解决《RabbitMQ+TLS:ssl_upgrade_error》经验，为你挑选了0个好方法。 ... [详细]
程序员
EXCEL VBA:从单元格中的字符串中提取8位数序列

如何解决《EXCELVBA:从单元格中的字符串中提取8位数序列》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何创建使用用户定义函数的BigQuery视图？

如何解决《如何创建使用用户定义函数的BigQuery视图？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何要求gson避免在json响应中转义json？

如何解决《如何要求gson避免在json响应中转义json？》经验，为你挑选了1个好方法。 ... [详细]
程序员
重新绑定Elixir中外部作用域中的变量

如何解决《重新绑定Elixir中外部作用域中的变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Win10中拼写检查文本框 - 慢

如何解决《在Win10中拼写检查文本框-慢》经验，为你挑选了1个好方法。 ... [详细]
程序员
Flask:NameError:未定义全局名称"redirect"

如何解决《Flask:NameError:未定义全局名称"redirect"》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法在Tensorflow中优化多元线性回归

如何解决《无法在Tensorflow中优化多元线性回归》经验，为你挑选了1个好方法。 ... [详细]
程序员
R:如何得到两个分布的总和？

如何解决《R:如何得到两个分布的总和？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在ReactiveCocoa 4中创建自定义信号？

如何解决《如何在ReactiveCocoa4中创建自定义信号？》经验，为你挑选了1个好方法。 ... [详细]
程序员
任何状态更新,在Tensorflow的iOS示例上？

如何解决《任何状态更新,在Tensorflow的iOS示例上？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何列出所有Presto工作人员？

如何解决《如何列出所有Presto工作人员？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在配置单元中,有没有办法指定添加新列的列之间？

如何解决《在配置单元中,有没有办法指定添加新列的列之间？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android AWS S3 SDK TransferUtility在服务中不起作用

如何解决《AndroidAWSS3SDKTransferUtility在服务中不起作用》经验，为你挑选了1个好方法。 ... [详细]

手机用户2402852307

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章