Python爬虫爬验证码实现功能详细介绍

作者：雯颜哥_135 | 2021-09-03 07:03

这篇文章主要介绍了Python爬虫爬验证码实现功能详解的相关资料,需要的朋友可以参考下

主要实现功能：

- 登陆网页

- 动态等待网页加载

- 验证码下载

很早就有一个想法，就是自动按照脚本执行一个功能，节省大量的人力——个人比较懒。花了几天写了写，本着想完成验证码的识别，从根本上解决问题，只是难度太高，识别的准确率又太低，计划再次告一段落。
希望这次经历可以与大家进行分享和交流。

Python打开浏览器

相比与自带的urllib2模块，操作比较麻烦，针对于一部分网页还需要对cookie进行保存，很不方便。于是，我这里使用的是Python2.7下的selenium模块进行网页上的操作。

测试网页：http://graduate.buct.edu.cn

打开网页：（需下载chromedriver）

为了支持中文字符输出，我们需要调用sys模块，把默认编码改为 UTF-8

from selenium.webdriver.support.ui import Select, WebDriverWait
from selenium import webdriver
from selenium import common
from PIL import Image
import pytesser
import sys
reload(sys)
sys.setdefaultencoding('utf8')
broswer = webdriver.Chrome()
broswer.maximize_window()
username = 'test'
password = 'test'
url = 'http://graduate.buct.edu.cn'
broswer.get(url)

等待网页加载完毕

使用的是selenium中的WebDriverWait，上面的代码中已经加载

url = 'http://graduate.buct.edu.cn'
broswer.get(url)
wait = WebDriverWait(webdriver,5) #设置超时时间5s
# 在这里输入表单填写并加载的代码
elm = wait.until(lambda webdriver: broswer.find_element_by_xpath(xpathMenuCheck))
# 在这里输入表单填写并加载的代码
elm = wait.until(lambda webdriver: broswer.find_element_by_xpath(xpathMenuCheck))

元素定位、字符输入

接下来我们需要进行登录操作：这里我使用的是Chrome，右键选择需要进行填写内容的部分，选择检查，会自动转跳到 F12下的开发者模式（全程需要这个功能来找到相关的资源）。

这里使用的是通过selenium的Select模块来进行选择，定位控件使用 find_element_by_**，能一一对应，很方便。

select = Select(broswer.find_element_by_id('UserRole'))
select.select_by_value('2')
name = broswer.find_element_by_id('username')
name.send_keys(username)
pswd = broswer.find_element_by_id('password')
pswd.send_keys(password)
btnlg = broswer.find_element_by_id('btnLogin')
btnlg.click()

这是用脚本自动填充完的效果，之后就会转跳到下一页。

爬取信息

接下来我们要进行的步骤是爬取现有的有效报告：

# 寻找有效报告
flag = 1
count = 2
count_valid = 0
while flag:
  try:
    category = broswer.find_element_by_xpath('//*[@id="dgData00"]/tbody/tr[' + str(count) + ']/td[1]').text
    count += 1
  except common.exceptions.NoSuchElementException:
    break
# 获取报告信息
flag = 1
for currentLecture in range(2, count):
  # 类别
  category = broswer.find_element_by_xpath('//*[@id="dgData00"]/tbody/tr[' + str(currentLecture) + ']/td[1]').text
  # 名称
  name = broswer.find_element_by_xpath('//*[@id="dgData00"]/tbody/tr[' + str(currentLecture) + ']/td[2]').text
  # 单位
  unitsPublish = broswer.find_element_by_xpath('//*[@id="dgData00"]/tbody/tr[' + str(currentLecture) + ']/td[3]').text
  # 开始时间
  startTime = broswer.find_element_by_xpath('//*[@id="dgData00"]/tbody/tr[' + str(currentLecture) + ']/td[4]').text
  # 截止时间
  endTime = broswer.find_element_by_xpath('//*[@id="dgData00"]/tbody/tr[' + str(currentLecture) + ']/td[5]').text

爬取验证码

# 获取验证码并验证（仅仅一幅）
authCodeURL = broswer.find_element_by_xpath('//*[@id="Table2"]/tbody/tr[2]/td/p/img').get_attribute('src') # 获取验证码地址
broswer.get(authCodeURL)
broswer.save_screenshot('text.png')
rangle = (0, 0, 64, 28)
i = Image.open('text.png')
frame4 = i.crop(rangle)
frame4.save('authcode.png')
qq = Image.open('authcode.png')
text = pytesser.image_to_string(qq).strip()
# 批量获取验证码
authCodeURL = broswer.find_element_by_xpath('//*[@id="Table2"]/tbody/tr[2]/td/p/img').get_attribute('src') # 获取验证码地址
# 获取学习样本
for count in range(10):
  broswer.get(authCodeURL)
  broswer.save_screenshot('text.png')
  rangle = (1, 1, 62, 27)
  i = Image.open('text.png')
  frame4 = i.crop(rangle)
  frame4.save('authcode' + str(count) + '.png')
  print 'count:' + str(count)
  broswer.refresh()
broswer.quit()

爬取下来的验证码

从上面的验证码看出，字符是带旋转的，而且因为旋转造成的重叠对于后续的识别也有很大的影响。我曾尝试过使用神经网络进行训练，但因没有进行特征向量的提取，准确率低得离谱。

关于Python爬虫爬验证码实现功能详解就给大家介绍到这里，希望对大家有所帮助！

更多Python爬虫爬验证码实现功能详细介绍相关文章请关注PHP中文网！

推荐阅读

程序员
Angular显示url编码错误,如何获取解码版本？

如何解决《Angular显示url编码错误,如何获取解码版本？》经验，为你挑选了1个好方法。 ... [详细]

程序员
元组没有属性“ isdigit”

如何解决《元组没有属性“isdigit”》经验，为你挑选了1个好方法。 ... [详细]

程序员
如何在TensorFlow中将张量转换为numpy数组？

如何解决《如何在TensorFlow中将张量转换为numpy数组？》经验，为你挑选了4个好方法。 ... [详细]

程序员
Xcode 7:无法使用单元测试目标创建Swift命令行工具

如何解决《Xcode7:无法使用单元测试目标创建Swift命令行工具》经验，为你挑选了1个好方法。 ... [详细]

程序员
如何在Windows上使用Visual Studio Code设置Kestrel调试？

如何解决《如何在Windows上使用VisualStudioCode设置Kestrel调试？》经验，为你挑选了0个好方法。 ... [详细]

程序员
Android-NavigationView从右到左

如何解决《Android-NavigationView从右到左》经验，为你挑选了2个好方法。 ... [详细]

程序员
从列表中取出元素

如何解决《从列表中取出元素》经验，为你挑选了1个好方法。 ... [详细]

程序员
PHP7中的foreach更改

如何解决《PHP7中的foreach更改》经验，为你挑选了1个好方法。 ... [详细]

程序员
在Xcode帐户首选项中，如何刷新与Apple ID连接的团队？

如何解决《在Xcode帐户首选项中，如何刷新与AppleID连接的团队？》经验，为你挑选了0个好方法。 ... [详细]

程序员
使用Git挂钩创建提交日志并添加到当前提交

如何解决《使用Git挂钩创建提交日志并添加到当前提交》经验，为你挑选了0个好方法。 ... [详细]

程序员
NestedScrollView和CollapsingToolbarLayout快速滚动

如何解决《NestedScrollView和CollapsingToolbarLayout快速滚动》经验，为你挑选了0个好方法。 ... [详细]

程序员
对多个电子邮件执行一次批处理脚本

如何解决《对多个电子邮件执行一次批处理脚本》经验，为你挑选了0个好方法。 ... [详细]

程序员
C中的文件识别不必要的行

如何解决《C中的文件识别不必要的行》经验，为你挑选了1个好方法。 ... [详细]

程序员
循环内的递归函数

如何解决《循环内的递归函数》经验，为你挑选了1个好方法。 ... [详细]

程序员
TensorFlow培训

如何解决《TensorFlow培训》经验，为你挑选了1个好方法。 ... [详细]

程序员
显示名称不会出现在Windows 10中的大图标/平铺下面

如何解决《显示名称不会出现在Windows10中的大图标/平铺下面》经验，为你挑选了1个好方法。 ... [详细]

程序员
如何防止在非const对象上意外调用变异函数？

如何解决《如何防止在非const对象上意外调用变异函数？》经验，为你挑选了5个好方法。 ... [详细]

程序员
loopback在单个请求中保存相关的hasmany模型

如何解决《loopback在单个请求中保存相关的hasmany模型》经验，为你挑选了0个好方法。 ... [详细]

程序员
react.js替换img src onerror

如何解决《react.js替换imgsrconerror》经验，为你挑选了5个好方法。 ... [详细]

程序员
获取MVC中的子域以实现国际化

如何解决《获取MVC中的子域以实现国际化》经验，为你挑选了0个好方法。 ... [详细]

吐了个 "CAO" !

吐个槽吧,看都看了

会员登录 | 用户注册

雯颜哥_135

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

actionscrip

bash

c#

c++

c语言

erlang

flutter

go

golang

java

javascript

lua

node.js

perl

php

python

scala

typescript

RankList | 热门文章

1Laravel迁移禁用外键检查的好方法

2Symfony2的.如何让表单忽略额外的字段？

3如何构建vim插件,以便用户可以使用病原体安装它

4你如何调用从另一个类继承的方法？

5Backwards是否承认Monad实例？

6为什么在map周围包装list()导致函数运行？

7在Swift中使用Container View进行委派

8Hello-jni示例在Android Studio 2.0 Preview中不起作用

9无法加载X11字体

10检查TextBox是否为空的最佳方法

11三星6S上的C#.NET 4.5.1 MVC 5.2.2中的MP3流媒体

12Django设置未知参数:TEMPLATE_DEBUG

13循环显示具有特定名称的工作表

14如何更改对象的显示方式？

15控制器的ngdoc文档

16如何配置spring boot应用程序以使用aspectj事务？

17在pycharm或eclipse + pydev中的C线程中不工作python断点

18可能的意外参考比较按预期工作

19EFI Shell中没有FS0

20从亚马逊,eBay等网站中提取.ico图标