10赞

详解利用Python破解验证码实例代码

作者：臭小子 | 2021-09-03 07:32

一、前言本实验将通过一个简单的例子来讲解破解验证码的原理，将学习和实践以下知识点：Python基本知识PIL模块的使用二、实例详解安装pillow（PIL）库：$sudoapt-getupdate$sudoapt-getinstallpython-dev$sudoapt-getinstalllibtiff5-devlibjpeg8-devzlib1g-d

一、前言
本实验将通过一个简单的例子来讲解破解#code/6832.html" target="_blank">验证码的原理，将学习和实践以下知识点：
Python基本知识
PIL模块的使用
二、实例详解
安装 pillow（PIL）库：

$ sudo apt-get update
$ sudo apt-get install python-dev
$ sudo apt-get install libtiff5-dev libjpeg8-dev zlib1g-dev \
libfreetype6-dev liblcms2-dev libwebp-dev tcl8.6-dev tk8.6-dev python-tk
$ sudo pip install pillow

下载实验用的文件：

$ wget http://labfile.oss.aliyuncs.com/courses/364/python_captcha.zip $ unzip python_captcha.zip
$ cd python_captcha

这是我们实验使用的验证码 captcha.gif
在工作目录下新建 crack.py 文件，进行编辑。

#-*- coding:utf8 -*-
from PIL import Image
im = Image.open("captcha.gif")
#(将图片转换为8位像素模式)
im = im.convert("P")
#打印颜色直方图
print im.histogram()

输出：

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 , 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 2, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 2, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 2, 1, 0, 0, 0, 2, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0 , 1, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 1, 2, 0, 1, 0, 0, 1, 0, 2, 0, 0, 1, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 3, 1, 3, 3, 0, 0, 0, 0, 0, 0, 1, 0, 3, 2, 132, 1, 1, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 15, 0 , 1, 0, 1, 0, 0, 8, 1, 0, 0, 0, 0, 1, 6, 0, 2, 0, 0, 0, 0, 18, 1, 1, 1, 1, 1, 2, 365, 115, 0, 1, 0, 0, 0, 135, 186, 0, 0, 1, 0, 0, 0, 116, 3, 0, 0, 0, 0, 0, 21, 1, 1, 0, 0, 0, 2, 10, 2, 0, 0, 0, 0, 2, 10, 0, 0, 0, 0, 1, 0, 625]

颜色直方图的每一位数字都代表了在图片中含有对应位的颜色的像素的数量。
每个像素点可表现256种颜色，你会发现白点是最多（白色序号255的位置，也就是最后一位，可以看到，有625个白色像素）。红像素在序号200左右，我们可以通过排序，得到有用的颜色。

his = im.histogram()
values = {}
for i in range(256):
 values[i] = his[i]
for j,k in sorted(values.items(),key=lambda x:x[1],reverse = True)[:10]:
 print j,k

输出：

我们得到了图片中最多的10种颜色，其中 220 与 227 才是我们需要的红色和灰色，可以通过这一讯息构造一种黑白二值图片。

#-*- coding:utf8 -*-
from PIL import Image
im = Image.open("captcha.gif")
im = im.convert("P")
im2 = Image.new("P",im.size,255)
for x in range(im.size[1]):
 for y in range(im.size[0]):
  pix = im.getpixel((y,x))
  if pix == 220 or pix == 227: # these are the numbers to get
   im2.putpixel((y,x),0)
im2.show()

得到的结果：
接下来的工作是要得到单个字符的像素集合，由于例子比较简单，我们对其进行纵向切割：

inletter = False
foundletter=False
start = 0
end = 0
letters = []
for y in range(im2.size[0]): 
 for x in range(im2.size[1]):
  pix = im2.getpixel((y,x))
  if pix != 255:
   inletter = True
 if foundletter == False and inletter == True:
  foundletter = True
  start = y
 if foundletter == True and inletter == False:
  foundletter = False
  end = y
  letters.append((start,end))
 inletter=False
print letters

输出：

[(6, 14), (15, 25), (27, 35), (37, 46), (48, 56), (57, 67)]

得到每个字符开始和结束的列序号。

import hashlib
import time
count = 0
for letter in letters:
 m = hashlib.md5()
 im3 = im2.crop(( letter[0] , 0, letter[1],im2.size[1] ))
 m.update("%s%s"%(time.time(),count))
 im3.save("./%s.gif"%(m.hexdigest()))
 count += 1

(接上面的代码)
对图片进行切割，得到每个字符所在的那部分图片。
AI 与向量空间图像识别
在这里我们使用向量空间搜索引擎来做字符识别，它具有很多优点：
不需要大量的训练迭代
不会训练过度
你可以随时加入／移除错误的数据查看效果
很容易理解和编写成代码
提供分级结果，你可以查看最接近的多个匹配
对于无法识别的东西只要加入到搜索引擎中，马上就能识别了。
当然它也有缺点，例如分类的速度比神经网络慢很多，它不能找到自己的方法解决问题等等。
向量空间搜索引擎名字听上去很高大上其实原理很简单。拿文章里的例子来说：
你有 3 篇文档，我们要怎么计算它们之间的相似度呢？2 篇文档所使用的相同的单词越多，那这两篇文章就越相似！但是这单词太多怎么办，就由我们来选择几个关键单词，选择的单词又被称作特征，每一个特征就好比空间中的一个维度（x，y，z 等），一组特征就是一个矢量，每一个文档我们都能得到这么一个矢量，只要计算矢量之间的夹角就能得到文章的相似度了。
用 Python 类实现向量空间：

import math
class VectorCompare:
 #计算矢量大小
 def magnitude(self,concordance):
  total = 0
  for word,count in concordance.iteritems():
   total += count ** 2
  return math.sqrt(total)
 #计算矢量之间的 cos 值
 def relation(self,concordance1, concordance2):
  relevance = 0
  topvalue = 0
  for word, count in concordance1.iteritems():
   if concordance2.has_key(word):
    topvalue += count * concordance2[word]
  return topvalue / (self.magnitude(concordance1) * self.magnitude(concordance2))

它会比较两个 python 字典类型并输出它们的相似度（用 0～1 的数字表示）
将之前的内容放在一起
还有取大量验证码提取单个字符图片作为训练集合的工作，但只要是有好好读上文的同学就一定知道这些工作要怎么做，在这里就略去了。可以直接使用提供的训练集合来进行下面的操作。
iconset目录下放的是我们的训练集。
最后追加的内容：

#将图片转换为矢量
def buildvector(im):
 d1 = {}
 count = 0
 for i in im.getdata():
  d1[count] = i
  count += 1
 return d1
v = VectorCompare()
iconset = ['0','1','2','3','4','5','6','7','8','9','0','a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z']
#加载训练集
imageset = []
for letter in iconset:
 for img in os.listdir('./iconset/%s/'%(letter)):
  temp = []
  if img != "Thumbs.db" and img != ".DS_Store":
   temp.append(buildvector(Image.open("./iconset/%s/%s"%(letter,img))))
  imageset.append({letter:temp})
count = 0
#对验证码图片进行切割
for letter in letters:
 m = hashlib.md5()
 im3 = im2.crop(( letter[0] , 0, letter[1],im2.size[1] ))
 guess = []
 #将切割得到的验证码小片段与每个训练片段进行比较
 for image in imageset:
  for x,y in image.iteritems():
   if len(y) != 0:
    guess.append( ( v.relation(y[0],buildvector(im3)),x) )
 guess.sort(reverse=True)
 print "",guess[0]
 count += 1

得到结果
一切准备就绪，运行我们的代码试试：

python crack.py

输出

(0.96376811594202894, '7')
(0.96234028545977002, 's')
(0.9286884286888929, '9')
(0.98350370609844473, 't')
(0.96751165072506273, '9')
(0.96989711688772628, 'j')

是正解，干得漂亮。
总结
以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流。

以上就是详解利用Python破解验证码实例代码的详细内容，更多请关注第一PHP社区其它相关文章！

推荐阅读

程序员
每个列表列表的Erlang

如何解决《每个列表列表的Erlang》经验，为你挑选了1个好方法。 ... [详细]
程序员
打开文件夹时可以自动启动任务吗？

如何解决《打开文件夹时可以自动启动任务吗？》经验，为你挑选了3个好方法。 ... [详细]
程序员
我可以更改Apple Watch模拟器语言吗？

如何解决《我可以更改AppleWatch模拟器语言吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
isomorphic fetch post无法读取服务器上的正文

如何解决《isomorphicfetchpost无法读取服务器上的正文》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将byte []或位图转换为整数(R.drawable.picture)Android java

如何解决《如何将byte[]或位图转换为整数(R.drawable.picture)Androidjava》经验，为你挑选了1个好方法。 ... [详细]
程序员
import com.microsoft.windowsazure.messaging.*; 未检测到.我应该在android studio中添加哪个库？

如何解决《importcom.microsoft.windowsazure.messaging.*;未检测到.我应该在androidstudio中添加哪个库？》经验，为你挑选了0个好方法。 ... [详细]
程序员
nunit3如何在命令行中包含测试类别

如何解决《nunit3如何在命令行中包含测试类别》经验，为你挑选了2个好方法。 ... [详细]
程序员
批处理:动态变量名称(等效的eval)

如何解决《批处理:动态变量名称(等效的eval)》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Gulp缩小(不透明)ES2015代码

如何解决《使用Gulp缩小(不透明)ES2015代码》经验，为你挑选了1个好方法。 ... [详细]
程序员
正则表达式用于分割每个字符但将数字保持在一起

如何解决《正则表达式用于分割每个字符但将数字保持在一起》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何按字母顺序实现接口属性

如何解决《如何按字母顺序实现接口属性》经验，为你挑选了0个好方法。 ... [详细]
程序员
从两个2d矩阵中获取许多3d矩阵(逐列乘法)

如何解决《从两个2d矩阵中获取许多3d矩阵(逐列乘法)》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将阴影应用于Swift中的UITextView？

如何解决《如何将阴影应用于Swift中的UITextView？》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否存在产生商和提醒的除法运算？

如何解决《是否存在产生商和提醒的除法运算？》经验，为你挑选了3个好方法。 ... [详细]
程序员
iOS - 当我将两个NSNumber与"=="进行比较时,为什么它可以工作？

如何解决《iOS-当我将两个NSNumber与"=="进行比较时,为什么它可以工作？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如果应用程序被杀,则不会在MI手机中收到GCM推送通知

如何解决《如果应用程序被杀,则不会在MI手机中收到GCM推送通知》经验，为你挑选了1个好方法。 ... [详细]
程序员
由于选择性较低,MariaDB不对1列自连接使用索引(所有NULL)

如何解决《由于选择性较低,MariaDB不对1列自连接使用索引(所有NULL)》经验，为你挑选了0个好方法。 ... [详细]
程序员
用单个fullstop替换多个fullstops

如何解决《用单个fullstop替换多个fullstops》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Angular 2中触发ajax请求？

如何解决《如何在Angular2中触发ajax请求？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Javascript从嵌套在生成器内的函数中产生

如何解决《Javascript从嵌套在生成器内的函数中产生》经验，为你挑选了1个好方法。 ... [详细]

臭小子

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章