2赞

当前位置: 开发笔记 > 编程语言 > 正文

python识别图像并提取文字的实现方法

作者：k78283381 | 2021-10-21 16:58

这篇文章主要介绍了python识别图像并提取文字的实现方法,

前言

python图像识别一般基础到的就是tesseract了，在爬虫中处理验证码广泛使用。

安装

安装教程网上大都差不多，Windows下确实比较麻烦，涉及到各种路径、环境变量甚至与linux不同的路径分隔符，所以这里的安装是基于Centos7。

1. 依赖安装

yum install -y automake autoconf libtool gcc gcc-c++

2. 安装leptonica

Leptonica主要用于图像处理和图像分析

原则上所有的库文件都是可以直接用yum安装的，如果想要具体的某个版本，可以前往官方源下载对应版本然后按照对应方式编译

wget http://www.leptonica.org/source/leptonica-1.74.4.tar.gz
tar -zxvf leptonica-1.74.4.tar.gz
cd leptonica-1.74.4/
./configure
make && make install

3. 安装tesseract

其他各版本可以在这里下载并自行编译，也提供直接使用的文件。

yum install tesseract

4. 验证安装

tesseract --version

5. 语言包下载

前往tesseract-ocr/tessdata下载相应的语言包,然后将之移动到tessdata目录下，可以用whereis tesseract查看一下具体的目录，我的是/usr/share/tesseract/tessdata/mv *.traineddata /usr/local/share/tessdata/

6. 查看目前已下载的语言

tesseract --list-langs

使用

# tesseract
Usage:
 tesseract --help | --help-psm | --help-oem | --version
 tesseract --list-langs [--tessdata-dir PATH]
 tesseract --print-parameters [options...] [configfile...]
 tesseract imagename|stdin outputbase|stdout [options...] [configfile...]

OCR options:
 --tessdata-dir PATH  Specify the location of tessdata path.
 --user-words PATH   Specify the location of user words file.
 --user-patterns PATH Specify the location of user patterns file.
 -l LANG[+LANG]    Specify language(s) used for OCR.
 -c VAR=VALUE     Set value for config variables.
            Multiple -c arguments are allowed.
 --psm NUM       Specify page segmentation mode.
 --oem NUM       Specify OCR Engine mode.
NOTE: These options must occur before any configfile.

语法

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

imagename：图片名字
outputbase：指定输出，如果希望直接输出而不是保存到文件，那么就使用 stdout，否则这个参数将会作为保存结果的文件的前缀
-l指定语言文件，默认使用英文
tesseract --print-parameters：查看更多参数信息
使用-c指定单项参数的值或者将配置写入配置文件放在命令最后(支持多个配置文件)
psm 识别图像的方式

0：定向脚本监测（OSD）

1：使用OSD自动分页

2 ：自动分页，但是不使用OSD或OCR（Optical Character Recognition，光学字符识别）

3 ：全自动分页，但是没有使用OSD（默认）

4 ：假设可变大小的一个文本列。

5 ：假设垂直对齐文本的单个统一块。

6 ：假设一个统一的文本块。

7 ：将图像视为单个文本行。

8 ：将图像视为单个词。

9 ：将图像视为圆中的单个词。

10 ：将图像视为单个字符。

python中使用

Tesseract安装完成后可以很方便的被Python调用，但是需要pillow和pytesseract的支持。

python中转换

image_to_data(image, lang=None, config='', nice=0, output_type=Output.STRING)

image Object，由Tesseract处理的图像的PIL Image/NumPy数组
lang String，Tesseract语言代码字符串
config String，任何其他配置字符串，例如：config='--psm 6'
语言文件可以叠加，用“+”隔开
我们也可以在这里进行tessdata路径的设置，跟在config里面即可
更多配置包括config和psm都和tesseract类似

实例：

流程：打开图片，配置，转换，可以通过Image的open或者cv2的imread打开图片，之后对图片进行对比度增强，降噪等处理，效果会好一些。

from PIL import Image
import pytesseract
class Languages:
  CHS = 'chi_sim'
  ENG = 'eng'
def img_to_str(image_path, lang=Languages.ENG):
  return pytesseract.image_to_string(Image.open(image_path), lang)
print(img_to_str('pic/numu.png', lang=Languages.ENG))
print(img_to_str('pic/pro.png', lang=Languages.ENG))

总结

简单的文本识别效果还是不错的，但是设计到多空行、符号等，识别效果就不是太好了，准确度方面可以通过对字库的训练达到想要的效果，之后对获取到的文本利用诸如re等各种库进行操作，其实应用还蛮广泛的。2. 但是它在验证码方面的话效果还是不错的，验证码的话tesserocr也是比较方面的.

识别中文可能会出现编码错误，这也是识别上的漏洞之一了，网上大佬们所说的改变文本的编码似乎并不能解决问题，所以对长文本图片处理还是不太建议直接转换。

图文处理也可以借鉴一些各平台的API，百度、腾讯、美团都有支持.

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

推荐阅读

程序员
如何在gcloud中省略用户交互

如何解决《如何在gcloud中省略用户交互》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用mysql中的alter table将date转换为datetime或timestamp

如何解决《使用mysql中的altertable将date转换为datetime或timestamp》经验，为你挑选了1个好方法。 ... [详细]
程序员
WordPress - 允许对作者页面发表评论

如何解决《WordPress-允许对作者页面发表评论》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Dev环境中提高Webpack性能？

如何解决《如何在Dev环境中提高Webpack性能？》经验，为你挑选了1个好方法。 ... [详细]
程序员
psycopg2选择timestamp返回包含在元组中的datetime.datetime,如何解压缩？

如何解决《psycopg2选择timestamp返回包含在元组中的datetime.datetime,如何解压缩？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么不可能/不太可能显示性能改进？

如何解决《为什么不可能/不太可能显示性能改进？》经验，为你挑选了0个好方法。 ... [详细]
程序员
连接列表列表

如何解决《连接列表列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
读取不同语言环境中的时间戳

如何解决《读取不同语言环境中的时间戳》经验，为你挑选了0个好方法。 ... [详细]
程序员
我们可以在SQL Transaction中多次使用'GO'吗？

如何解决《我们可以在SQLTransaction中多次使用'GO'吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在kubernetes上传递一个认为yaml的配置文件来创建新的复制控制器

如何解决《如何在kubernetes上传递一个认为yaml的配置文件来创建新的复制控制器》经验，为你挑选了1个好方法。 ... [详细]
程序员
xgboost中Objective和feval之间的差异

如何解决《xgboost中Objective和feval之间的差异》经验，为你挑选了1个好方法。 ... [详细]
程序员
Intellij如何使用spring boot正确配置hql.现在我得到持久性QL查询被错误检查

如何解决《Intellij如何使用springboot正确配置hql.现在我得到持久性QL查询被错误检查》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果未选中复选框,则阻止表单提交

如何解决《如果未选中复选框,则阻止表单提交》经验，为你挑选了1个好方法。 ... [详细]
程序员
弹簧数据mongodb中的2d球面索引

如何解决《弹簧数据mongodb中的2d球面索引》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何修复java中的堆栈溢出错误？

如何解决《如何修复java中的堆栈溢出错误？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在R中指定三维图表的摄像机视角？

如何解决《如何在R中指定三维图表的摄像机视角？》经验，为你挑选了1个好方法。 ... [详细]
程序员
"无法在未定义的值上调用方法'状态'"？

如何解决《"无法在未定义的值上调用方法'状态'"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
根据转储成员函数的operator <<函数的通用实现

如何解决《根据转储成员函数的operator<<函数的通用实现》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Elastic Beanstalk上添加PATH

如何解决《如何在ElasticBeanstalk上添加PATH》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过环境变量在名称中设置带下划线的Spring Boot属性？

如何解决《如何通过环境变量在名称中设置带下划线的SpringBoot属性？》经验，为你挑选了1个好方法。 ... [详细]

k78283381

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章