3赞

当前位置: 开发笔记 > 后端 > 正文

Java使用Tesseract-Ocr识别数字

作者：yzh148448 | 2021-10-20 23:37

这篇文章主要介绍了Java使用Tesseract-Ocr识别数字的方法，帮助大家更好的理解和学习使用Java，感兴趣的朋友可以了解下

前言

Tesseract-Ocr是我在编写爬虫项目中，用来识别图片（不是验证码）的本地解决方案（因为客户不想使用API识别，太贵），识别率目前达到了100%，可以说是相当了得，当然了，这取决于使用的traineddata。

简介

Tesseract最初是在1985年至1994年间在Hewlett-Packard Laboratories Bristol和Greeley Colorado的Hewlett-Packard Co开发的，1996年进行了一些更改，移植到Windows，并且随着C++在1998年兴起。2005年Tesseract由惠普开源，然后从2006年至今，由谷歌继续开发。

Tesseract-Ocr并不是一个软件，它是一个软件包，包含了一个OCR引擎【libtesseract】和一个命令行程序【tesseract】。Tesseract 4增加了一个基于OCR引擎的新神经网络（LSTM），该引擎专注于行级识别，但仍然支持Tesseract 3的传统Tesseract OCR引擎，该引擎通过识别字符模式来工作。

要启用与Tesseract 3的兼容性，你需要使用Legacy OCR Engine模式（--oem 0）。它还需要支持传统引擎的traineddata（训练好的数据文件），这些文件可以从tessdata存储库的文件获取。

Tesseract支持识别unicode（UTF-8），可以“开箱即用”识别100多种语言。

Tesseract支持多种输出格式：纯文本，hOCR（HTML），PDF，TSV。主分支还具有ALTO（XML）输出的实验支持。

⭐️⭐️⭐️ 具体介绍可以上tesseract-wiki查看。

在Java上使用

创建项目，并引入Jar包

Maven



    net.sourceforge.tess4j
    tess4j
    4.3.1

Gradle

compile 'net.sourceforge.tess4j:tess4j:4.3.1'

导入traineddata

traineddata是使用Tesseract-Ocr训练好的数据文件，可以直接使用。这些文件你可以去tessdata存储库查找，也可以去谷歌搜索，当然了，你也可以自己训练😂。

traineddata通常以*.traineddata命名，其中*指的是支持的语言类型。在这里你可以看到4.0.0版本支持的语言以及traineddata列表。

这次，我们选择eng.traineddata进行测试。下载eng.traineddata放入/resources/traineddata目录。

编写测试代码

初始化Tesseract引擎

public class TesseractTest {

    private ITesseract tesseract;

    @Before
    public void init() {
        tesseract = new Tesseract();
        System.out.println("tesseract init done...");
    }

}

实际上，上面的代码是无法正常运行的，因为找不到指定语言版本的traineddata文件。

net.sourceforge.tess4j:tess4j:4.1.1提供的API并不好，在Tesseract构造函数中，没有提供可选参数的构造器。

public class Tesseract implements ITesseract {

    // Tesseract使用的语言版本，用以选择traineddata
    private String language = "eng";
    // traineddata目录，里面放*.traineddata数据文件
    private String datapath;
	
    // 省略其他代码 ...

    public Tesseract() {
        try {
            // 默认从系统环境变量获取traineddata目录
            datapath = System.getenv("TESSDATA_PREFIX");
        } catch (Exception e) {
            // ignore
        } finally {
            if (datapath == null) {
                datapath = "./";
            }
        }
    }
    
    /**
     * Sets language for OCR.
     *
     * @param language the language code, which follows ISO 639-3 standard.
     */
    @Override
    public void setLanguage(String language) {
        this.language = language;
    }
    
    /**
     * Sets path to tessdata.
     *
     * @param datapath the tessdata path to set
     */
    @Override
    public void setDatapath(String datapath) {
        this.datapath = datapath;
    }
    
    // 省略其他代码 ...
}

所以，我们可以选择设置环境变量TESSDATA_PREFIX为数据目录，或者通过Java编码的方式来设置。

tesseract.setLanguage("eng"); // 默认就是eng，你可以选择其他lang
tesseract.setDatapath(TesseractTest.class.getResource("/traineddata").getPath().substring(1));

OCR识别测试
tesseract提供了一系列doOcr方法的重载，我们可以方便的进行OCR识别。

String doOCR(File imageFile) throws TesseractException;

String doOCR(File imageFile, Rectangle rect) throws TesseractException;

String doOCR(BufferedImage bi) throws TesseractException;

String doOCR(BufferedImage bi, Rectangle rect) throws TesseractException;

String doOCR(List imageList, Rectangle rect) throws TesseractException;

String doOCR(List imageList, String filename, Rectangle rect) throws TesseractException;

String doOCR(int xsize, int ysize, ByteBuffer buf, Rectangle rect, int bpp) throws TesseractException;

String doOCR(int xsize, int ysize, ByteBuffer buf, String filename, Rectangle rect, int bpp) throws TesseractException;

可以看出，doOcr方法支持多种图片识别方式，如图片文件、多个图片文件、图片文件局部处理等等方式。

为了方便测试，我们选取最简单的图片文件方式测试。

图片是个URL链接，如下所示

@Test
public void testOcr() throws IOException, TesseractException {
    BufferedImage image = ImageIO.read(new URL("http://static8.ziroom.com/phoenix/pc/images/price/aacd14fbc53a106c7f0f0d667535683as.png"));
    String ocr = tesseract.doOCR(image);
    System.out.println("ocr result : " + ocr);
}

控制台输出：

tesseract init done...
ocr result : 2710386495

识别准确率，主要在于你选择的训练数据文件，我使用的是数据文件是这个，对于数字的准确率基本上是100%。

异常
如果你遭遇Invalid memory access异常，这是由于找不到对应lang的*.traineddata文件，请修改language和datapath。

Invalid memory access
java.lang.Error: Invalid memory access
	at com.sun.jna.Native.invokePointer(Native Method)
	at com.sun.jna.Function.invokePointer(Function.java:470)
	at com.sun.jna.Function.invoke(Function.java:404)
	at com.sun.jna.Function.invoke(Function.java:315)
	at com.sun.jna.Library$Handler.invoke(Library.java:212)
	at com.sun.proxy.$Proxy9.TessBaseAPIGetUTF8Text(Unknown Source)
	at net.sourceforge.tess4j.Tesseract.getOCRText(Tesseract.java:495)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:321)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:293)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:274)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:258)
    ...

训练工具

https://github.com/tesseract-ocr/tesseract/wiki/AddOns

训练数据仓库

tessdata_best：基于LSTM引擎的训练数据，最佳最准确的
tessdata_fast：基于LSTM引擎的训练数据，快速（精简）版本
tessdata：支持双引擎（LSTM和传统引擎），但LSTM训练数据不是最新的版本

推荐使用tessdata_best，虽然识别速度相对于tessdata_fast稍慢，但是准确率可以保证。

参考

tesseract-ocr-wiki

以上就是Java使用Tesseract-Ocr识别数字的详细内容，更多关于Java 识别数字的资料请关注其它相关文章！

推荐阅读

程序员
运行UI在设备上测试xcode 7

如何解决《运行UI在设备上测试xcode7》经验，为你挑选了1个好方法。 ... [详细]
程序员
防止在后台滚动

如何解决《防止在后台滚动》经验，为你挑选了0个好方法。 ... [详细]
程序员
流星js和fullcalendar

如何解决《流星js和fullcalendar》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用gradle中的"复制"任务复制目录

如何解决《如何使用gradle中的"复制"任务复制目录》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用js或jquery捕获html中的屏幕截图

如何解决《如何使用js或jquery捕获html中的屏幕截图》经验，为你挑选了2个好方法。 ... [详细]
程序员
Gradle:如何检查项目中的重复依赖项？

如何解决《Gradle:如何检查项目中的重复依赖项？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何防止React Native中的静态图像在iOS上异步地进行卡顿/加载

如何解决《如何防止ReactNative中的静态图像在iOS上异步地进行卡顿/加载》经验，为你挑选了1个好方法。 ... [详细]
程序员
zipkin示例不在Github上

如何解决《zipkin示例不在Github上》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么在ASP.NET Identity的`UserStore`中有这么多的存储库？

如何解决《为什么在ASP.NETIdentity的`UserStore`中有这么多的存储库？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何让依赖的jar在集群模式下激发提交

如何解决《如何让依赖的jar在集群模式下激发提交》经验，为你挑选了1个好方法。 ... [详细]
程序员
编译PHP7错误

如何解决《编译PHP7错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
PostgreSQL创建函数欧几里得距离n维

如何解决《PostgreSQL创建函数欧几里得距离n维》经验，为你挑选了0个好方法。 ... [详细]
程序员
选择多个页面时,在Excel中创建警告,以防止意外覆盖单元格

如何解决《选择多个页面时,在Excel中创建警告,以防止意外覆盖单元格》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用身份验证访问OData URL

如何解决《如何使用身份验证访问ODataURL》经验，为你挑选了0个好方法。 ... [详细]
程序员
谷歌地图Javascript API V3在移动/本机应用程序中找不到404

如何解决《谷歌地图JavascriptAPIV3在移动/本机应用程序中找不到404》经验，为你挑选了1个好方法。 ... [详细]
程序员
实体框架(6)事务与单个和多个SaveChanges()调用之间的区别是什么

如何解决《实体框架(6)事务与单个和多个SaveChanges()调用之间的区别是什么》经验，为你挑选了0个好方法。 ... [详细]
程序员
Symfony:我应该将rabbitmq:consumer命令添加到crontab吗？

如何解决《Symfony:我应该将rabbitmq:consumer命令添加到crontab吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将xcarchive转换为IPA的错误 - 单束存档+缺少plist方法值

如何解决《将xcarchive转换为IPA的错误-单束存档+缺少plist方法值》经验，为你挑选了0个好方法。 ... [详细]
程序员
你能在同一个web api控制器中使用不同参数类型的2个GET方法吗？

如何解决《你能在同一个webapi控制器中使用不同参数类型的2个GET方法吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法读取以点分隔的整数

如何解决《无法读取以点分隔的整数》经验，为你挑选了0个好方法。 ... [详细]

yzh148448

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章