有没有人有OCR不同字体的经验?我正在生成一个ID,然后尝试用tesseract扫描它.目前我只是T&E'n不同的字体,但这似乎效率很低.我尝试过OCR*系列字体,以及Arial和Georgia等其他各种字体.tesseract往往与OCR*字体混淆.
是否有专门为tesseract设计的字体,或任何适合它的系统字体?
好的,谷歌搜索出现了这个特定的OCR字体: OCR字体
看起来它是1973年采用的标准.
尝试了很多不同的字体和OCR引擎后,我倾向于使用Consolas获得最佳效果.它是一种类似OCR-A 的等宽字体,但更容易为人类阅读.Consolas包含在几个Microsoft产品中.
还有一个开源字体Inconsolata,受到 Consolas的影响.Inconsolata是Consolas的良好替代品,特别是考虑到许可细节.
在我的测试中,Calibri字体中的数字和空格并不总是被正确识别.OCR-A给出了很多读数错误.我没有尝试过MIRC,因为它对大多数人来说都不容易阅读.
注意:tesseract在可靠之前需要进行大量的测试和微调.在我们的案例中,我们切换到商业许可的OCR引擎(ABBYY),特别是因为可靠性非常重要,我们需要支持多种(欧洲)语言.
更新时间: 2017年1月31日 - 由于潜在的版权问题,将" 基于Consolas " 更改为" 受Consolas影响 ".
我发现Calibri对我来说是最好的.我们每天在自动化系统中使用OCR软件,在测试了几十种字体(包括一些特定于OCR的字体)后,Calibri始终是最好的.
祝好运.