限制字符tesseract正在寻找

作者：135369一生真爱_890 | 2023-08-07 19:55

如何解决《限制字符tesseract正在寻找》经验，为你挑选了4个好方法。

是否可以限制tesseract正在寻找的字符集(例如,仅搜索字母az)？这将极大地改善我的结果.

1> 小智..：

在tessdata/configs目录中创建一个配置文件(例如"letters") - 通常/usr/share/tesseract/tessdata/configs
或
/usr/share/tesseract-ocr/tessdata/configs

并将此行添加到配置文件:

tessedit_char_whitelist abcdefghijklmnopqrstuvwxyz

...或者[az]工作.. dunno :-)
然后调用tesseract类似于:

tesseract input.tif output nobatch letters

这将限制tesseract只识别想要的字符

2> Bartłomiej U..：

要在配置文件中使用白名单或使用-c tessedit_char_whitelist=...命令行开关,在最新的4.0版本中,您必须将OCR引擎模式设置为"仅原始Tesseract".这是因为新的"神经网络LSTM"模式不符合白名单设置.适用于4.0版本的命令行示例:

tesseract input_file output_file --oem 0 -c tessedit_char_whitelist = abc123

更新:在较新的版本(4.0)中eng.traineddata,Windows和某些Linux安装程序默认安装了损坏的文件.临时解决方案是tessdata\eng.traineddata用旧版本替换文件.此文件大约应为30MB.否则你会收到错误:"Tesseract无法加载任何语言!" 或类似的.

是的，我刚刚从GitHub项目[link]（https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata）中尝试了该文件的最新版本，并替换了我在`tessdata中使用的版本/ eng.trainedddata`和已下载的文件，并且在4.0版本上都可以完美运行。

3> jmunsch..：

除配置文件外,还有-c标志:

tesseract stdin stdout -c tessedit_char_whitelist=abcdefghijklmnopqrstuvwxyz -psm 6

即使我把它设置为普通的香草字母,我也会看到"检测到31个变音符号"的消息.这很奇怪,因为我没有在白名单中包含任何变音符号或重音符号.

4> 小智..：

只需在Android上使用tesseract的任何人添加此项.在readOCR函数中设置语言等,添加以下行;

tesseract.setVariable("tessedit_char_whitelist","ABCDEFGHIJKLMNOPQRSTUVWXYZ");

你也可以为要排除的字符做blackList.

推荐阅读

程序员
滚动条到达面板底部时的触发事件

如何解决《滚动条到达面板底部时的触发事件》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在使用PHP上传图像之前检查/修复图像旋转

如何解决《如何在使用PHP上传图像之前检查/修复图像旋转》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ansible在角色之间共享文件

如何解决《Ansible在角色之间共享文件》经验，为你挑选了2个好方法。 ... [详细]
程序员
仅在填写所有详细信息后才能显示按钮

如何解决《仅在填写所有详细信息后才能显示按钮》经验，为你挑选了1个好方法。 ... [详细]
程序员
Grunt,Gulp.js和Bower有什么区别？为什么以及何时使用它们？

如何解决《Grunt,Gulp.js和Bower有什么区别？为什么以及何时使用它们？》经验，为你挑选了4个好方法。 ... [详细]
程序员
调试Visual Studio本机测试项目

如何解决《调试VisualStudio本机测试项目》经验，为你挑选了0个好方法。 ... [详细]
程序员
是否可以用C++编写自定义转换操作符(如`static_cast`)？

如何解决《是否可以用C++编写自定义转换操作符(如`static_cast`)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
自我训练算法

如何解决《自我训练算法》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用存储过程将oracle表数据转换为单独的xml文件

如何解决《如何使用存储过程将oracle表数据转换为单独的xml文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android多个图像按顺序作为按钮的背景资源

如何解决《Android多个图像按顺序作为按钮的背景资源》经验，为你挑选了1个好方法。 ... [详细]
程序员
Haskell是一种强类型编程语言吗？

如何解决《Haskell是一种强类型编程语言吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
复制和修改另一个ArrayList <Integer> java的克隆的问题

如何解决《复制和修改另一个ArrayList<Integer>java的克隆的问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
垂直和horinzontally对齐容器中的多个div儿童

如何解决《垂直和horinzontally对齐容器中的多个div儿童》经验，为你挑选了0个好方法。 ... [详细]
程序员
git checkout master不切换分支 - 存储库坏了吗？

如何解决《gitcheckoutmaster不切换分支-存储库坏了吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Python,有人可以通过base64编码来猜测文件的类型吗？

如何解决《Python,有人可以通过base64编码来猜测文件的类型吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++使用和typedef强类型

如何解决《C++使用和typedef强类型》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何将我的模型数据(列表)映射到另一个viewmodel数据(列表)MVC asp.net

如何解决《如何将我的模型数据(列表)映射到另一个viewmodel数据(列表)MVCasp.net》经验，为你挑选了0个好方法。 ... [详细]
程序员
与Python 3.4相比,为什么Python 3.5中的str.translate要快得多？

如何解决《与Python3.4相比,为什么Python3.5中的str.translate要快得多？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Powershell - 按'文件名'查找文件并根据CSV重命名

如何解决《Powershell-按'文件名'查找文件并根据CSV重命名》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何区分左键单击,右键单击pygame中的鼠标点击？

如何解决《如何区分左键单击,右键单击pygame中的鼠标点击？》经验，为你挑选了2个好方法。 ... [详细]

135369一生真爱_890

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章