当前位置:  开发笔记 > 编程语言 > 正文

如何检测语言

如何解决《如何检测语言》经验,为你挑选了1个好方法。

是否有任何好的,开源的引擎用于检测文本所使用的语言,可能具有概率指标?一个我可以在本地运行,不查询谷歌或必应?我想在大约1500万页的OCR文本中检测每页的语言.

并非所有文档都包含使用拉丁字母的语言.



1> archgoon..:

根据您正在做的事情,您可能需要查看python自然语言处理工具包(NLTK),它对贝叶斯学习算法有一些支持.

一般来说,字母和单词频率可能是最快的评估,但是如果您需要做除语言识别之外的任何事情,NLTK(或一般的贝叶斯学习算法)可能会有用.如果您发现前两种方法的错误率过高,贝叶斯方法可能也会有用.

推荐阅读
手机用户2402851155
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有