是否有任何好的,开源的引擎用于检测文本所使用的语言,可能具有概率指标?一个我可以在本地运行,不查询谷歌或必应?我想在大约1500万页的OCR文本中检测每页的语言.
并非所有文档都包含使用拉丁字母的语言.
根据您正在做的事情,您可能需要查看python自然语言处理工具包(NLTK),它对贝叶斯学习算法有一些支持.
一般来说,字母和单词频率可能是最快的评估,但是如果您需要做除语言识别之外的任何事情,NLTK(或一般的贝叶斯学习算法)可能会有用.如果您发现前两种方法的错误率过高,贝叶斯方法可能也会有用.