有没有办法(程序,库)大致知道文档写入哪种语言?
我有一堆混合语言的文本文件(~500K)可以在支持i18n的CMS(Drupal)中导入.
我不需要完美的比赛,只有一些猜测.
考虑到您需要识别所有不同语言的语料库数据,有一种非常简单的方法可以做到这一点.它被称为n-gram建模.我认为Lingua :: Identify已经做到了这一点,所以这是你最好的选择,而不是实现你自己的.