当前位置:  开发笔记 > 编程语言 > 正文

(人类)文件的语言

如何解决《(人类)文件的语言》经验,为你挑选了1个好方法。
如何解决《(人类)文件的语言》经验,为你挑选了1个好方法。

有没有办法(程序,库)大致知道文档写入哪种语言?

我有一堆混合语言的文本文件(~500K)可以在支持i18n的CMS(Drupal)中导入.

我不需要完美的比赛,只有一些猜测.



1> Claudiu..:

考虑到您需要识别所有不同语言的语料库数据,有一种非常简单的方法可以做到这一点.它被称为n-gram建模.我认为Lingua :: Identify已经做到了这一点,所以这是你最好的选择,而不是实现你自己的.

推荐阅读
惬听风吟jyy_802
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有