如何在Java中识别文本文档的语言？

作者：Life一切安好 | 2023-09-01 10:26

如何解决《如何在Java中识别文本文档的语言？》经验，为你挑选了1个好方法。

是否有现有的Java库可以告诉我String是否包含英语语言文本(例如,我需要能够区分法语或意大利语文本 - 该函数需要为法语和意大利语返回false,对于英语是真的) ？

1> Neil Coffey..：

有各种技术,强大的方法将结合各种技术:

查看文本中n个字母组(例如,3个字母或三字母组)的频率,看它们是否与您测试的语言的频率相似

查看给定语言中频繁单词的实例是否与文本中找到的频率相匹配(这对于较长的文本更有效)

文本是否包含将其缩小到特定语言的字符？(例如,如果文本中包含一个颠倒的问号,则很有可能是西班牙语)

你可以"松散地解析"文本中某些特定语言的特征,例如,如果它包含与下面正则表达式的匹配,你可以把它作为语言法语的强有力线索:

\ bvous\S +\p {L} + EZ\b

为了帮助您入门,以下是英语,法语和意大利语的频繁三字和字数统计(从某些代码中复制和粘贴 - 我将其作为练习来解析它们):

  Locale.ENGLISH,
      "he_=38426;the=38122;nd_=20901;ed_=20519;and=18417;ing=16248;to_=15295;ng_=15281;er_=15192;at_=14219",
      "the=11209;and=6631;to=5763;of=5561;a=5487;in=3421;was=3214;his=2313;that=2311;he=2115",
  Locale.FRENCH,
      "es_=38676;de_=28820;ent=21451;nt_=21072;e_d=18764;le_=17051;ion=15803;s_d=15491;e_l=14888;la_=14260",
      "de=10726;la=5581;le=3954;" + ((char)224) + "=3930;et=3563;des=3295;les=3277;du=2667;en=2505;un=1588",
  Locale.ITALIAN,
      "re_=7275;la_=7251;to_=7208;_di=7170;_e_=7031;_co=5919;che=5876;he_=5622;no_=5546;di_=5460",
      "di=7014;e=4045;il=3313;che=3006;la=2943;a=2541;in=2434;per=2165;del=2013;un=1945",

(Trigram计数是每百万个字符;单词计数是每百万个单词.'_'字符表示单词边界.)

我记得,这些数字在牛津计算语言学家手册中引用,并以报纸文章样本为基础.如果你有这些语言的文本语料库,那么自己很容易得出类似的数字.

如果您想要一种非常快速和肮脏的方式来应用上述方法,请尝试:

考虑文本中三个字符的每个序列(用'_'替换单词边界)

对于与给定语言的一个频繁匹配的每个三元组,将该语言的"分数"增加1(更复杂的是,您可以根据列表中的位置加权)

最后,假设语言是得分最高的

可选地,对常用单词执行相同操作(组合分数)

显然,这可以进行改进,但是您可能会发现这个简单的解决方案足以满足您的需求,因为您基本上对"英语与否"感兴趣.

字母组

推荐阅读

程序员
c ++迭代器卡在第一个值

如何解决《c++迭代器卡在第一个值》经验，为你挑选了1个好方法。 ... [详细]
程序员
在ASP.NET Core中限制到控制器命名空间的路由

如何解决《在ASP.NETCore中限制到控制器命名空间的路由》经验，为你挑选了1个好方法。 ... [详细]
程序员
展开segue - 当多个视图调用它时返回调用视图

如何解决《展开segue-当多个视图调用它时返回调用视图》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在SumoSelect下拉列表中获取选定的值？

如何解决《如何在SumoSelect下拉列表中获取选定的值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用未对齐缓冲区进行矢量化:使用VMASKMOVPS:根据未对齐计数生成掩码？或者根本不使用那个insn

如何解决《使用未对齐缓冲区进行矢量化:使用VMASKMOVPS:根据未对齐计数生成掩码？或者根本不使用那个insn》经验，为你挑选了1个好方法。 ... [详细]
程序员
AX 2012R2:查找查询花费的时间太长,查找永远不会打开

如何解决《AX2012R2:查找查询花费的时间太长,查找永远不会打开》经验，为你挑选了1个好方法。 ... [详细]
程序员
(Android)我如何获得SmartPhone ScreenWidth和高度？

如何解决《(Android)我如何获得SmartPhoneScreenWidth和高度？》经验，为你挑选了0个好方法。 ... [详细]
程序员
alias_method:堆栈级别太深

如何解决《alias_method:堆栈级别太深》经验，为你挑选了1个好方法。 ... [详细]
程序员
Chomp地图的所有键(使用更少的代码)

如何解决《Chomp地图的所有键(使用更少的代码)》经验，为你挑选了1个好方法。 ... [详细]
程序员
两个类有共同的方法和属性

如何解决《两个类有共同的方法和属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
SQL查询缓存

如何解决《SQL查询缓存》经验，为你挑选了0个好方法。 ... [详细]
程序员
H.264编码的NAL /切片分割

如何解决《H.264编码的NAL/切片分割》经验，为你挑选了0个好方法。 ... [详细]
程序员
将recyclerview焦点转移到列表中的最后一个元素

如何解决《将recyclerview焦点转移到列表中的最后一个元素》经验，为你挑选了3个好方法。 ... [详细]
程序员
Swagger PHP:如何声明属性以使用模式定义？

如何解决《SwaggerPHP:如何声明属性以使用模式定义？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从.json url中提取数据导致Jquery出错

如何解决《从.jsonurl中提取数据导致Jquery出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用jQuery选择data-title中的元素？

如何解决《如何使用jQuery选择data-title中的元素？》经验，为你挑选了0个好方法。 ... [详细]
程序员
SQL Server表列中的默认值为GUID

如何解决《SQLServer表列中的默认值为GUID》经验，为你挑选了1个好方法。 ... [详细]
程序员
覆盖iPhone中所有设备的屏幕所需的图像大小

如何解决《覆盖iPhone中所有设备的屏幕所需的图像大小》经验，为你挑选了0个好方法。 ... [详细]
程序员
将promise polyfill添加到ES6

如何解决《将promisepolyfill添加到ES6》经验，为你挑选了1个好方法。 ... [详细]
程序员
Kryo注册了LabeledPoint类

如何解决《Kryo注册了LabeledPoint类》经验，为你挑选了1个好方法。 ... [详细]

Life一切安好

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章