6赞

Java中数据规范化的拼写纠正

作者：贴进你的心聆听你的世界 | 2023-08-08 14:41

如何解决《Java中数据规范化的拼写纠正》经验，为你挑选了1个好方法。

我正在寻找一个Java库来对用户生成的文本内容进行初始拼写检查/数据规范化,想象一下在Facebook个人资料中输入的兴趣.

此文本将在某个时刻(在拼写纠正之前或之后,无论哪种方式更好)被标记化,并且其中一些用作搜索(完全匹配)的键.减少拼写错误等会产生更多匹配会很不错.如果校正在令牌上的表现不仅仅比一个单词更好,那将会更好,例如"trinking coffee"将成为"喝咖啡"而不是"思考咖啡".

我找到了以下用于拼写纠正的Java库:

JAZZY似乎没有积极发展.此外,由于在社交网络配置文件和多字令牌中使用非标准语言,基于字典距离的方法似乎不合适.

APACHE LUCENE似乎有一个统计拼写检查器应该更合适.这里的问题是如何创建一个好的字典？(否则我们不使用Lucene,因此没有现有的索引.)

欢迎任何建议!

1> Thomas Jung..：

你想要实现的不是拼写纠正器而是模糊搜索.Peter Norvig的文章是一个很好的起点,可以根据字典对候选人进行模糊搜索.

或者看看BK-Trees.

n-gram索引(由Lucene使用)可以为更长的单词生成更好的结果.产生候选人到给定编辑距离的方法可能对正常文本中找到的单词有效,但对名称,地址和科学文本不够好.但它会增加你的索引大小.

如果你有索引的文本,你有你的文本语料库(你的字典).无论如何,只能找到数据中的内容.您不需要使用外部字典.

一个很好的资源是信息检索简介 - 字典和容忍检索.上下文敏感的拼写纠正有一个简短的描述.

推荐阅读

程序员
Python中的路径查找效率

如何解决《Python中的路径查找效率》经验，为你挑选了0个好方法。 ... [详细]
程序员
位置"0"(键)中的项目未被删除,为什么？

如何解决《位置"0"(键)中的项目未被删除,为什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用交互模式'git stash apply'

如何解决《使用交互模式'gitstashapply'》经验，为你挑选了1个好方法。 ... [详细]
程序员
以root身份运行notify-send

如何解决《以root身份运行notify-send》经验，为你挑选了2个好方法。 ... [详细]
程序员
'require'关键字未被webstorm识别

如何解决《'require'关键字未被webstorm识别》经验，为你挑选了3个好方法。 ... [详细]
程序员
什么是从dict中获取项目的简单方法,如果没有找到,可以从另一个dict获得？

如何解决《什么是从dict中获取项目的简单方法,如果没有找到,可以从另一个dict获得？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何中断或去抖inotifywait循环？

如何解决《如何中断或去抖inotifywait循环？》经验，为你挑选了0个好方法。 ... [详细]
程序员
获取numpy 1d数组的索引,其中value大于前一个元素

如何解决《获取numpy1d数组的索引,其中value大于前一个元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过fiddler2捕获python SSL(HTTPS)连接

如何解决《如何通过fiddler2捕获pythonSSL(HTTPS)连接》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从Racket中的html中提取元素？

如何解决《如何从Racket中的html中提取元素？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Bootstrap模态使滚动条在关闭后消失

如何解决《Bootstrap模态使滚动条在关闭后消失》经验，为你挑选了2个好方法。 ... [详细]
程序员
具有通用引用的成员函数模板将不接受左值

如何解决《具有通用引用的成员函数模板将不接受左值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在c中返回char(*)[6]？

如何解决《如何在c中返回char(*)[6]？》经验，为你挑选了1个好方法。 ... [详细]
程序员
邮件特色图像链接存储在WordPress数据库中的哪个位置？

如何解决《邮件特色图像链接存储在WordPress数据库中的哪个位置？》经验，为你挑选了4个好方法。 ... [详细]
程序员
android sqlite查询速度慢

如何解决《androidsqlite查询速度慢》经验，为你挑选了1个好方法。 ... [详细]
程序员
BasicNetwork.performRequest:http://localhost/database/login.php的意外响应代码403

如何解决《BasicNetwork.performRequest:http://localhost/database/login.php的意外响应代码403》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从录制的视频文件中提取音频

如何解决《如何从录制的视频文件中提取音频》经验，为你挑选了1个好方法。 ... [详细]
程序员
制作一个带有面积图的图表,其中正负y轴为直流或d3.js

如何解决《制作一个带有面积图的图表,其中正负y轴为直流或d3.js》经验，为你挑选了1个好方法。 ... [详细]
程序员
Abs初学者Haskell模式匹配

如何解决《Abs初学者Haskell模式匹配》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Paperclip和AWS S3的自定义URL

如何解决《使用Paperclip和AWSS3的自定义URL》经验，为你挑选了0个好方法。 ... [详细]

贴进你的心聆听你的世界

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章