我正在寻找一个参考数据库,可用于测试联系人数据库中可能的名称拼写错误.这是一个批处理过程,因此性能不是一个真正的问题.理想情况下,我想要一个全面的数据库,但即使像"前5000"这样的东西也会有很长的路要走.
谢谢!
我不知道一个数据库,但你自己从一个资源填充这个 http://www.census.gov/genealogy/names/dist.all.last 应该工作正常:)
我知道一个名字数据库http://www.lexique.org/public/Prenoms100.zip覆盖
Phil, Phile, Philip, Philipp, Phillip, Felipe, Philippe
.(大约12000名)
我认为你找不到任何有用的名字,因为它们比名字要多得多.这是计算语言学中的已知问题.
我不明白你怎么能在名字中找到拼写错误.我的意思是,我的名字是菲利普(法国),但它可以是菲利普,飞利浦,费利佩,菲利普或其他任何东西.可能有一个传统的法国名字,桑德琳,但一个趋势是写出了鸡蛋泉,更多的是法律最近在法国放松.等等.
好吧,也许Jhon闻起来像一个错字(常见的两个字母反转),但你无法确定.
姓氏中的错别字甚至更难以发现......除非您检查有限的已知列表(例如公司的员工).