12赞

如何检测重复数据？

作者：低调pasta_730 | 2023-09-06 08:24

如何解决《如何检测重复数据？》经验，为你挑选了2个好方法。

我有一个简单的联系人数据库,但我遇到用户输入重复数据的问题.我已经实现了一个简单的数据比较,但不幸的是,输入的重复数据并不完全相同.例如,名字拼写不正确,或者一个人将放入"Bill Smith",另一个人将为同一个人输入"William Smith".

那么是否存在某种算法可以给出一个条目与另一个条目的相似程度的百分比？

1> Tnilsson..：

那么是否存在某种算法可以给出一个条目与另一个条目的相似程度的百分比？

作为Soundex和Edit距离的算法(如前一篇文章中所建议的)可以解决您的一些问题.但是,如果您认真对待清理数据,这还不够.正如其他人所说,"比尔"听起来并不像"威廉".

我找到的最佳解决方案是使用简化算法和表来将名称缩减为其根名称.

在常规地址表中,添加名称的根版本,例如Person(Firstname,RootFirstName,Surname,Rootsurname ....)

现在,创建一个映射表.FirstNameMappings(主键名,根名)

通过以下方式填充Mapping表:插入IGNORE(从Person中选择Firstname,"UNDEFINED")到FirstNameMappings

这将添加您在person表中的所有firstnames以及RootName"UNDEFINED"

现在,遗憾的是,您必须浏览所有唯一的名字并将它们映射到RootName.例如"Bill","Billl"和"Will"都应该被翻译成"William"这是非常耗时的,但如果数据质量真的对你很重要,我认为这是最好的方法之一.

现在使用新创建的映射表来更新Person表中的"Rootfirstname"字段.重复姓氏和地址.完成此操作后,您应该能够检测重复项而不会遇到拼写错误.

2> Peter Hoffma..：

您可以将名称与Levenshtein距离进行比较.如果名称相同,则距离为0,否则由将一个字符串转换为另一个字符串所需的最小操作数给出.

怎么会发现比尔=威廉？他的问题是重复的,而不是完全重复的拼写错误.

推荐阅读

程序员
Visual Studio 2015隐藏错误列表中的Javascript错误

如何解决《VisualStudio2015隐藏错误列表中的Javascript错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
通过LAN托管Socket.io服务器

如何解决《通过LAN托管Socket.io服务器》经验，为你挑选了1个好方法。 ... [详细]
程序员
控制器启动两次

如何解决《控制器启动两次》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何选择功能名称？

如何解决《如何选择功能名称？》经验，为你挑选了1个好方法。 ... [详细]
程序员
水平/垂直线图

如何解决《水平/垂直线图》经验，为你挑选了2个好方法。 ... [详细]
程序员
python逻辑回归(初学者)

如何解决《python逻辑回归(初学者)》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用C++将结构复制到数组中

如何解决《使用C++将结构复制到数组中》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从方法中打印指针的值？

如何解决《如何从方法中打印指针的值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在C中安全二进制搜索

如何解决《在C中安全二进制搜索》经验，为你挑选了1个好方法。 ... [详细]
程序员
匹配列表后修复类型擦除

如何解决《匹配列表后修复类型擦除》经验，为你挑选了1个好方法。 ... [详细]
程序员
Object.wait()超过了超时

如何解决《Object.wait()超过了超时》经验，为你挑选了1个好方法。 ... [详细]
程序员
强制SQL Server查询不返回任何行

如何解决《强制SQLServer查询不返回任何行》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从COBOL中的COMP-3字段读取Java中的日期？

如何解决《如何从COBOL中的COMP-3字段读取Java中的日期？》经验，为你挑选了1个好方法。 ... [详细]
程序员
WinSCP .NET程序集:如何下载目录

如何解决《WinSCP.NET程序集:如何下载目录》经验，为你挑选了0个好方法。 ... [详细]
程序员
确定最大开放空间的高效算法

如何解决《确定最大开放空间的高效算法》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果孩子的总数是偶数,如何将样式添加到倒数第二？

如何解决《如果孩子的总数是偶数,如何将样式添加到倒数第二？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Jupyter和Common Lisp

如何解决《Jupyter和CommonLisp》经验，为你挑选了1个好方法。 ... [详细]
程序员
即时添加/删除组件

如何解决《即时添加/删除组件》经验，为你挑选了1个好方法。 ... [详细]
程序员
滚动淡出div

如何解决《滚动淡出div》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何按顺序刷新IPython Notebook中的图？

如何解决《如何按顺序刷新IPythonNotebook中的图？》经验，为你挑选了0个好方法。 ... [详细]

低调pasta_730

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章