用于匹配名称/地址数据的工具

作者：虎仔球妈_459 | 2023-09-05 19:32

如何解决《用于匹配名称/地址数据的工具》经验，为你挑选了2个好方法。

这是一个有趣的问题.

我有一个带有名称和地址信息的oracle数据库,需要保持最新状态.

我们从许多不同的gov't源获取数据,并且需要找出匹配项,以及是否使用数据更新db,或者是否需要创建新记录.

没有任何类型的唯一标识符可用于将记录绑定在一起,并且数据质量并不总是那么好 - 总会有拼写错误,人们使用不同的名称(即Joe vs. Joseph)等.

我有兴趣听到那些曾经解决过这类问题的人,以及他们如何解决这个问题,或至少是自动化部分问题.

1> mdy..：

在这个领域活跃的每个主要软件公司都提供处理名称和地址解析,数据标准化,记录重复数据删除或匹配,记录链接/合并,生存等的解决方案套件.不过,它们都有点贵.

例如,Oracle针对此问题的解决方案是产品" Oracle Data Integrator(ODI)的Oracle数据质量(ODQ) ",这是其融合中间件堆栈的一部分.顾名思义,ODQ需要ODI(即,它是一个单独许可并依赖于ODI的附加模块).

IBM的Websphere解决方案套件(通过Ascential收购获得)包括QualityStage.

Business Objects现在是一家SAP公司,在其企业信息管理(EIM)套件下拥有数据质量产品.

其他主要数据质量品牌包括Dataflux(SAS公司)和Trillium Software(Harte-Hanks公司)

Gartner Group发布了年度数据质量解决方案套件的魔力象限.在这些魔力象限中评价良好的供应商通常会在其网站上向注册用户在线提供整个报告(示例1,示例2).

2> 小智..：

在开源方面,现在有一个用于执行此类记录重复数据删除/实体解析的python库:Dedupe.

需要编程技能,但它是免费的,可以在笔记本电脑上运行,而不是大型服务器.

以下是其工作原理的概述.

推荐阅读

程序员
UWP中的DataTable类在哪里？

如何解决《UWP中的DataTable类在哪里？》经验，为你挑选了1个好方法。 ... [详细]
程序员
MongoDB Java驱动程序:MongoCore驱动程序与MongoDB驱动程序与MongoDB异步驱动程序

如何解决《MongoDBJava驱动程序:MongoCore驱动程序与MongoDB驱动程序与MongoDB异步驱动程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Swift 2.0中将新项目追加到类的数组中

如何解决《在Swift2.0中将新项目追加到类的数组中》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何获得2个字符之间的值

如何解决《如何获得2个字符之间的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么Akka.Net F#API定义了actorOf2而不是actorOf3,actorOf4等？

如何解决《为什么Akka.NetF#API定义了actorOf2而不是actorOf3,actorOf4等？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Visual Studio无法打开cshtml文件

如何解决《VisualStudio无法打开cshtml文件》经验，为你挑选了3个好方法。 ... [详细]
程序员
有条件地在perl中包含一个模块

如何解决《有条件地在perl中包含一个模块》经验，为你挑选了1个好方法。 ... [详细]
程序员
LISP - 将带有数组表示的字符串转换为数组

如何解决《LISP-将带有数组表示的字符串转换为数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Sublime Text中自动完成自定义JavaScript函数

如何解决《在SublimeText中自动完成自定义JavaScript函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在CollapsingToolbarLayout和Toolbar的中心放置文本？

如何解决《如何在CollapsingToolbarLayout和Toolbar的中心放置文本？》经验，为你挑选了1个好方法。 ... [详细]
程序员
VBA将单页保存为CSV(不是整个工作簿)

如何解决《VBA将单页保存为CSV(不是整个工作簿)》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何有效地将Matlab引擎数组转换为numpy ndarray？

如何解决《如何有效地将Matlab引擎数组转换为numpyndarray？》经验，为你挑选了2个好方法。 ... [详细]
程序员
尝试运行Qt应用程序时LD_LIBRARY_PATH失败

如何解决《尝试运行Qt应用程序时LD_LIBRARY_PATH失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
_fullpath返回驱动后者的当前路径

如何解决《_fullpath返回驱动后者的当前路径》经验，为你挑选了1个好方法。 ... [详细]
程序员
SIMD/SSE:如何检查所有向量元素是否为非零

如何解决《SIMD/SSE:如何检查所有向量元素是否为非零》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用带有scikit-learn的Lasso进行特征选择

如何解决《使用带有scikit-learn的Lasso进行特征选择》经验，为你挑选了0个好方法。 ... [详细]
程序员
Redis - 手动提升从属设备

如何解决《Redis-手动提升从属设备》经验，为你挑选了1个好方法。 ... [详细]
程序员
从图库中获取图像以在片段中的imageview中设置？

如何解决《从图库中获取图像以在片段中的imageview中设置？》经验，为你挑选了0个好方法。 ... [详细]
程序员
python,matplotlib:specgram数据数组值与specgram plot不匹配

如何解决《python,matplotlib:specgram数据数组值与specgramplot不匹配》经验，为你挑选了1个好方法。 ... [详细]
程序员
std :: string没有将数据存储在连续的内存位置的好处(在C++ 11之前)

如何解决《std::string没有将数据存储在连续的内存位置的好处(在C++11之前)》经验，为你挑选了1个好方法。 ... [详细]

虎仔球妈_459

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章