使用Hadoop进行相似性连接

作者：手机用户2402851155 | 2023-06-26 08:07

如何解决《使用Hadoop进行相似性连接》经验，为你挑选了1个好方法。

我是hadoop的新手.我想提出一些我想出来的方法.

问题:
2个数据集:A和B.
两个数据集代表歌曲:一些顶级属性,标题(1 .. ),表演者(1 ..).
我需要使用基于标题和表演者的相等或模糊算法(例如levenshtein,jaccard,jaro-winkler等)来匹配这些数据集.
数据集大小为:A = 20-30M,B~ = 1-6M.

所以这里有我提出的方法:

将数据集B(最小)加载到HDFS中.对数据集A(最大)使用mapreduce,其中:
map phase:对于A访问HDFS中的每条记录,并拉出记录B进行匹配;
reduce phase:写入id对

将数据集A加载到优化形式的distirubted缓存(即jboss缓存)中以加速搜索.对数据集B使用mapreduce,其中:
map phase:对于B查询中的每个记录,用于匹配的分布式缓存
reduce:写入id对

使用mapreduce连接两个数据集,其中
map阶段:从集合A和集合B获取记录,匹配
减少阶段:相同
(我对第一个模糊不清.第一个:连接将是具有万亿个记录的笛卡尔积;第二个:不确定hadoop如何跨群集平行化)

使用配置单元(我正在寻找现在试图找出如何插入将进行字符串匹配的自定义函数)

我正在寻找一个指针,这种方法将是最好的候选人,或者也许还有一些我看不到的方法.

1> 小智..：

您可能会发现本文和代码很有用:

使用MapReduce进行高效并行集相似性连接

我个人在Cascading中实现了它,效果很好.不幸的是,代码过于特定于域而无法发布.

上述工作的要点是减少与非常可能相似的候选对的连接数,然后可以使用任何相关算法混合来直接比较候选对(在MR连接中).一个好的副作用是可以在整个群集中均匀地执行此连接,而无需重复比较.

最终,这是在两个独立集之间或在同一集合内执行交叉连接的优化(第二种情况与第一种情况略有不同).

披露:我是Cascading的作者

推荐阅读

程序员
D3.js多个y轴具有相同的刻度位置？

如何解决《D3.js多个y轴具有相同的刻度位置？》经验，为你挑选了1个好方法。 ... [详细]
程序员
单击android中通知内的按钮打开对话框

如何解决《单击android中通知内的按钮打开对话框》经验，为你挑选了0个好方法。 ... [详细]
程序员
Google地图在模拟器上显示,但不在设备上显示

如何解决《Google地图在模拟器上显示,但不在设备上显示》经验，为你挑选了1个好方法。 ... [详细]
程序员
重新排列数组 - java

如何解决《重新排列数组-java》经验，为你挑选了1个好方法。 ... [详细]
程序员
正则表达式:+ $ VS*$ VS无

如何解决《正则表达式:+$VS*$VS无》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何将复合文字用于`fprintf()`具有任意碱基的多个格式化数字？

如何解决《如何将复合文字用于`fprintf()`具有任意碱基的多个格式化数字？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Pandas Bar图,如何注释分组的水平条形图

如何解决《PandasBar图,如何注释分组的水平条形图》经验，为你挑选了0个好方法。 ... [详细]
程序员
是否有任何保证在JavaScript中访问对象属性的恒定时间？

如何解决《是否有任何保证在JavaScript中访问对象属性的恒定时间？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Jupyter R Notebook中的HTML小部件

如何解决《JupyterRNotebook中的HTML小部件》经验，为你挑选了0个好方法。 ... [详细]
程序员
插入表并将另一列设置为自动增量列值

如何解决《插入表并将另一列设置为自动增量列值》经验，为你挑选了1个好方法。 ... [详细]
程序员
Raspberry Pi上无法运行Qt5视频播放器示例

如何解决《RaspberryPi上无法运行Qt5视频播放器示例》经验，为你挑选了1个好方法。 ... [详细]
程序员
在iPad Pro中,启动屏幕故事板显示在模拟器中但不显示设备

如何解决《在iPadPro中,启动屏幕故事板显示在模拟器中但不显示设备》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法使用EC2上的机器IP地址打开spinnaker deck UI

如何解决《无法使用EC2上的机器IP地址打开spinnakerdeckUI》经验，为你挑选了1个好方法。 ... [详细]
程序员
带有退货声明的短路

如何解决《带有退货声明的短路》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以检测用户是否安装并使用了Google健身应用？

如何解决《是否可以检测用户是否安装并使用了Google健身应用？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Laravel 5注销或会话破坏

如何解决《Laravel5注销或会话破坏》经验，为你挑选了1个好方法。 ... [详细]
程序员
多处理队列子类问题

如何解决《多处理队列子类问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
TLS握手错误

如何解决《TLS握手错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
Android自定义属性未显示

如何解决《Android自定义属性未显示》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在CakePHP 3中的model-> save()上获取SQL查询？

如何解决《如何在CakePHP3中的model->save()上获取SQL查询？》经验，为你挑选了0个好方法。 ... [详细]

手机用户2402851155

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章