14赞

pymongo:删除重复项(map reduce？)

作者：小色米虫_524 | 2023-09-07 19:26

如何解决《pymongo:删除重复项(mapreduce？)》经验，为你挑选了1个好方法。

我有一个包含多个集合的数据库(整体约15mil文档),文档看起来像这样(简化):

{'Text': 'blabla', 'ID': 101}
{'Text': 'Whuppppyyy', 'ID': 102}
{'Text': 'Abrakadabraaa', 'ID': 103}
{'Text': 'olalalaal', 'ID': 104}
{'Text': 'test1234545', 'ID': 104}
{'Text': 'whapwhapwhap', 'ID': 104}

它们都有一个唯一的_id字段,但我想删除与另一个字段(外部ID字段)相对应的重复项.

首先,我尝试了一种非常手动的方法,然后使用列表和删除,但数据库看起来太大,需要很长时间并且不实用.

其次,以下版本不再适用于当前的MongoDB版本,即使有人提出建议.

db.collection.ensureIndex( { ID: 1 }, { unique: true, dropDups: true } )

所以,现在我正在尝试创建一个map reduce解决方案,但我真的不知道我在做什么,特别是在使用另一个字段(不是数据库_id)来查找和删除重复项时遇到困难.这是我糟糕的第一种方法(从一些互联网来源采用):

map = Code("function(){ if(this.fieldName){emit(this.fieldName,1);}}")
reduce = Code("function(key,values) {return Array.sum(values);}")
res = coll.map_reduce(map,reduce,"my_results");

response = []
for doc in res.find():
    if(doc['value'] > 1):
        count = int(doc['value']) - 1
        docs = col.find({"fieldName":doc['ID']},{'ID':1}).limit(count)
        for i in docs:
            response.append(i['ID'])

coll.remove({"ID": {"$in": response}})

任何帮助减少外部ID字段中的任何重复(留下一个条目),将非常了解;)谢谢!

1> chridam..：

另一种方法是使用aggregation framework比map-reduce更好的性能.考虑以下聚合管道,作为聚合管道的第一阶段,$group操作员按ID字段对文档进行分组,并使用运算符在字段中存储分组记录的unique_ids每个_id值$addToSet.所述$sum累加器操作者加起来传递给它的字段的值,在这种情况下,常数1 -从而计数的分组的记录的数量进计数字段.另一个管道步骤$match过滤计数至少为2的文档,即重复项.

一旦你从聚集的结果,你迭代光标删除第一个_id在unique_ids外地,然后推入其余稍后将用于去除重复(减去一个条目)数组:

cursor = db.coll.aggregate(
    [
        {"$group": {"_id": "$ID", "unique_ids": {"$addToSet": "$_id"}, "count": {"$sum": 1}}},
        {"$match": {"count": { "$gte": 2 }}}
    ]
)

response = []
for doc in cursor:
    del doc["unique_ids"][0]
    for id in doc["unique_ids"]:
        response.append(id)

coll.remove({"_id": {"$in": response}})

推荐阅读

程序员
在R包rms中纳入随机拦截以进行混合效应逻辑回归

如何解决《在R包rms中纳入随机拦截以进行混合效应逻辑回归》经验，为你挑选了0个好方法。 ... [详细]
程序员
龙卷风curl_httpclient：类型错误：此选项不支持unsetopt（）吗？

如何解决《龙卷风curl_httpclient：类型错误：此选项不支持unsetopt（）吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在QTabWidget中隐藏选项卡并在按下按钮时显示它

如何解决《如何在QTabWidget中隐藏选项卡并在按下按钮时显示它》经验，为你挑选了1个好方法。 ... [详细]
程序员
在pandas数据帧中使用最大似然估计的自回归(AR)模型:correlate()得到了一个意外的关键字参数'旧行为'

如何解决《在pandas数据帧中使用最大似然估计的自回归(AR)模型:correlate()得到了一个意外的关键字参数'旧行为'》经验，为你挑选了1个好方法。 ... [详细]
程序员
OpenCV:是否可以从角落检测矩形？

如何解决《OpenCV:是否可以从角落检测矩形？》经验，为你挑选了1个好方法。 ... [详细]
程序员
RegExp匹配键值对列表中的值

如何解决《RegExp匹配键值对列表中的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果只需要结果的低部分,那么可以使用哪个2的补码整数运算而不将输入中的高位置零？

如何解决《如果只需要结果的低部分,那么可以使用哪个2的补码整数运算而不将输入中的高位置零？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在perl中通过HASH迭代

如何解决《在perl中通过HASH迭代》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么是linux中的链接irq,何时需要使用？

如何解决《什么是linux中的链接irq,何时需要使用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Android中向推送通知添加按钮

如何解决《如何在Android中向推送通知添加按钮》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何配置流明以通过Pusher广播事件？

如何解决《如何配置流明以通过Pusher广播事件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以在Integration Tests中的规范之间重新启动浏览器？

如何解决《是否可以在IntegrationTests中的规范之间重新启动浏览器？》经验，为你挑选了0个好方法。 ... [详细]
程序员
flask模板继承教程

如何解决《flask模板继承教程》经验，为你挑选了1个好方法。 ... [详细]
程序员
SQL select语句结合不同的表

如何解决《SQLselect语句结合不同的表》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在firefox开发人员版中为移动设备模拟chrome浏览器

如何解决《如何在firefox开发人员版中为移动设备模拟chrome浏览器》经验，为你挑选了0个好方法。 ... [详细]
程序员
什么是在必要时将`this`变成`forEach`回调的首选方法？

如何解决《什么是在必要时将`this`变成`forEach`回调的首选方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从MapKit(Swift 2)获取中心坐标并在UILabel中显示

如何解决《从MapKit(Swift2)获取中心坐标并在UILabel中显示》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Laravel中使用https加载刀片资产

如何解决《在Laravel中使用https加载刀片资产》经验，为你挑选了5个好方法。 ... [详细]
程序员
求和整数树(Haskell)

如何解决《求和整数树(Haskell)》经验，为你挑选了1个好方法。 ... [详细]
程序员
在IPython笔记本(Bokeh)中绘制大型数据集

如何解决《在IPython笔记本(Bokeh)中绘制大型数据集》经验，为你挑选了1个好方法。 ... [详细]

小色米虫_524

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章