我在MongoDB上有一个非常大的集合,我想从该集合中删除重复的记录.我想到的第一个想法是删除索引并使用dropDups重建索引.但是,重复的数据太多,MongoDB无法处理.
所以我转向MapReduce寻求帮助.这是我目前的进展.
m = function () { emit(this.myid, 1); } r = function (k, vals) { return Array.sum(vals); } res = db.userList.mapReduce(m,r, { out : "myoutput" });
并且所有重复记录的"myid"都存储在"myoutput"集合中.但是,我不知道如何通过引用myoutput.myid从userList中删除记录.它假设是这样的:
db.myoutput.find({value: {$gt: 1}}).forEach( function(obj) { db.userList.remove(xxxxxxxxx) // I don't know how to do so })
顺便说一句,使用foreach似乎会用理智的myid擦除所有记录.但我只是想删除重复的记录.例如:
{ "_id" : ObjectId("4edc6773e206a55d1c0000d8"), "myid" : 0 } { "_id" : ObjectId("4edc6780e206a55e6100011a"), "myid" : 0 } { "_id" : ObjectId("4edc6784e206a55ed30000c1"), "myid" : 0 }
最终结果应该只保留一条记录.有人可以给我一些帮助吗?
谢谢.:)
最干净的可能是写一个删除记录的客户端脚本:
db.myoutput.find({value: {$gt: 1}}).forEach( function(obj) { var cur = db.userList.find({ myid: obj._id }, {_id: 1}); var first = true; while (cur.hasNext()) { var doc = cur.next(); if (first) {first = false; continue;} db.userList.remove({ _id: doc._id }); } })
我没有测试过这段代码所以总是仔细检查是否针对prod数据运行..