3赞

pymongo:更有效的更新

作者：oDavid_仔o_880 | 2023-06-28 21:14

如何解决《pymongo:更有效的更新》经验，为你挑选了1个好方法。

我试图将一些大文件(大约400万条记录)推送到一个mongo实例中.我基本上想要实现的是使用文件中的数据更新现有数据.该算法看起来像:

rowHeaders = ('orderId', 'manufacturer', 'itemWeight')
for row in dataFile:
    row = row.strip('\n').split('\t')
    row = dict(zip(rowHeaders, row))

    mongoRow = mongoCollection.find({'orderId': 12344})
    if mongoRow is not None:
        if mongoRow['itemWeight'] != row['itemWeight']:
            row['tsUpdated'] = time.time()
    else:
        row['tsUpdated'] = time.time()

    mongoCollection.update({'orderId': 12344}, row, upsert=True)

因此,如果权重相同,则更新除'tsUpdated'之外的整行,如果行不在mongo中则添加新行或更新包含'tsUpdated'的整行......这是算法

问题是:从mongo的角度来看,这可以更快,更容易,更有效吗？(最终有某种批量插入)

1> 小智..：

将唯一索引orderId与更新查询相结合,您还可以在其中检查更改itemWeight.唯一索引会阻止仅具有已修改时间戳的插入(如果该插入orderId已存在且itemWeight相同).

mongoCollection.ensure_index('orderId', unique=True)
mongoCollection.update({'orderId': row['orderId'],
    'itemWeight': {'$ne': row['itemWeight']}}, row, upsert=True)

我的基准测试显示您的算法性能提高了5-10倍(取决于插入量与更新量).

推荐阅读

程序员
意外的卷积结果

如何解决《意外的卷积结果》经验，为你挑选了0个好方法。 ... [详细]
程序员
JSON的正确语言是什么

如何解决《JSON的正确语言是什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java:没有空格的字符串操作

如何解决《Java:没有空格的字符串操作》经验，为你挑选了1个好方法。 ... [详细]
程序员
Laravel Guzzle不起作用,但Curl确实如此

如何解决《LaravelGuzzle不起作用,但Curl确实如此》经验，为你挑选了1个好方法。 ... [详细]
程序员
更好的byebug格式(带颜色)

如何解决《更好的byebug格式(带颜色)》经验，为你挑选了1个好方法。 ... [详细]
程序员
网格单元向量中的元素替换

如何解决《网格单元向量中的元素替换》经验，为你挑选了0个好方法。 ... [详细]
程序员
Heroku + Rails4.2:Cloudfront设置

如何解决《Heroku+Rails4.2:Cloudfront设置》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何获得随机日期和时间C#

如何解决《如何获得随机日期和时间C#》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么这两个div宽度不等于100%？

如何解决《为什么这两个div宽度不等于100%？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Fabric Crashlytics - 汇总来自不同项目的数据

如何解决《FabricCrashlytics-汇总来自不同项目的数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
拼出可访问时间标签的当前时间

如何解决《拼出可访问时间标签的当前时间》经验，为你挑选了0个好方法。 ... [详细]
程序员
NPM问题使用AWS codedeploy部署nodejs实例

如何解决《NPM问题使用AWScodedeploy部署nodejs实例》经验，为你挑选了1个好方法。 ... [详细]
程序员
在python中舍入科学记数法

如何解决《在python中舍入科学记数法》经验，为你挑选了1个好方法。 ... [详细]
程序员
(取5(范围))和(范围5)之间有什么区别

如何解决《(取5(范围))和(范围5)之间有什么区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django UserCreationForm无法正常工作

如何解决《DjangoUserCreationForm无法正常工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
Thread.sleep()延迟整个程序,而不仅仅是它之后的程序

如何解决《Thread.sleep()延迟整个程序,而不仅仅是它之后的程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
找不到openshift v3 pod文件

如何解决《找不到openshiftv3pod文件》经验，为你挑选了0个好方法。 ... [详细]
程序员
运行Java字节码

如何解决《运行Java字节码》经验，为你挑选了1个好方法。 ... [详细]
程序员
禁用在Visual Studio 2015 for ASP.NET 5项目中自动添加新文件

如何解决《禁用在VisualStudio2015forASP.NET5项目中自动添加新文件》经验，为你挑选了0个好方法。 ... [详细]
程序员
Haskell中的语法错误

如何解决《Haskell中的语法错误》经验，为你挑选了1个好方法。 ... [详细]

oDavid_仔o_880

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章