当前位置:  开发笔记 > 编程语言 > 正文

你如何更快地使Python/PostgreSQL?

如何解决《你如何更快地使Python/PostgreSQL?》经验,为你挑选了1个好方法。

现在我有一个日志解析器读取515mb的纯文本文件(过去4年中每天的文件).我的代码目前如下:http://gist.github.com/12978.我已经使用了psyco(如代码中所示),我也正在编译它并使用编译版本.它每0.3秒做约100行.该机是标准的15"MacBook Pro(2.4ghz C2D,2GB RAM)

是否有可能更快或者是对语言/数据库的限制?



1> S.Lott..:

不要浪费时间分析.时间总是在数据库操作中.做尽可能少.只需最少的插入次数.

三件事.

一.不要一遍又一遍地选择符合日期,主机名和人员维度.将所有数据ONCE获取到Python字典中并在内存中使用它.不要重复单身选择.使用Python.

二.不要更新.

具体来说,不要这样做.这个代码很糟糕有两个原因.

cursor.execute("UPDATE people SET chats_count = chats_count + 1 WHERE id = '%s'" % person_id)

它将被简单的SELECT COUNT(*)FROM ...替换.永远不要更新以增加计数.只需使用SELECT语句计算那里的行.[如果你不能用一个简单的SELECT COUNT或SELECT COUNT(DISTINCT)来做这件事,你就会遗漏一些数据 - 你的数据模型应该总是提供正确的完整计数.永远不要更新.]

和.切勿使用字符串替换来构建SQL.完全愚蠢.

如果由于某种原因,SELECT COUNT(*)它不够快(基准测试,在做任何蹩脚之前),你可以将计数结果缓存在另一个表中.在所有负载之后.做一个SELECT COUNT(*) FROM whatever GROUP BY whatever并将其插入计数表中.不要更新.永远.

三.使用绑定变量.总是.

cursor.execute( "INSERT INTO ... VALUES( %(x)s, %(y)s, %(z)s )", {'x':person_id, 'y':time_to_string(time), 'z':channel,} )

SQL永远不会改变.这些值在更改中绑定,但SQL永远不会更改.这要快得多.永远不要动态构建SQL语句.决不.

推荐阅读
mobiledu2402852357
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有