基本上,我有一个30,000个URL的列表.该脚本通过URL并下载它们(中间有3秒的延迟).然后它将HTML存储在数据库中.
它循环和循环......
为什么它会随机被"杀死"?我没碰到任何东西.
编辑:这发生在我的3台Linux机器上.这些机器位于具有256 MB内存的Rackspace云上.没有其他东西在运行.
看起来你可能内存不足 - 如果你有"泄漏"(例如,由于累积循环引用),很可能会在长时间运行的程序中发生.Rackspace是否提供任何易于使用的工具来跟踪进程的内存,因此您可以确认是否是这种情况?否则,这种事情并不难用来自外部的普通Linux工具进行监控.一旦确定"内存不足"可能是导致死亡的原因,pympler等特定于Python的工具可以帮助您准确跟踪问题的来源(从而确定如何避免这些引用 - 无论是通过更改它们是弱引用,或其他更简单的方法 - 或以其他方式消除泄漏).
在这种情况下,您应该检查日志文件.
我使用Debian和Ubuntu,所以我的主要日志文件是: /var/log/syslog
如果您使用Red Hat,我认为该日志是: /var/log/messages
如果发生的某些事是罕见,因为内核杀死你的过程中,将日志事件解释它.
我怀疑你被Out Of Memory Killer击中了.