当前位置:  开发笔记 > 运维 > 正文

确定在Linux上停止进程的原因

如何解决《确定在Linux上停止进程的原因》经验,为你挑选了1个好方法。

我正在尝试确定在Linux上停滞过程的原因.这是一个电信应用程序,在相当重的负载下运行.8个T1跨度中的每一个都有一个单独的过程.每隔一段时间,其中一个进程就会变得非常无响应 - 在通常非常忙碌的进程日志中记录事件之前可能需要50秒.

可能有些系统资源不足.显而易见的事情 - CPU使用率 - 看起来没问题.

哪些linux实用程序可能最适合捕获和分析此类事物,并尽可能不引人注意,因为这是一个高负载系统?它似乎需要是流程而不是系统导向.也许正在持续监控/ proc/pid/XX?Top在这里似乎没什么用处.



1> ADEpt..:

如果你能够发现这个"无反应的时刻",那么你可以使用strace在这段时间内附加到相关进程并尝试找出它"睡觉"的位置:

strace -f -o LOG -p 

更轻巧但不太可靠的方法:

    当进程挂起时,使用top/ps/gdp/strace/ltrace来查找进程的状态(例如,它是否在"select"中等待或在某些库调用中消耗100%cpu)

    了解相关调用的一般性质,定制strace的调用以记录特定的系统调用或系统调用.例如,要仅记录与文件访问相关的系统调用,请使用:

    strace -e file -f -o LOG ....
    

如果strace对你来说太重了,请尝试监控:

    使用"vmstat 1>/some/log"的内存使用情况 - 在此期间可能正在交换(或退出)进程

    使用vmstat/iotop的IO - 也许其他一些进程正在颠覆磁盘

    / proc/interrupts - 也许您的T1卡的驱动程序遇到问题?

推荐阅读
雯颜哥_135
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有