当你的服务挂了,该怎么排查服务挂了的原因
1. 背景
某天凌晨一点多,服务挂了,日志戛然而止,grafanar监控内存,cpu、磁盘都是正常的,该怎么去排查
2. 排查手段
观测日志、是否有程序触发关闭jvm进程,system.exit(),观测内存,cpu,磁盘,是否有因为机器资源不够分配的问题导致进程被机器kill
观测机器的操作日志/var/log/messages,直接搜索kill 的日志
messages 日志是核心系统日志文件。它包含了系统启动时的引导消息,以及系统运行时的其他状态消息。IO 错误、网络错误和其他系统错误都会记录到这个文件中。其他信息,比如某个人的身份切换为 root,也在这里列出。如果服务正在运行,比如 DHCP 服务器,您可以在 messages 文件中观察它的活动。通常,/var/log/messages 是您在做故障诊断时首先要查看的文件。
/var/log/messages文件中存放的就是系统的日志信息,当内核程序调试时,printk语句所产生的信息显示不出来的时候,就使用cat /var/log/messages文件的方法,查看所打印出的信息.
都没问题了,直接联系运维看一下,开发也没有绝对百分百的手段判断进程挂的原因,最终判断为阿里云系统错误导致机器重启
作者:斯瓦辛武
来源:juejin.cn/post/7254542743098818621