当你的服务挂了,该怎么排查服务挂了的原因

2023年 7月 14日 27.7k 0

1. 背景

某天凌晨一点多,服务挂了,日志戛然而止,grafanar监控内存,cpu、磁盘都是正常的,该怎么去排查

2. 排查手段

观测日志、是否有程序触发关闭jvm进程,system.exit(),观测内存,cpu,磁盘,是否有因为机器资源不够分配的问题导致进程被机器kill

观测机器的操作日志/var/log/messages,直接搜索kill 的日志

messages 日志是核心系统日志文件。它包含了系统启动时的引导消息,以及系统运行时的其他状态消息。IO 错误、网络错误和其他系统错误都会记录到这个文件中。其他信息,比如某个人的身份切换为 root,也在这里列出。如果服务正在运行,比如 DHCP 服务器,您可以在 messages 文件中观察它的活动。通常,/var/log/messages 是您在做故障诊断时首先要查看的文件。

/var/log/messages文件中存放的就是系统的日志信息,当内核程序调试时,printk语句所产生的信息显示不出来的时候,就使用cat /var/log/messages文件的方法,查看所打印出的信息.

都没问题了,直接联系运维看一下,开发也没有绝对百分百的手段判断进程挂的原因,最终判断为阿里云系统错误导致机器重启

相关文章

JavaScript2024新功能:Object.groupBy、正则表达式v标志
PHP trim 函数对多字节字符的使用和限制
新函数 json_validate() 、randomizer 类扩展…20 个PHP 8.3 新特性全面解析
使用HTMX为WordPress增效:如何在不使用复杂框架的情况下增强平台功能
为React 19做准备:WordPress 6.6用户指南
如何删除WordPress中的所有评论

发布评论