程序员如何做「故障排查」：不是靠猜，是靠方法

系统出故障是难免的，故障排查能力决定了恢复速度。

有方法的工程师 5 分钟找到根因，没方法的可能花 5 小时还在瞎试。

一、故障排查的步骤

# 查看进程
ps aux | grep java
# 查看端口
netstat -tlnp | grep 8080

ping
telnet host port

jstack <pid>   # 线程堆栈
jmap -dump     # 内存快照
jstat -gc       # GC 情况

检查进程、端口、防火墙、健康检查。

看慢查询、GC、线程状态、外部依赖。

看 dump 文件，分析对象占用。

看哪个进程、哪个线程、堆栈定位。

越慌越容易出错。

日志不会说谎。

一次只改一个地方。

方便复盘和学习。

故障排查 = 确认问题 + 快速止血 + 收集信息 + 定位根因 + 修复验证 + 复盘总结，核心是用数据说话而不是靠猜。