程序员如何做「运维手册」:不是可有可无,是保命文档
运维手册是系统发生故障时的救命稻草。
没有运维手册,出问题时只能靠人——这个人可能不在。
一、运维手册的内容
1. 系统概览
- 系统架构图
- 服务依赖关系
- 关键组件说明
2. 部署指南
- 环境准备
- 部署步骤
- 配置说明
3. 常见问题处理
- 问题症状 → 排查步骤 → 解决方法
格式化写成:
问题:XXX
症状:XXX
排查:XXX
解决:XXX
4. 监控指标
- 哪些指标需要关注
- 正常范围是多少
- 异常了怎么办
5. 联系方式
- 各模块负责人
- 紧急联系人
- Oncall 轮值表
二、运维手册的维护
1. 每次故障后更新
出问题了解决了 → 运维手册更新。
不要让同样的问题再绊倒下一次。
2. 定期 review
每个季度 review 一次,看有没有过时的内容。
3. 测试验证
定期测试运维手册里的步骤能不能走通。
三、常见错误
❌ 没有运维手册
"我们系统简单,不需要"——出了事就知道需要了。
❌ 写了不更新
半年前的文档,可能已经不对了。
❌ 太复杂
手册写成长篇大论,没人看得下去。
❌ 只存在某人脑子里
"只有张工知道怎么操作"——张工休假了就完了。
四、好的运维手册的特征
1. 简洁
一页纸能说清楚就不写十页。
2. 可操作
每一步都能执行,不是在说理论。
3. 最新
和实际情况一致。
4. 可查找
有目录,有索引,能快速找到。
五、一句话总结
运维手册 = 系统概览 + 部署指南 + 常见问题 + 监控指标 + 联系方式,每次故障后更新。