如何梳理我负责的业务(SRE)

背景

业务一多,我们就需要针对性的梳理负责的业务,不能一个业务一个样子。有效的梳理业务能带来以下好处:

1.更加深入了解业务
2.能从不同的业务中抽象出相同规则,做一些标准化自动化工作
3.业务之间运维工作可以有参考
4.业务故障能帮助快速定位问题点
5.让ab岗,轮值更进一步

注意

当你梳理了业务文档,以下点是需要你注意的:
1.定期/及时更新业务文档
2.要覆盖全面,不仅包含业务文档,也要有运维所做的配套设置(告警、监控、cicd等)
3.有一个总表记录业务变更

梳理条目

那一个业务,我们需要梳理哪些基础的信息呢?

  • 基础平台信息
  • 业务部署架构
  • 后端资源信息
  • CI/CD
  • 监控、日志、告警、自动化
  • 灾备、预案信息
  • 变更记录
  • 日常问题排查记录
  • 优化
  • 总结
  • 注意事项

具体说明

梳理条目 梳理细节 备注
基础平台信息 部署在哪里
如果是新环境,我怎么进入环境
平台的权限相关备注
如果是新平台,基础环境要备注好,vpc、子网、nat等
业务部署架构 一个架构图还是要的
服务有哪些,服务名称、服务作用、资源占用
域名有哪些、以及解析地址
cdn配置等
后端资源信息 实例列表
实例规格
资源同步相关文档
CI/CD cicd流程用什么
是否有自建cicd工具
监控、日志、告警、自动化 监控地址(基础监控,业务监控)
日志地址
告警发送人、告警发送规则
其他自动化配置
灾备、预案信息 灾备文档梳理
预案文档梳理
日常演练记录
压测文档记录
变更记录 业务侧:业务变更、人员变更
运维侧:配置变更、支撑变更
日常问题排查记录 故障记录
日常问题记录
优化 性能优化
支撑优化(支撑工具开发等)
成本优化
总结 稳定性运营周报
月报
年报
重要节日报
注意事项 证书更新
特殊配置