SRE稳定性运营平台之模板和权威消息

背景

在我们逐步由运维转向SRE、SRE转向成SRE运营的过程中,我们的工作内容和工作重心都有着慢慢的变化。
在这个转变的过程中,我们需要不断的把这些日常工作或者是定期工作逐步沉淀、不断的创新,那么就会带来两种东西:

  • 第一:工具平台
  • 第二:特色输出

工具能够协助我们快速、自动化、智能的完成工作;特色输出能够告诉外界你们做了什么,更重要的是它代表SRE独有,对于提高部门影响力起到一个关键作用以及也是重要途径之一。

备注:之前有写过一篇关于运营报告平台的介绍,可以简单看下,写的更具体一点:点击我跳转

介绍

目前我基于在公司做的稳定性运营平台,抽离了部分功能以及脱离了公司的一些框架,输出了一版使用开源框架做的运营平台。
这个平台会持续更新,当然可能会慢于公司的版本更新。

项目地址:点击我跳转

开源版本的信息:

1
2
3
4
前端:https://github.com/gsgs-libin/sre_cerebrum
后端:https://github.com/gsgs-libin/sre_cerebrum_api
前端框架:ant-design-vue-pro
后端框架:gin

开源版本的优势:

  • 更丰富的日志输出
  • 更好的规范
  • 更好看的界面

公司内部版本功能

目前公司内部的项目已有的一些功能有:
1.业务周报、SRE运营报告、巡检报告等一系列报告的输出
2.业务巡检覆盖
3.SRE权威消息发布(包含一切核心消息同步)
4.通知渠道注册
5.SRE事件编排(SRE轮值、节假日轮值、周期性事件)
6.业务基础数据采集(qps,sla,带宽,db资源信息等)
7.定时任务

开源版本

这次先实现了权威消息模块以及渠道通知模块,平台有一个基础模块就是模板,所有的报告、消息都是基于模板来实现的。

功能介绍

权威消息起初设计的目的是覆盖SRE内部日常对内对外的消息,包括:

  • 各式各样的通知(该写周报了、该巡检了、该处理问题了)
  • 对外轮值通知(告诉业务方今天是谁轮值)
  • 故障消息(发生了什么故障、故障恢复了等等的通知,权威通知,防止群里七嘴八舌的)
  • 定时发送的消息

如何创建权威消息

1.创建权威消息模板

png1

2.编辑模板内容

模板内容可以是静态内容也可以是变量模式,比如可以用一个变量来替代你要发送的消息内容。

如果没有变量可以这样:
png2
如果有变量可以在内容增加写一个变量,然后在下面变量列表中写上:
png3

3.变量注册

如果在编辑模板的过程中增加了变量,那么我们需要注册下这个变量,意思就是我从哪里获取到你这个变量。
目前变量分了三种:内置变量自定义变量图片变量
内置变量就是注册一次谁都可以用,自定义变量和图片变量都是跟具体的模板绑定的。

png4

注册完成之后,可以看看这个变量的详情:
png5

4.通知渠道注册

顾名思义,就是创建一些可以通知消息的渠道,比如企业微信机器人企业微信应用钉钉机器人邮件短信等等。
由于公司内部使用企业微信,所以我目前就实现了注册机器人和应用的功能,其他的有需求再加,或者可以提pr。

png6

4.创建消息

我们的每一条消息都是基于模板的,所以我们需要在模板位置去创建消息。
创建消息会经历的步骤:创建动作–渲染动作(如果有变量)–合并动作(如果有变量)–审核动作(如果是需要审核的)–发送

png7

5.查看消息渲染进度(如果有变量的话)

png8

6.发送或者审核

在这里你可以对消息进行一系列的操作,比如:

  • 测试发送消息
  • 看下发送历史,到底被发送了多少次
  • 编辑,如果消息内容不理想,可以进行二次编辑
  • 审核(当然需要审核人员才行,可以看后端代码定义)
  • 废弃(创建消息的人可以选择主动废弃)

png9

png10

png11

下期介绍

下期会发布新功能:报告相关(运营报告、巡检报告等等)