Detection到Incident后Auto执行应急预案: Notification相关Staff, Create事件工单, 执行初步恢复操作, Sync Status Update.
需要快速响应线上Incident的Technical Team, 减少人工协调时间
Incident响应启动时间从15minutes缩短至1minutes
约 ¥200-500/月
定义Incident等级: P0(全站不可用), P1(核心功能受损), P2(非核心功能Anomaly), P3(性能退化). 每个等级Configure对应预案: Notification范围, 响应时限, 恢复操作, Upgrade路径.
根据Incident等级和影响服务Auto确定Notification对象: P0Notification全体on-call+Management层, P1Notification服务owner+值班Staff. Notification包含: Incident描述, 影响范围, 当前Status, 预计恢复时间.
Incident触发后Auto Create事件工单: 记录发现时间, 告警来源, 初步影响评估. 工单Auto关联相关Monitoring图表和Log链接, 方便响应Staff快速了解上下文.
按预案执行恢复: 服务重启, 流量切换, 回滚Deployment, 扩容实例. 每步操作记录执行结果, Failed则Upgrade到Next或转人工. Settings操作超时和安全检查.
Incident恢复后Auto Generation复盘Template: 时间线, 影响范围, 根因Analysis, 改进措施. 收集各环节响应时间Data, Analysis流程瓶颈, 持续Optimization应急预案.
所有Auto操作必须经过演练验证, Settings前置检查条件 (如Confirm不是Data Issue再重启) . 操作Failed立即停止并Upgrade人工, 不会连续尝试.
Settings Confirm窗口 (告警持续2minutes以上才触发响应) , 多源验证 (至少2个Monitoring源Confirm) . 误触发的操作可通过回滚机制撤销.
建立服务依赖图, Incident时Auto Notification上下游Team. Create共享的事件频道, Auto拉入相关Staff. Status Update Auto Sync到所有相关频道.