阿里云监控日志分析

终结告警疲劳
智能降噪方案

31天内354条告警,87.9%自动恢复且无人处理。在下一次事故发生前,我们需要根治这个问题。

354 Alerts 87.9% Auto-Recovered 91.5% Repeated ~10% Actionable
01

数据总览

2026/04/25 - 2026/05/25 | 31天,354条告警

354
告警总量
319
严重级别
311
自动恢复
34
手动恢复
9
待响应
87.9%
无人工处理

告警状态分布

311条自动恢复

告警渠道分布

320 CloudMonitor
!

检测到等级泛化问题

90.1%的告警被标记为'严重',但只有2.5%真正需要人工响应。这导致工程师忽略所有'严重'告警,包括真正的紧急情况。

02

告警分类与聚类

Top 4告警类型占据86.7%的噪音

告警类型分布

各类型自动恢复率

带宽使用率100%
CPU使用率100%
磁盘使用率95.5%
内存使用率90.0%
ALB不健康服务器66.7%

高频重复告警(31天)

告警内容 次数 自动恢复 处理 判定
EIP 47.101.222.52 流入带宽 >=90% 178 100% None Noise
ECI eci-uf6hw7ayo5h1wjaz0z0b 磁盘 >=90% 60 100% None Noise
ECI eci-uf62jtm1h4r84twtsh4c 内存 >=90% 27 100% None Noise
EIP 47.101.222.52 流出带宽 >=90% 8 100% None Noise
云监控配额不足提醒 8 0% Planned Info
WAF新增回源网段通知 6 0% Planned Info
RDS a-sha-prd-cdp-rds-1 CPU >=90% 4 100% None Noise
03

无效告警根因分析

识别出三类噪音来源

87.9%

自动恢复型假告警

告警触发后无人干预即自动恢复,说明阈值设置过于敏感。

Bandwidth188
Disk64
Memory27
CPU22
9.6%

通知类信息告警

产品升级公告、配额提醒、欠费通知等,并非真正的紧急事件。

Quota8
WAF Upgrade6
Overdue4
Others16
91.5%

重复型噪音告警

同一资源反复触发同类告警,缺少去重和聚合机制。

Unique Patterns22
Total Repeated324
Top1频率178
日均触发5.7

为什么87.9%的告警能自己恢复?

1

阈值过于敏感

带宽阈值设为>=90%,每次业务高峰都触发。EIP 47.101.222.52 平均每天触发5.7次,全部自动恢复。

2

监控指标选取不当

容器/ECI环境的磁盘和CPU指标天然波动。一个ECI触发60次磁盘告警全部自动恢复,该指标对业务影响微乎其微。

3

缺少持续时间过滤

告警在阈值被突破的单点瞬间触发。如果持续时间<5分钟就自动恢复,那只是瞬时峰值而非持续问题。

04

智能降噪方案

6大策略针对不同噪音来源

自动恢复过滤

-70~80%

5分钟内自动恢复的告警直接降噪。7天内自动恢复>=3次的资源加入观察列表不再实时通知。

if duration < 300s: SUPPRESS

通知类分流

-8~10%

将邮件渠道告警(升级、配额、欠费)分流到独立'通知群',不再与严重告警混在一起。

Mail → Info Channel

重复告警聚合

-10~15%

同一资源+同类告警15分钟内聚合为一条消息,显示触发次数和最新值。

15分钟内5次:只显示1次

阈值优化

-5~10%

带宽阈值从90%提升到95%,增加'持续时间>=3分钟'条件。可过滤99%的瞬时峰值。

value >= 95% AND duration >= 3min

时间窗口过滤

-2~5%

维护窗口期间静默非关键告警。非工作时间延迟自动恢复类告警到次日工作时间。

Maint Window: SUPPRESS

告警分级

-5~8%

建立P0/P1/P2/P3分级。P2级(自动恢复)改为每日摘要而非实时通知。

P2 → Daily Digest

建议的告警重新分级

告警类型 当前分级 建议分级 理由
Bandwidth >=90% Critical P2 100% auto-recovered, transient peaks
Disk >=90% Critical P2 95.5% auto-recovered
Memory >=90% Critical P2 90% auto-recovered
CPU >=90% Critical P2 100% auto-recovered
ALB Unhealthy >=1 Critical P1 66.7% auto-recovered but needs attention
Quota/Billing/Upgrade Info P3 Notification only, not urgent
05

实施路线图

从快速见效到长期治理的三阶段计划

Phase 1:立即可做

1-2 Weeks
1

自动恢复过滤

5分钟内自动恢复 -> 不发送通知

2

邮件渠道分流

将通知类告警移到独立'通知群'

3

Top3告警聚合

EIP带宽、ECI磁盘、ECI内存:15分钟内聚合

预期效果:354条/月 -> 30-50条/月(降噪85%)

Phase 2:短期优化

1 Month
1

阈值调优

带宽90% -> 95%,增加持续时间>=3分钟

2

告警分级

建立P0/P1/P2/P3分级,P2改为每日摘要

3

维护窗口

配置维护窗口静默非关键告警

Phase 3:长期治理

3 Months
1

AIOps平台

考虑阿里云智能降噪或PagerDuty

2

月度告警Review

定期review告警模式和阈值有效性

3

告警疲劳KPI

将误报率作为SRE团队的考核指标

预期收益

降噪前后对比

月告警总量
354 30-50
有效告警占比
~15% ~70%
重复告警占比
91.5% <20%
工程师告警负载
High Low
Q&A

常见问题

工程师关心的降噪问题

Q:过滤自动恢复告警会不会漏掉真正的问题?

A:不会。数据显示311条自动恢复告警中没有任何人进行过处理。如果告警在5分钟内自动恢复,那只是瞬时峰值而非真正的问题。为了安全,我们只抑制同时满足两个条件的告警:(1) 5分钟内自动恢复,且 (2) 该资源7天内>=3次同类自动恢复。持续存在的问题仍然会触发不会自动恢复的告警。

Q:为什么把带宽阈值从90%提升到95%?

A:EIP 47.101.222.52在31天内触发了178次带宽告警,全部自动恢复,平均每天5.7次。90%的阈值意味着正常业务高峰都会触发误报。提升到95%并加上3分钟持续时间条件,可以捕捉到持续的带宽问题,同时过滤掉瞬时峰值。如果95%经过监控后证明过高,可以再调整。

Q:15分钟聚合去重具体怎么实现?

A:在CloudCare(或告警网关层)增加去重键 = 资源ID + 告警类型。在15分钟窗口期内,每个去重键只发送一次通知。通知内容包含:'该告警过去15分钟内触发X次,最新值Y%。' 如果15分钟内触发超过3次,则升级到团队负责人。

Q:维护窗口期间如果出问题怎么办?

A:维护窗口静默只作用于P2/P3级告警(自动恢复类、资源使用率类)。P0/P1级告警(服务不可用、安全事件)永远不会被静默。这确保了真正的紧急情况始终会立即通知,而常规维护噪音被过滤。

Q:实施降噪后如何衡量效果?

A:每月跟踪以下KPI:(1) 月告警总量 - 目标<50条。(2) 自动恢复率 - 目标<30%。(3) 有效告警占比(需要人工处理的告警/总告警)- 目标>70%。(4) 真实事件的平均响应时间(MTTR) - 应该下降。(5) 工程师告警疲劳度调研 - 1-5分制,目标>4分。

Q:这些过滤规则应该在哪里实现 - CloudCare还是钉钉?

A:最佳实践是在告警网关层实现(CloudCare和钉钉之间)。这样:(1) 所有告警仍会在CloudCare中记录供审计。(2) 抑制规则集中管理且可版本控制。(3) 不同团队可以有不同的路由规则。如果你的网关不支持,可以作为中间件服务实现:接收CloudCare webhook,应用过滤规则,再转发到钉钉。

Demo

交互式演示

模拟告警过滤过程

过滤前:原始告警

[CRITICAL] EIP bandwidth 92%
09:01:23 - Auto-recovered 09:03:45
[CRITICAL] EIP bandwidth 94%
11:23:45 - Auto-recovered 11:25:12
[CRITICAL] EIP bandwidth 91%
14:05:33 - Auto-recovered 14:07:01
[CRITICAL] EIP bandwidth 93%
16:42:18 - Auto-recovered 16:44:55
[CRITICAL] EIP bandwidth 95%
18:12:07 - Auto-recovered 18:15:22

过滤后:应用规则

[SUPPRESSED] EIP bandwidth 92%
Duration 2m 22s < 5min -> no notification
[SUPPRESSED] EIP bandwidth 94%
Duration 1m 27s < 5min -> no notification
[SUPPRESSED] EIP bandwidth 91%
Duration 1m 28s < 5min -> no notification
[SUPPRESSED] EIP bandwidth 93%
Duration 2m 37s < 5min -> no notification
[NOTIFIED] EIP bandwidth 95%
Duration 3m 15s >= 5min -> NOTIFY
结果:5条告警中4条被抑制。只有持续时间超过5分钟的问题才会触发通知。

聚合前:告警轰炸

[09:00] ECI disk 91%
[09:03] ECI disk 92%
[09:07] ECI disk 91%
[09:11] ECI disk 93%
[09:15] ECI disk 92%

聚合后:合并通知

[AGGREGATED] ECI Disk Alert

This alert fired 5 times in the last 15 minutes

First: 09:00, Latest: 09:15

Highest value: 93%

Current status: Auto-recovered

P0 - Emergency
Service Down / Data Loss / Security
Phone + SMS + DingTalk
P1 - Important
Performance / Sustained Resource Issue
DingTalk + Page Duty
P2 - General
Auto-Recovered / Threshold Breach
Daily Digest Email
P3 - Info
Upgrade / Quota / Billing
Info Channel (Async)