navigation

自动化创建告警介绍

AWS很多服务都提供了监控数据,并可以在Cloudwatch Alarm创建对应的告警。但默认没有批量创建告警的功能,这给用户带来了一定的配置成本;另外为某个资源配置告警后,如果资源被删除,对应配置的告警不会被自动删除的;新增资源时,也需要为其重新配置告警,特别是在AutoScaling的场景下,手动创建告警是不现实的


本Workshop实现了「自动创建告警」的可行方案,可作为一种思路参考:

  1. 为某项服务的所有集群 / 实例指标统一配置告警。例如为 EC2 配置持续5分钟 CPU 利用率超过90%的告警等(只要求该服务的实例支持CloudWatch监控);
  2. 创建某项服务的资源时,自动创建对应的告警;
  3. 删除该服务的资源时,自动删除对应的告警配置;
  4. 如现在已经为该服务的某个实例配置了对应的告警,此方案会将该实例加入白名单,不额外配置告警,也不会覆盖现有的告警设置;

告警效果:

img