Собирать метрики памяти, диска и процессов из парка EC2. Стандартные метрики CloudWatch их не включают.
→Установите агент CloudWatch через SSM Distributor или команду Run `AmazonCloudWatch-ManageAgent`. Отправьте конфигурацию агента из Parameter Store.
Почему: Метрики памяти и диска являются метриками гостевой ОС — гипервизор их не видит. Стандартные метрики CW — это только CPU/сеть/дисковый ввод-вывод на уровне EBS.
Источник↗
Приложению необходимо публиковать бизнес-KPI (например, заказы/мин) в CloudWatch.
→API `PutMetricData` с пользовательским пространством имен + измерениями. Для большого объема используйте Embedded Metric Format (EMF) — записывайте структурированный JSON в логи, а CW автоматически извлекает метрики.
Источник↗
Снизить стоимость пользовательских метрик с высокой кардинальностью.
→Embedded Metric Format (EMF). Запишите структурированное событие один раз; CW извлекает из него метрики. Один лог + одна метрика = дешевле, чем отдельные вызовы `PutMetricData` для каждой комбинации измерений.
Источник↗
Аварийные сигналы со статическим порогом дают ложные срабатывания, потому что трафик имеет дневную/недельную сезонность.
→Сигнал обнаружения аномалий CloudWatch. Диапазоны адаптируются к изученной сезонности; сигнал срабатывает, когда метрика выходит за пределы диапазона.
Почему: Сезонные рабочие нагрузки имеют переменную норму — фиксированные пороги ошибочны половину времени.
Источник↗
Оповещать дежурного только тогда, когда И высокий процент ошибок, И низкий трафик — а не когда срабатывает что-то одно.
→Композитный сигнал с выражением правила `ALARM(errors) AND ALARM(low_traffic)`. Базовые сигналы по-прежнему срабатывают индивидуально, но только композитный отправляет уведомления в SNS.
Источник↗
Преобразовать строки логов типа `ERROR uid=123` в метрику CloudWatch для оповещения.
→Метрический фильтр CloudWatch Logs — шаблон `ERROR` увеличивает метрику. Затем создайте сигнал на основе этой метрики.
Почему: Фильтры оцениваются по мере поступления логов; отдельный конвейер парсинга не требуется.
Источник↗
Найти 10 лучших IP-адресов, вызывающих ошибки 5xx за последний час, по многим потокам логов.
→Запрос CloudWatch Logs Insights: `fields @timestamp, @message | filter @message like /5\d\d/ | stats count() by clientIp | sort count desc | limit 10`.
Источник↗
Срок хранения группы логов по умолчанию установлен как "Никогда не истекает" — счет растет.
→Установите срок хранения для каждой группы логов (от 1 дня до 10 лет). Примените через `aws logs put-retention-policy` или правило AWS Config, которое автоматически устраняет новые группы.
Источник↗
Централизовать логи из 50 аккаунтов в один аккаунт безопасности.
→Фильтр подписки на каждой исходной группе логов → Kinesis Data Streams или Firehose в центральном аккаунте. CloudWatch cross-account observability для метрик + трассировок.
Источник↗
Долгосрочный архив логов с низкой стоимостью.
→Подпишите группу логов на Kinesis Firehose → S3 с жизненным циклом перехода в Glacier. Или запланированная `CreateExportTask` непосредственно в S3.
Почему: Firehose непрерывен; ExportTask — это массовый экспорт по требованию. S3 + Glacier в 100 раз дешевле, чем хранилище CW Logs.
Источник↗
Поделиться операционной панелью с подрядчиком без доступа IAM.
→CloudWatch Dashboard Sharing — публичная ссылка для общего доступа (с аутентификацией, предоставляемой Cognito) или анонимная (привязана к конкретной панели).
Источник↗
Запустить Lambda, когда инстанс EC2 переходит в состояние `stopped`.
→Правило EventBridge с шаблоном события `{"source":["aws.ec2"],"detail-type":["EC2 Instance State-change Notification"],"detail":{"state":["stopped"]}}` → целевая Lambda.
Источник↗
Автоматически создавать тикет при объявлении AWS планового обслуживания для одного из ваших инстансов RDS.
→AWS Health → шина событий EventBridge по умолчанию → Lambda или SNS → система тикетов. Фильтруйте по `source: aws.health` и затронутому ресурсу.
Источник↗
Обнаружить 404 ошибки на публичном веб-сайте до того, как клиенты начнут жаловаться.
→CloudWatch Synthetics Canary — скриптовый заход браузера каждую минуту, скриншот при сбое, сигнал при неудачных запусках.
Источник↗
Измерить время загрузки страниц на стороне браузера и ошибки JavaScript от реальных пользователей.
→CloudWatch RUM. Фрагмент кода на странице отправляет данные о производительности + ошибках. Используйте в паре с X-Ray для корреляции с бэкендом.
Источник↗
Правильно подобрать размер парка EC2 без ручной проверки CloudWatch на каждом инстансе.
→AWS Compute Optimizer — анализирует метрики CW + данные о памяти (с агентом) и рекомендует изменения типа инстансов. Охватывает EC2, ASG, EBS, Lambda, ECS Fargate.
Источник↗
Посмотреть, включено ли шифрование в состоянии покоя на каждом томе EBS в 200 аккаунтах.
→Агрегатор AWS Config с многоаккаунтной и многорегиональной авторизацией. Панели агрегатора + расширенные запросы (SQL).
Источник↗
Автоматически исправлять несоответствующие ресурсы (например, незашифрованный том EBS → снимок + повторное создание зашифрованного).
→Правило AWS Config + автоматическое действие по исправлению через SSM Automation runbook. Укажите количество повторных попыток + параметры.
Источник↗
Выявлять возможности экономии средств и риски безопасности без написания пользовательских скриптов.
→AWS Trusted Advisor. Проверки стоимости / производительности / безопасности / отказоустойчивости / лимитов сервисов. Полный набор проверок требует подписки Business или Enterprise Support.
Источник↗
Необходимо увеличить квоту vCPU EC2 в регионе для предстоящего запуска.
→Консоль Service Quotas — запросить увеличение квоты. Или использовать API Service Quotas для автоматизации. Некоторые квоты одобряются автоматически; другие проходят через Support.
Источник↗
Выявить неожиданные всплески затрат до получения ежемесячного счета.
→AWS Cost Anomaly Detection — на основе машинного обучения; настройте мониторы для каждого сервиса / связанного аккаунта / категории затрат. Оповещения через SNS или email.
Источник↗
Автоматически останавливать непромышленные EC2, если месячный бюджет превышает порог.
→Действие AWS Budgets — при превышении порога запустить SSM Automation, который останавливает инстансы с тегами или применяет SCP deny-all через IAM.
Источник↗