Coletar métricas de memória, disco e processo de uma frota EC2. As métricas padrão do CloudWatch não as incluem.
→Instalar o agente CloudWatch via SSM Distributor ou comando `AmazonCloudWatch-ManageAgent` Run Command. Enviar configuração do agente do Parameter Store.
Por quê: Memória e disco são métricas do sistema operacional convidado — o hipervisor não consegue vê-las. As métricas padrão do CW são apenas CPU/rede/IO de disco na camada EBS.
Referência↗
O aplicativo precisa publicar um KPI de negócio (ex: pedidos/min) no CloudWatch.
→API `PutMetricData` com namespace personalizado + dimensões. Para alto volume, use o formato de métrica incorporado (EMF) — escreva JSON estruturado nos logs e o CW extrai métricas automaticamente.
Referência↗
Reduzir o custo de métricas personalizadas de alta cardinalidade.
→Formato de Métrica Incorporado (EMF). Registre um evento estruturado uma vez; o CW extrai métricas dele. Um log + uma métrica = mais barato do que chamadas `PutMetricData` separadas por combinação de dimensão.
Referência↗
Alarmes de limite estático produzem falsos positivos porque o tráfego tem sazonalidade diária/semanal.
→Alarme de detecção de anomalias do CloudWatch. As bandas se adaptam à sazonalidade aprendida; o alarme dispara quando a métrica sai da banda.
Por quê: Cargas de trabalho sazonais têm variações normais — limites fixos estão errados metade do tempo.
Referência↗
Chamar o plantão apenas quando AMBOS: alta taxa de erro E baixo tráfego — não quando qualquer um dispara sozinho.
→Alarme composto com expressão de regra `ALARM(errors) AND ALARM(low_traffic)`. Os alarmes subjacentes ainda disparam individualmente, mas apenas o composto notifica o SNS.
Referência↗
Converter linhas de log como `ERROR uid=123` em uma métrica do CloudWatch para alarme.
→Filtro de métrica do CloudWatch Logs — o padrão `ERROR` incrementa uma métrica. Em seguida, crie um alarme na métrica.
Por quê: Os filtros são avaliados conforme os logs são ingeridos; nenhuma pipeline de parsing separada é necessária.
Referência↗
Encontrar os 10 principais IPs causando erros 5xx na última hora em muitos fluxos de log.
→Consulta do CloudWatch Logs Insights: `fields @timestamp, @message | filter @message like /5\d\d/ | stats count() by clientIp | sort count desc | limit 10`.
Referência↗
A retenção do grupo de log padrão é "Nunca expirar" — a fatura está aumentando.
→Definir retenção por grupo de log (1 dia a 10 anos). Aplicar via `aws logs put-retention-policy` ou regra do AWS Config que remedia automaticamente novos grupos.
Referência↗
Centralizar logs de 50 contas em uma conta de segurança.
→Filtro de assinatura em cada grupo de log de origem → Kinesis Data Streams ou Firehose na conta central. Observabilidade entre contas do CloudWatch para métricas + rastreamentos.
Referência↗
Arquivo de log de longo prazo com baixo custo.
→Assinar o grupo de log ao Kinesis Firehose → S3 com ciclo de vida de transição para Glacier. Ou `CreateExportTask` agendado para S3 diretamente.
Por quê: Firehose é contínuo; ExportTask é uma exportação em massa sob demanda. S3 + Glacier é 100x mais barato que o armazenamento de logs do CW.
Referência↗
Compartilhar um dashboard de operações com um contratado não-AWS sem acesso IAM.
→Compartilhamento de Dashboard do CloudWatch — link de compartilhamento público (com autenticação fornecida pelo Cognito) ou anônimo (restrito a um dashboard específico).
Referência↗
Acionar uma Lambda quando uma instância EC2 entra no estado `stopped`.
→Regra do EventBridge com padrão de evento `{"source":["aws.ec2"],"detail-type":["EC2 Instance State-change Notification"],"detail":{"state":["stopped"]}}` → destino Lambda.
Referência↗
Criar automaticamente um ticket quando a AWS anuncia manutenção programada para uma de suas instâncias RDS.
→AWS Health → barramento padrão do EventBridge → Lambda ou SNS → sistema de tickets. Filtrar por `source: aws.health` e recurso afetado.
Referência↗
Detectar quando um site público retorna 404 antes que os clientes reclamem.
→Canary do CloudWatch Synthetics — hit de navegador scriptado a cada minuto, captura de tela em caso de falha, alarme em execuções falhas.
Referência↗
Medir tempos de carregamento de página no navegador e erros JavaScript de usuários reais.
→CloudWatch RUM. Snippet na página envia dados de desempenho + erro. Combinar com X-Ray para correlação de backend.
Referência↗
Dimensionar corretamente a frota EC2 sem verificar manualmente o CloudWatch em cada instância.
→AWS Compute Optimizer — analisa métricas CW + dados de memória (com agente) e recomenda alterações de tipo de instância. Abrange EC2, ASG, EBS, Lambda, ECS Fargate.
Referência↗
Verificar "a criptografia em repouso está ativada em cada volume EBS" em 200 contas.
→Agregador do AWS Config com autorização multi-conta multi-região. Dashboards do agregador + consultas avançadas (SQL).
Referência↗
Corrigir automaticamente recursos não conformes (ex: volume EBS não criptografado → snapshot + recriar criptografado).
→Regra do AWS Config + ação de remediação automática via runbook de automação do SSM. Especificar contagem de retentativas + parâmetros.
Referência↗
Identificar oportunidades de economia de custos e riscos de segurança sem escrever scripts personalizados.
→AWS Trusted Advisor. Verificações de Custo / Desempenho / Segurança / Tolerância a Falhas / Limites de Serviço. O conjunto completo de verificações requer suporte Business ou Enterprise.
Referência↗
Precisa aumentar a quota de vCPU do EC2 em uma região para um próximo lançamento.
→Console do Service Quotas — solicitar aumento de quota. Ou usar a API do Service Quotas para script. Algumas quotas são aprovadas automaticamente; outras passam pelo Suporte.
Referência↗
Detectar picos de custo inesperados antes da chegada da fatura mensal.
→Detecção de Anomalias de Custo da AWS — baseada em ML; configurar monitores por serviço / conta vinculada / categoria de custo. Alertas via SNS ou e-mail.
Referência↗
Parar automaticamente EC2 de não-produção se o orçamento mensal exceder o limite.
→Ação do AWS Budgets — no limite, executar uma Automação do SSM que para instâncias com tag ou aplica um SCP de negação total via IAM.
Referência↗