Recopile métricas de memoria, disco y proceso de la flota EC2. Las métricas predeterminadas de CloudWatch no las incluyen.
→Instale el agente de CloudWatch a través de SSM Distributor o el comando `AmazonCloudWatch-ManageAgent` Run Command. Envíe la configuración del agente desde Parameter Store.
Por qué: La memoria y el disco son métricas del sistema operativo huésped; el hipervisor no puede verlas. Las métricas predeterminadas de CW son solo CPU/red/IO de disco en la capa de EBS.
Referencia↗
La aplicación necesita publicar un KPI de negocio (p. ej., pedidos/min) en CloudWatch.
→API `PutMetricData` con namespace + dimensiones personalizadas. Para un alto volumen, use el formato de métrica incrustada (EMF) — escriba JSON estructurado en los logs y CW extrae las métricas automáticamente.
Referencia↗
Reducir el costo de las métricas personalizadas de alta cardinalidad.
→Formato de Métrica Incrustada (EMF). Registre un evento estructurado una vez; CW extrae las métricas de él. Un log + una métrica = más barato que llamadas `PutMetricData` separadas por cada combinación de dimensiones.
Referencia↗
Las alarmas de umbral estático producen falsos positivos porque el tráfico tiene estacionalidad diaria/semanal.
→Alarma de detección de anomalías de CloudWatch. Las bandas se adaptan a la estacionalidad aprendida; la alarma se activa cuando la métrica sale de la banda.
Por qué: Las cargas de trabajo estacionales tienen un comportamiento normal variable — los umbrales fijos son incorrectos la mitad del tiempo.
Referencia↗
Notificar al equipo de guardia solo cuando HAYA alta tasa de errores Y bajo tráfico — no cuando cualquiera de las dos se dispare sola.
→Alarma compuesta con expresión de regla `ALARM(errors) AND ALARM(low_traffic)`. Las alarmas subyacentes se activan individualmente, pero solo la compuesta notifica a SNS.
Referencia↗
Convertir líneas de registro como `ERROR uid=123` en una métrica de CloudWatch para generar alarmas.
→Filtro de métricas de CloudWatch Logs — el patrón `ERROR` incrementa una métrica. Luego, cree una alarma sobre la métrica.
Por qué: Los filtros se evalúan a medida que se ingieren los logs; no se necesita una pipeline de parsing separada.
Referencia↗
Encuentre las 10 principales IP que causan errores 5xx en la última hora en muchas transmisiones de logs.
→Consulta de CloudWatch Logs Insights: `fields @timestamp, @message | filter @message like /5\d\d/ | stats count() by clientIp | sort count desc | limit 10`.
Referencia↗
La retención del grupo de logs por defecto es "Nunca expira" — la factura está creciendo.
→Establezca la retención por grupo de logs (1 día–10 años). Aplíquelo a través de `aws logs put-retention-policy` o una regla de AWS Config que auto-remedia nuevos grupos.
Referencia↗
Centralizar logs de 50 cuentas en una cuenta de seguridad.
→Filtro de suscripción en cada grupo de logs de origen → Kinesis Data Streams o Firehose en la cuenta central. Observabilidad entre cuentas de CloudWatch para métricas + trazas.
Referencia↗
Archivo de logs a largo plazo a bajo costo.
→Suscribir grupo de logs a Kinesis Firehose → S3 con ciclo de vida de transición a Glacier. O `CreateExportTask` programada directamente a S3.
Por qué: Firehose es continuo; ExportTask es una exportación masiva bajo demanda. S3 + Glacier es 100 veces más barato que el almacenamiento de CW Logs.
Referencia↗
Compartir un dashboard de operaciones con un contratista no-AWS sin acceso IAM.
→Compartir Dashboard de CloudWatch — enlace compartido público (con autenticación proporcionada por Cognito) o anónimo (bloqueado a un dashboard específico).
Referencia↗
Activar una Lambda cuando una instancia EC2 pase al estado `stopped`.
→Regla de EventBridge con patrón de evento `{"source":["aws.ec2"],"detail-type":["EC2 Instance State-change Notification"],"detail":{"state":["stopped"]}}` → destino Lambda.
Referencia↗
Crear automáticamente un ticket cuando AWS anuncie mantenimiento programado para una de sus instancias RDS.
→AWS Health → bus predeterminado de EventBridge → Lambda o SNS → sistema de tickets. Filtrar por `source: aws.health` y recurso afectado.
Referencia↗
Detectar cuando un sitio web público devuelve errores 404 antes de que los clientes se quejen.
→Canary de CloudWatch Synthetics — visita de navegador programada cada minuto, captura de pantalla en caso de fallo, alarma en ejecuciones fallidas.
Referencia↗
Medir los tiempos de carga de página del lado del navegador y los errores de JavaScript de usuarios reales.
→CloudWatch RUM. Un fragmento de código en la página envía datos de rendimiento + error. Combine con X-Ray para correlación de backend.
Referencia↗
Dimensionar correctamente la flota EC2 sin verificar manualmente CloudWatch en cada instancia.
→AWS Compute Optimizer — analiza métricas de CW + datos de memoria (con agente) y recomienda cambios de tipo de instancia. Cubre EC2, ASG, EBS, Lambda, ECS Fargate.
Referencia↗
Ver "está habilitado el cifrado en reposo en cada volumen EBS" en 200 cuentas.
→Agregador de AWS Config con autorización multi-cuenta y multi-región. Dashboards de agregación + consultas avanzadas (SQL).
Referencia↗
Corregir automáticamente recursos no conformes (p. ej., volumen EBS sin cifrar → instantánea + recrear cifrado).
→Regla de AWS Config + acción de remediación automática a través de un runbook de SSM Automation. Especifique el número de reintentos + parámetros.
Referencia↗
Mostrar oportunidades de ahorro de costos y riesgos de seguridad sin escribir scripts personalizados.
→AWS Trusted Advisor. Comprobaciones de Costo / Rendimiento / Seguridad / Tolerancia a Fallos / Límites de Servicio. El conjunto completo de comprobaciones requiere soporte Business o Enterprise.
Referencia↗
Necesidad de aumentar la cuota de vCPU de EC2 en una región para un próximo lanzamiento.
→Consola de Service Quotas — solicitar aumento de cuota. O usar la API de Service Quotas para scripting. Algunas cuotas se aprueban automáticamente; otras pasan por Soporte.
Referencia↗
Detectar picos de costos inesperados antes de que llegue la factura mensual.
→Detección de Anomalías de Costos de AWS — basado en ML; configure monitores por servicio / cuenta vinculada / categoría de costo. Alertas a través de SNS o correo electrónico.
Referencia↗
Detener automáticamente EC2 no-productivo si el presupuesto mensual excede el umbral.
→Acción de AWS Budgets — al alcanzar el umbral, ejecutar una Automatización de SSM que detenga las instancias etiquetadas o aplique un SCP de denegación total a través de IAM.
Referencia↗