Collecter les métriques de mémoire, de disque et de processus depuis la flotte EC2. Les métriques CloudWatch par défaut ne les incluent pas.
→Installer l'agent CloudWatch via SSM Distributor ou la commande `AmazonCloudWatch-ManageAgent` Run Command. Pousser la configuration de l'agent depuis Parameter Store.
Pourquoi: La mémoire et le disque sont des métriques du système d'exploitation invité – l'hyperviseur ne peut pas les voir. Les métriques CW par défaut sont uniquement le CPU/réseau/E/S disque au niveau EBS.
Référence↗
L'application doit publier un indicateur clé de performance (KPI) métier (par exemple, commandes/min) vers CloudWatch.
→API `PutMetricData` avec un espace de noms et des dimensions personnalisés. Pour les volumes élevés, utilisez le format de métrique intégré (EMF) — écrivez du JSON structuré dans les journaux et CW extrait automatiquement les métriques.
Référence↗
Réduire le coût des métriques personnalisées à forte cardinalité.
→Format de métrique intégré (EMF). Enregistrez un événement structuré une seule fois ; CW en extrait les métriques. Un journal + une métrique = moins cher que des appels `PutMetricData` distincts pour chaque combinaison de dimensions.
Référence↗
Les alarmes à seuil statique produisent des faux positifs car le trafic présente une saisonnalité quotidienne/hebdomadaire.
→Alarme de détection d'anomalies CloudWatch. Les bandes s'adaptent à la saisonnalité apprise ; l'alarme se déclenche lorsque la métrique quitte la bande.
Pourquoi: Les charges de travail saisonnières ont une normalité variable — les seuils fixes sont faux la moitié du temps.
Référence↗
Alerter l'astreinte uniquement lorsque le taux d'erreur est élevé ET le trafic est faible — et non lorsque l'un ou l'autre se déclenche seul.
→Alarme composite avec l'expression de règle `ALARM(errors) AND ALARM(low_traffic)`. Les alarmes sous-jacentes se déclenchent toujours individuellement, mais seule l'alarme composite notifie SNS.
Référence↗
Convertir les lignes de journal comme `ERROR uid=123` en une métrique CloudWatch pour les alarmes.
→Filtre de métrique CloudWatch Logs — le modèle `ERROR` incrémente une métrique. Ensuite, créez une alarme sur cette métrique.
Pourquoi: Les filtres sont évalués lors de l'ingestion des journaux ; aucune pipeline d'analyse séparée n'est nécessaire.
Référence↗
Trouver les 10 principales adresses IP causant des erreurs 5xx au cours de la dernière heure à travers de nombreux flux de journaux.
→Requête CloudWatch Logs Insights : `fields @timestamp, @message | filter @message like /5\d\d/ | stats count() by clientIp | sort count desc | limit 10`.
Référence↗
La rétention des groupes de journaux est définie par défaut sur "Ne jamais expirer" — la facture augmente.
→Définir la rétention par groupe de journaux (1 jour – 10 ans). Appliquer via `aws logs put-retention-policy` ou une règle AWS Config qui remédie automatiquement aux nouveaux groupes.
Référence↗
Centraliser les journaux de 50 comptes dans un seul compte de sécurité.
→Filtre d'abonnement sur chaque groupe de journaux source → Kinesis Data Streams ou Firehose dans le compte central. Observabilité inter-comptes CloudWatch pour les métriques + les traces.
Référence↗
Archivage de journaux à long terme à faible coût.
→Abonner le groupe de journaux à Kinesis Firehose → S3 avec cycle de vie de transition vers Glacier. Ou `CreateExportTask` planifiée vers S3 directement.
Pourquoi: Firehose est continu ; ExportTask est une exportation en masse à la demande. S3 + Glacier est 100 fois moins cher que le stockage CW Logs.
Référence↗
Partager un tableau de bord d'opérations avec un contractuel non-AWS sans accès IAM.
→Partage de tableau de bord CloudWatch — lien de partage public (avec authentification fournie par Cognito) ou anonyme (verrouillé à un tableau de bord spécifique).
Référence↗
Déclencher Lambda lorsqu'une instance EC2 passe à l'état `stopped`.
→Règle EventBridge avec un modèle d'événement `{"source":["aws.ec2"],"detail-type":["EC2 Instance State-change Notification"],"detail":{"state":["stopped"]}}` → cible Lambda.
Référence↗
Créer automatiquement un ticket lorsque AWS annonce une maintenance planifiée pour l'une de vos instances RDS.
→AWS Health → bus par défaut EventBridge → Lambda ou SNS → système de tickets. Filtrer sur `source: aws.health` et la ressource affectée.
Référence↗
Détecter quand un site web public renvoie des erreurs 404 avant que les clients ne se plaignent.
→Canary CloudWatch Synthetics — simulation de navigateur scriptée chaque minute, capture d'écran en cas d'échec, alarme sur les exécutions échouées.
Référence↗
Mesurer les temps de chargement de page côté navigateur et les erreurs JavaScript des utilisateurs réels.
→CloudWatch RUM. Un extrait de code sur la page envoie les données de performance + d'erreur. À coupler avec X-Ray pour la corrélation back-end.
Référence↗
Dimensionner correctement la flotte EC2 sans vérifier manuellement CloudWatch sur chaque instance.
→AWS Compute Optimizer — analyse les métriques CW + les données de mémoire (avec agent) et recommande des modifications de type d'instance. Couvre EC2, ASG, EBS, Lambda, ECS Fargate.
Référence↗
Vérifier si "le chiffrement au repos est activé sur chaque volume EBS" à travers 200 comptes.
→Agrégateur AWS Config avec autorisation multi-comptes multi-régions. Tableaux de bord de l'agrégateur + requêtes avancées (SQL).
Référence↗
Corriger automatiquement les ressources non conformes (par exemple, volume EBS non chiffré → instantané + recréer chiffré).
→Règle AWS Config + action de correction automatique via un runbook SSM Automation. Spécifiez le nombre de tentatives + les paramètres.
Référence↗
Mettre en évidence les opportunités d'économies de coûts et les risques de sécurité sans écrire de scripts personnalisés.
→AWS Trusted Advisor. Vérifications des coûts / performances / sécurité / tolérance aux pannes / limites de service. L'ensemble complet des vérifications nécessite un support Business ou Enterprise.
Référence↗
Nécessité d'augmenter le quota de vCPU EC2 dans une région pour un lancement à venir.
→Console Service Quotas — demander une augmentation de quota. Ou utiliser l'API Service Quotas pour script. Certains quotas sont approuvés automatiquement ; d'autres passent par le Support.
Référence↗
Détecter les pics de coûts inattendus avant l'arrivée de la facture mensuelle.
→AWS Cost Anomaly Detection — basé sur le ML ; configurer des moniteurs par service / compte lié / catégorie de coûts. Alertes via SNS ou e-mail.
Référence↗
Arrêter automatiquement les instances EC2 hors production si le budget mensuel dépasse le seuil.
→Action AWS Budgets — au seuil, exécuter une automatisation SSM qui arrête les instances taguées ou applique une SCP de refus total via IAM.
Référence↗