Sammeln Sie Speicher-, Festplatten- und Prozessmetriken von der EC2-Flotte. Standardmäßige CloudWatch-Metriken enthalten diese nicht.
→Installieren Sie den CloudWatch-Agenten über SSM Distributor oder den `AmazonCloudWatch-ManageAgent` Run Command. Übertragen Sie die Agent-Konfiguration aus dem Parameter Store.
Warum: Speicher und Festplatte sind Gast-Betriebssystem-Metriken – der Hypervisor kann sie nicht sehen. Standardmäßige CW-Metriken sind nur CPU-/Netzwerk-/Festplatten-E/A auf der EBS-Ebene.
Referenz↗
Die Anwendung muss einen Geschäfts-KPI (z. B. Bestellungen/Min.) an CloudWatch veröffentlichen.
→`PutMetricData` API mit benutzerdefiniertem Namespace + Dimensionen. Für hohe Volumina das Embedded Metric Format (EMF) verwenden – strukturiertes JSON in Logs schreiben, und CW extrahiert Metriken automatisch.
Referenz↗
Kosten für benutzerdefinierte Metriken mit hoher Kardinalität senken.
→Embedded Metric Format (EMF). Ein strukturiertes Ereignis einmal protokollieren; CW extrahiert daraus Metriken. Ein Log + eine Metrik = günstiger als separate `PutMetricData`-Aufrufe pro Dimensionskombination.
Referenz↗
Statische Schwellenwertalarme erzeugen Fehlalarme, da der Datenverkehr eine tägliche/wöchentliche Saisonalität aufweist.
→CloudWatch-Anomalieerkennungsalarm. Bänder passen sich an gelernte Saisonalität an; Alarm wird ausgelöst, wenn die Metrik das Band verlässt.
Warum: Saisonale Workloads haben einen variablen Normalbereich – feste Schwellenwerte sind die Hälfte der Zeit falsch.
Referenz↗
Bereitschaftsdienst nur benachrichtigen, wenn SOWOHL eine hohe Fehlerrate ALS AUCH geringer Datenverkehr vorliegen – nicht, wenn nur einer davon ausgelöst wird.
→Zusammengesetzter Alarm mit Regelausdruck `ALARM(errors) AND ALARM(low_traffic)`. Zugrunde liegende Alarme werden weiterhin einzeln ausgelöst, aber nur der zusammengesetzte Alarm benachrichtigt SNS.
Referenz↗
Log-Zeilen wie `ERROR uid=123` in eine CloudWatch-Metrik für Alarme umwandeln.
→CloudWatch Logs-Metrikfilter – Muster `ERROR` erhöht eine Metrik. Anschließend einen Alarm auf die Metrik erstellen.
Warum: Filter werden bei der Log-Erfassung ausgewertet; keine separate Parsing-Pipeline erforderlich.
Referenz↗
Finden Sie die Top 10 IPs, die in der letzten Stunde über viele Log-Streams hinweg 5xx-Fehler verursachen.
→CloudWatch Logs Insights-Abfrage: `fields @timestamp, @message | filter @message like /5\d\d/ | stats count() by clientIp | sort count desc | limit 10`.
Referenz↗
Die Aufbewahrung von Log-Gruppen ist standardmäßig auf „Nie ablaufen“ eingestellt – die Rechnung wächst.
→Legen Sie die Aufbewahrung pro Log-Gruppe fest (1 Tag–10 Jahre). Anwendung über `aws logs put-retention-policy` oder eine AWS Config-Regel, die neue Gruppen automatisch korrigiert.
Referenz↗
Logs von 50 Konten in einem Sicherheitskonto zentralisieren.
→Abonnementfilter für jede Quell-Log-Gruppe → Kinesis Data Streams oder Firehose im zentralen Konto. CloudWatch Cross-Account-Observability für Metriken + Traces.
Referenz↗
Langzeit-Log-Archivierung zu geringen Kosten.
→Log-Gruppe an Kinesis Firehose → S3 mit Glacier-Übergangs-Lifecycle abonnieren. Oder geplante `CreateExportTask` direkt nach S3.
Warum: Firehose ist kontinuierlich; ExportTask ist ein On-Demand-Massenexport. S3 + Glacier ist 100x günstiger als CW Logs-Speicher.
Referenz↗
Ein Ops-Dashboard mit einem Nicht-AWS-Auftragnehmer ohne IAM-Zugriff teilen.
→CloudWatch Dashboard Sharing – öffentlicher Freigabelink (mit Authentifizierung über Cognito) oder anonym (auf spezifisches Dashboard beschränkt).
Referenz↗
Lambda auslösen, wenn eine EC2-Instanz den Status `stopped` erreicht.
→EventBridge-Regel mit Ereignismuster `{"source":["aws.ec2"],"detail-type":["EC2 Instance State-change Notification"],"detail":{"state":["stopped"]}}` → Lambda-Ziel.
Referenz↗
Automatisches Erstellen eines Tickets, wenn AWS eine geplante Wartung für eine Ihrer RDS-Instanzen ankündigt.
→AWS Health → EventBridge Standardbus → Lambda oder SNS → Ticketsystem. Filter nach `source: aws.health` und betroffener Ressource.
Referenz↗
Erkennen, wenn die öffentliche Website 404-Fehler zurückgibt, bevor Kunden sich beschweren.
→CloudWatch Synthetics Canary – geskripteter Browser-Zugriff jede Minute, Screenshot bei Fehler, Alarm bei fehlgeschlagenen Läufen.
Referenz↗
Browserseitige Seitenladezeiten und JavaScript-Fehler von echten Benutzern messen.
→CloudWatch RUM. Code-Snippet auf der Seite sendet Performance- + Fehlerdaten. Mit X-Ray für Backend-Korrelation koppeln.
Referenz↗
EC2-Flotte richtig dimensionieren, ohne CloudWatch manuell auf jeder Instanz zu überprüfen.
→AWS Compute Optimizer – analysiert CW-Metriken + Speicherdaten (mit Agent) und empfiehlt Änderungen des Instanztyps. Umfasst EC2, ASG, EBS, Lambda, ECS Fargate.
Referenz↗
Prüfen Sie, ob „Verschlüsselung im Ruhezustand auf jedem EBS-Volume aktiviert ist“ über 200 Konten hinweg.
→AWS Config Aggregator mit Multi-Account-Multi-Region-Autorisierung. Aggregator-Dashboards + erweiterte Abfragen (SQL).
Referenz↗
Nicht-konforme Ressourcen automatisch korrigieren (z. B. unverschlüsseltes EBS-Volume → Snapshot + verschlüsselt neu erstellen).
→AWS Config-Regel + automatische Korrekturaktion über SSM Automation Runbook. Wiederholungsanzahl + Parameter angeben.
Referenz↗
Kosteneinsparungspotenziale und Sicherheitsrisiken ohne benutzerdefinierte Skripte aufzeigen.
→AWS Trusted Advisor. Prüfungen für Kosten / Leistung / Sicherheit / Fehlertoleranz / Dienstlimits. Der vollständige Prüfsatz erfordert Business- oder Enterprise-Support.
Referenz↗
Muss das EC2 vCPU-Kontingent in einer Region für einen bevorstehenden Start erhöhen.
→Service Quotas-Konsole – Kontingenterhöhung anfordern. Oder Service Quotas API für Skriptnutzung verwenden. Einige Kontingente werden automatisch genehmigt; andere durchlaufen den Support.
Referenz↗
Unerwartete Kostensteigerungen abfangen, bevor die Monatsrechnung eintrifft.
→AWS Cost Anomaly Detection – ML-basiert; Monitore pro Dienst / verknüpftem Konto / Kostenkategorie konfigurieren. Warnungen über SNS oder E-Mail.
Referenz↗
Nicht-Produktions-EC2s automatisch stoppen, wenn das Monatsbudget den Schwellenwert überschreitet.
→AWS Budgets-Aktion – bei Überschreitung des Schwellenwerts eine SSM Automation ausführen, die getaggte Instanzen stoppt oder eine Deny-All-SCP über IAM anwendet.
Referenz↗