🏠Startseite 📚Zertifizierungen 📱Mobile Apps

🎓Prüfungsinfo

✍️Blog 📊Fortschritt 📅Kalender 💬Support

Datenschutzrichtlinie Nutzungsbedingungen Kontakt Cookie-Richtlinie Haftungsausschluss Barrierefreiheit DMCA / Urheberrecht

Zum Inhalt springen

DEA-C01Handbuch

Handbuch

AWS Certified Data Engineer Associate

Zuletzt überprüft: Mai 2026

Eine übersichtliche Referenz der Architekturmuster, die in der DEA-C01-Prüfung getestet werden. Von oben nach unten lesen oder zu einem Abschnitt springen.

Abschnitte

Datenerfassung und -transformation35 Einträge
Datenspeicherverwaltung26 Einträge
Datenoperationen und -support20 Einträge
Datensicherheit und Governance17 Einträge

Datenerfassung und -transformation

Wählen Sie einen Kinesis-Dienst für die Streaming-Erfassung.

Verarbeitung im Sub-Sekunden-Bereich, vom Consumer gesteuert → Kinesis Data Streams. Vollständig verwaltete Lieferung an S3/Redshift/OpenSearch mit optionaler Formatkonvertierung → Kinesis Data Firehose.

Warum: KDS speichert Datensätze (24h–365d) und unterstützt mehrere Consumer. Firehose hat keine Wiederholungsmöglichkeit; tauscht Wiederholung gegen Zero-Ops-Lieferung ein.

Der Stream erreicht während der Spitzenlast ProvisionedThroughputExceeded-Fehler.

Resharding. Jeder Shard unterstützt 1 MB/s oder 1.000 Datensätze/s Ingest, 2 MB/s Egress. Verwenden Sie einheitliche Partitionsschlüssel; aktivieren Sie Enhanced Fan-Out für >2 MB/s pro Consumer.

Warum: Hot-Partitionsschlüssel konzentrieren den Traffic auf einen Shard. Zufällige oder Hash-basierte Schlüssel verteilen die Last.

Streaming-Workload ist sprunghaft und unvorhersehbar; manuelles Resharding ist operativer Aufwand.

Kinesis Data Streams im On-Demand-Kapazitätsmodus. Skaliert standardmäßig automatisch auf 200 MB/s; Abrechnung pro Datenvolumen.

Mehrere Consumer, die denselben Stream lesen, erreichen das Leselimit von 2 MB/s/Shard.

Enhanced Fan-Out. Jeder Consumer erhält dedizierte 2 MB/s/Shard über Push-basiertes HTTP/2 SubscribeToShard.

Maximieren Sie den Ingest-Durchsatz von der Producer-seitigen Anwendung.

Kinesis Producer Library (KPL) mit Aggregation + Sammlung. Batcht mehrere Benutzerdatensätze zu einem Kinesis-Datensatz bis zu 1 MB; reduziert die PUT-Kosten.

Warum: Einzeldatensatz PutRecord ist ratenbegrenzt und teuer bei 50k Ereignissen/s. KPL aggregiert clientseitig.

JSON-Clickstream in S3 als Parquet speichern, partitioniert nach Ereigniszeit.

Firehose mit Datensatzformatkonvertierung (JSON → Parquet) unter Verwendung einer Glue Data Catalog-Tabelle + dynamischer Partitionierung auf dem Ereignis-Timestamp.

Warum: Parquet + Partitionierung senkt die Athena-Scan-Kosten drastisch. Dynamische Partitionierung vermeidet einen separaten ETL-Schritt.

Einige Datensätze schlagen bei der Firehose-Transformation oder -Lieferung fehl; müssen für die Wiederholung erfasst werden.

S3-Backup mit `AllData` oder `FailedDataOnly` konfigurieren. Fehlgeschlagene Datensätze landen im konfigurierten Präfix mit Fehlermetadaten.

Stellen Sie sicher, dass in MSK keine Daten verloren gehen, wenn eine Broker-AZ ausfällt.

Replikationsfaktor ≥ 3 über 3 AZs und `min.insync.replicas=2` mit Producer `acks=all`. Aktivieren Sie Multi-AZ über ZooKeeper-loses KRaft oder 3-AZ Broker-Platzierung.

Streamen Sie von MSK nach S3, OpenSearch oder RDS, ohne einen Kafka Connect-Cluster verwalten zu müssen.

MSK Connect mit verwaltetem Connector (Confluent S3 Sink, Debezium für CDC). Skaliert Worker pro WCU automatisch.

Ein Thema speichert die neueste Version eines Datensatzes pro Schlüssel; alte Versionen können verworfen werden.

Setzen Sie `cleanup.policy=compact` für das Thema. Kafka behält den neuesten Wert für jeden Schlüssel; ältere Datensätze mit demselben Schlüssel können verdichtet werden.

Wiederkehrende wöchentliche Übertragung von 10 TB von On-Premises NFS nach S3 über Direct Connect.

AWS DataSync mit On-Premises-Agent + geplanter Aufgabe. Überprüft die Datenintegrität, unterstützt inkrementelle Übertragungen, parallel.

Warum: DataSync ist schneller als aws-cli sync und handhabt Bandbreitenbegrenzung, Wiederholungsversuche und Verifizierung nativ.

Daten von SaaS-APIs (Salesforce, ServiceNow, Zendesk) planmäßig in S3 ziehen.

AWS AppFlow. Verwaltete Konnektoren, OAuth wird gehandhabt, geplant oder ereignisgesteuert, schreibt Parquet nach S3.

Laufende Änderungen von On-Premises SQL Server auf Aurora MySQL mit minimaler Ausfallzeit replizieren.

AWS DMS mit Full-Load + CDC-Aufgabe. Verwenden Sie vor DMS das Schema Conversion Tool (SCT) für heterogene Schema-/Codekonvertierung.

DMS-Replikationsinstanz fällt aus — Replikation unterbricht.

Multi-AZ für die Replikationsinstanz aktivieren. Synchroner Standby in einer anderen AZ; automatisches Failover.

Benötigen Sie Analysen nahezu in Echtzeit auf OLTP Aurora-Daten ohne ETL-Pipeline.

Aurora Zero-ETL-Integration zu Redshift. Kontinuierliche Replikation von Aurora-Daten nach Redshift; Abfragen sehen neue Daten innerhalb von Sekunden.

Warum: Eliminiert DMS / Glue / benutzerdefinierte CDC-Pipelines für den OLTP-zu-Warehouse-Anwendungsfall.

100 TB historisches Archiv von On-Premises nach S3 verschieben; Bandbreite begrenzt.

AWS Snowball Edge Storage Optimized. Physisches Gerät wird zum Standort geliefert; Daten kopieren; zurücksenden.

Quell-JSON hat verschachtelte Arrays; nachgeschaltete relationale Analyse erfordert abgeflachte Zeilen.

Glue PySpark `Relationalize`-Transformation (oder `explode()` in DataFrame) glättet verschachtelte Arrays in separate Zeilen/Tabellen.

Glue Crawler leitet aus unordentlichen CSV-Daten mehrdeutige Typen (`choice<int,string>`) ab.

Wenden Sie die `ResolveChoice`-Transformation an – Umwandlung in spezifischen Typ oder Projektion in Struct. Oder beheben Sie dies an der Quelle durch Erzwingung eines Schemas.

Glue ETL-Job läuft stündlich auf wachsenden S3-Daten; es müssen nur neue Dateien verarbeitet werden.

Glue Job-Lesezeichen aktivieren. Glue verfolgt verarbeitete Dateien/Partitionen und überspringt diese bei erneuten Läufen.

Warum: Vermeidet die erneute Verarbeitung des gesamten Datensatzes. Erforderlich für inkrementelle ETL-Pipelines.

Glue Spark-Job schlägt mit OutOfMemoryError auf dem Driver während großer Aggregationen fehl.

Wechseln Sie zu G.2X- oder G.4X-Workern (mehr Driver-Speicher) oder aktivieren Sie `--enable-glue-datacatalog` Pushdown-Prädikate, um die Shuffle-Daten zu reduzieren.

Kontinuierliches Spark Structured Streaming gegen eine Kinesis-Quelle mit verwalteter Infrastruktur ausführen.

AWS Glue Streaming ETL-Job. Spark Structured Streaming unter der Haube; Checkpointing nach S3.

Business Analyst muss Daten bereinigen und transformieren, ohne Code schreiben zu müssen.

AWS Glue DataBrew. Visuelle rezeptbasierte Transformationen (250+), Profiling, Lineage. Ausgabe nach S3, Redshift, RDS.

Glue ETL-Job erst nach erfolgreicher Aktualisierung des Data Catalog durch Crawler ausführen.

Glue Workflow mit bedingten Triggern. Crawler-Erfolg → ETL-Job auslösen. Fehler → überspringen / alarmieren.

Crawler leitet alle CSV-Spalten als `string` ab — benötigt Datum- und Zahlentypen.

Fügen Sie vor dem Crawling einen benutzerdefinierten Glue-Klassifikator (Grok-Muster oder Spaltenhinweis) hinzu. Alternativ schreiben Sie eine Header-Zeile mit expliziten Typen vor.

Mehrere Producer/Consumer auf Kafka benötigen Schema-Evolution, ohne sich gegenseitig zu stören.

AWS Glue Schema Registry mit Kompatibilitätsregeln (BACKWARD/FORWARD/FULL). Producer registrieren Schema; Consumer holen + validieren.

Wählen Sie zwischen EMR und Glue für Spark ETL.

Langlaufendes benutzerdefiniertes Spark mit detaillierter Abstimmung, mehreren Frameworks (Hive, Presto, Flink) → EMR. Serverless Pay-per-Job ETL mit Glue Data Catalog-Integration → Glue. Sprunghaftes/unvorhersehbares Spark → EMR Serverless.

Intermittierende Spark/Hive-Jobs; gewünscht sind Zero Cluster Ops und keine Leerlaufzeiten.

EMR Serverless. Vorinitialisierte Kapazitätspools für Starts mit geringer Latenz; skaliert pro Job; Abrechnung pro vCPU-Stunde.

Mix aus On-Demand-Core- und Spot-Task-Nodes für kostenoptimiertes EMR.

Instance Fleets mit Zielkapazität pro Typ. Core-Flotte On-Demand für HDFS-Stabilität; Task-Flotte Spot mit diversifizierten Instanztypen.

Standardisierung auf Kubernetes; EMR Spark-Jobs sollen Cluster mit anderen Workloads teilen.

EMR on EKS. Spark läuft als Pods auf bestehendem EKS-Cluster; Infrastruktur und IAM-Rollen über IRSA teilen.

Zustandsbehaftetes Streaming mit Fenster-Aggregationen und Exactly-Once-Semantik.

Kinesis Data Analytics for Apache Flink. Verwaltete Flink-Laufzeit; Checkpoints nach S3; auto-skaliert.

Leichte Per-Record-Transformation auf einem Kinesis-Stream (<1 ms pro).

Lambda mit Event Source Mapping auf KDS. `BatchSize`, `MaximumBatchingWindowInSeconds` und `ParallelizationFactor` optimieren.

Warum: Lambda ist günstiger als KCL/Glue Streaming für kleine Per-Record-Arbeiten.

Step Functions-Schritt schlägt gelegentlich aufgrund vorübergehender Drosselung fehl; Wiederholung, dann Alarm.

`Retry`-Block hinzufügen mit `ErrorEquals: ["Lambda.ThrottlingException", "States.TaskFailed"]`, `IntervalSeconds`, `MaxAttempts`, `BackoffRate=2`. Plus `Catch` zu einem Benachrichtigungsstatus.

500.000 JSON-Dateien parallel über Lambda-Transformation verarbeiten.

Step Functions Distributed Map-Zustand mit `MaxConcurrency` und ItemReader von S3. Fan-out über Tausende paralleler Lambda-Aufrufe.

Komplexer DAG mit Cross-Service-Abhängigkeiten (Glue + Redshift COPY + Lambda + E-Mail) und Lineage-Anforderungen.

Amazon MWAA (Managed Workflows for Apache Airflow). Native Airflow-Operatoren für AWS-Dienste; Git-gesteuerte DAG-Synchronisation.

Müssen DAG-Änderungen zurücksetzen, falls eine Bereitstellung zu Fehlern führt.

DAGs in einem versionierten S3-Bucket speichern + Synchronisierung über S3-Versioning. Oder DAG-Repo in Git mit Environment-pro-Branch + S3-Synchronisierung über CI pflegen.

Datenspeicherverwaltung

Rohdaten 30 Tage lang häufig genutzt, gelegentlicher Zugriff für die nächsten 90 Tage, Archivierung für 7 Jahre.

S3 Lifecycle: 0–30 Tage Standard, Übergang nach 30 Tagen zu Standard-IA, Übergang nach 120 Tagen zu Glacier Flexible Retrieval, Ablauf nach 7 Jahren.

Unvorhersehbare Zugriffsmuster; manuelle Lifecycle-Richtlinie ist die falsche Wahl.

S3 Intelligent-Tiering. Verschiebt Objekte automatisch zwischen Häufig / Selten / Sofortiger Archivzugriff / Archiv / Deep Archive basierend auf dem Zugriffsmuster. Gebühr pro Objekt für die Überwachung; keine Abrufgebühren in Häufig/IA.

Athena-Abfragen auf dem Data Lake sind langsam; Partition enthält Tausende von 1-5 KB JSON-Dateien.

Kleine Dateien über Glue/EMR-Job zu ~256 MB Parquet-Dateien komprimieren. Verwenden Sie Iceberg `OPTIMIZE` oder Hudi Compaction für verwaltete Tabellenformate.

Warum: Athena/Spark Overhead pro Datei dominiert bei winzigen Dateien. Optimal sind ~128–512 MB Parquet.

Ein Bucket; mehrere Teams benötigen unterschiedliche präfixbezogene Zugriffsmuster.

S3 Access Points — benannter Endpunkt pro Team mit eigener, an ein Präfix gebundener Richtlinie. Einfacher als eine riesige Bucket-Richtlinie.

Verschiedene Consumer benötigen unterschiedliche Ansichten desselben S3-Objekts (redigierte PII, zusammengefasst).

S3 Object Lambda Access Point. GET-Anfrage ruft Lambda auf, das das Objekt on-the-fly transformiert; Consumer sieht die transformierte Ansicht.

Benötigen ACID-Transaktionen, Schema-Evolution und Zeitreise auf S3 Data Lake.

Apache Iceberg-Tabellen (Glue Catalog + S3-Speicher). Atomare Commits, MERGE/UPDATE/DELETE, Snapshot-Isolation, Partitions-Evolution.

Warum: Hive-ähnliches Append-Only S3 unterstützt keine Zeilen-Updates. Iceberg/Hudi/Delta lösen dies.

Mehrere Schreiber und Leser auf einer Data-Lake-Tabelle; benötigen transaktionale Konsistenz und Zeilen-Level-Zugriffskontrolle.

Lake Formation Governing Tables (Iceberg-basiert) mit LF-Tags für Berechtigungen.

Athena, Redshift Spectrum, EMR und Glue ETL benötigen alle einen gemeinsamen Metadaten-Speicher.

AWS Glue Data Catalog. Ein einziger Hive-kompatibler Metastore, der von jedem Analytics-Dienst genutzt wird.

Redshift-Cluster muss den Speicher unabhängig von der Rechenleistung skalieren.

RA3-Nodes mit verwaltetem Speicher (RMS). Speicher durch S3 unterstützt; Rechenleistung skaliert separat. Erforderlich für AQUA, Concurrency Scaling, Federated Queries.

Redshift-Abfragen filtern häufig nach `created_at`; Full-Table Scans sind langsam.

Definieren Sie einen Sortierschlüssel für `created_at` (oder einen zusammengesetzten Sortierschlüssel, der `created_at` enthält). Redshift verwendet Zonenkarten, um Blöcke während des Scans zu überspringen.

Häufige Joins zwischen `orders` und `order_items`; Abfrage-Shuffles verursachen Langsamkeit.

Verwenden Sie denselben DISTKEY (`order_id`) für beide Tabellen. Co-lokalisierte Zeilen vermeiden Netzwerk-Shuffle während des Joins.

Warum: KEY-Verteilung platziert zusammenführende Zeilen auf demselben Rechenknoten.

Das Laden von 32 gzip CSV-Dateien (~1 GB jeweils) in einen 4-Node Redshift-Cluster ist langsam.

COPY parallel aus einem einzigen Manifest. Ziel ist #Dateien = Vielfaches der Slice-Anzahl (Slices = Nodes × vCPU). 4 Nodes ra3.xlplus = 8 Slices → 32 Dateien = 4 pro Slice.

5 TB kalte Parquet-Daten in S3 mit heißen Redshift-Faktentabellen verbinden; wollen diese nicht laden.

Redshift Spectrum. Externe Tabellen im Glue Catalog; Abfragen lesen S3 direkt mit Redshift Compute.

Reporting-Team-Abfragen während der Spitzenzeit verlangsamen ETL-Workloads; beide laufen auf demselben Cluster.

Concurrency Scaling für die relevante WLM-Warteschlange aktivieren. Redshift leitet Überlaufabfragen transparent an skalierte Cluster weiter.

Dashboard-Abfrage verbindet wiederholt 3 große Tabellen und aggregiert; Latenz ist hoch.

Materialized View mit automatischer Aktualisierung. Redshift pflegt vorab berechnetes Ergebnis; Abfrage liest aus materialisierten Daten.

Intermittierende analytische Workload; provisionierter Cluster sitzt im Leerlauf.

Amazon Redshift Serverless. Stellt RPUs pro Workload automatisch bereit und skaliert sie; Abrechnung pro RPU-Stunde. Zero Ops.

Redshift-Daten mit Live Aurora MySQL-Daten ohne ETL verbinden.

Redshift Federated Queries. CREATE EXTERNAL SCHEMA, das auf Aurora zeigt; Abfragen pushen Prädikate über die Live RDS-Verbindung.

Dashboard verbindet bei jeder Darstellung Bestellungen + Kunden + Produkte; Sternschema ist zu langsam.

Denormalisieren Sie in eine breite Faktentabelle oder Materialized View. BI-Workloads bevorzugen Read-Time-Joins, die zur Write-Zeit aufgelöst werden.

S3-Partitionen nach `year/month/day/hour`; `MSCK REPAIR TABLE` dauert 30+ Minuten.

Athena Partition Projection aktivieren (keine Glue Catalog Partitionseinträge). Partitionsschlüsseltypen + Bereiche in Tabelleneigenschaften definieren.

Warum: Athena berechnet Partitionsorte zur Abfragezeit aus den Projektionsregeln – kein MSCK, keine Glue API-Drosselung.

Athena-Abfrageergebnisse in einem Vorgang nach Parquet konvertieren, partitioniert.

CREATE TABLE AS SELECT (CTAS) mit `format=PARQUET`, `partitioned_by=ARRAY['region']`, `external_location` auf Ziel-S3-Präfix gesetzt.

Dieselbe Abfragevorlage läuft den ganzen Tag mit verschiedenen Parameterwerten.

Athena Prepared Statements: `PREPARE`, `EXECUTE` mit Parameterwerten. Vermeidet erneutes Parsen und bietet saubere Parametrisierung.

IoT-Gerätemesswerte; benötigen (1) alle Messwerte für ein Gerät in einem Zeitfenster, (2) den neuesten Messwert pro Gerät.

PK = `device_id`, SK = `timestamp`. GSI mit PK = `device_id`, SK = invertiertem `timestamp` (oder verwenden Sie Query mit `ScanIndexForward=false LIMIT 1`).

Session-Tabelle wächst unbegrenzt; alte Sessions können nach 7 Tagen gelöscht werden.

DynamoDB TTL auf einem `expires_at` Epoch-Attribut aktivieren. DynamoDB entfernt abgelaufene Elemente kostenlos (innerhalb von ~48h).

IoT-Sensordaten: häufige Abfragen der letzten 7 Tage, gelegentliche Abfragen von 2 Jahren.

Amazon Timestream. Speicher für aktuelle Daten (schnelle Abfragen); automatische Schichtung in magnetischen Speicher für historische Daten.

Cassandra-kompatibler Speicher für hohe Schreibfrequenz-Zeitserien mit 90-Tage-Retention.

Amazon Keyspaces mit TTL auf Zeilen. Kompatibel mit Cassandra CQL; serverlose Kapazität, keine Cluster-Verwaltung.

OpenSearch-Speicherkosten steigen; alte Indizes werden selten abgefragt.

OpenSearch ISM-Richtlinien stufen Daten ein: hot → UltraWarm (S3-gestützt) → Cold. Cold-Tier getrennt, aber bei Bedarf durchsuchbar.

Datenoperationen und -support

Validieren Sie, dass die ETL-Ausgabe ≥1.000 Zeilen und eine Null-Rate von <2 % für Spalten aufweist, bevor sie downstream konsumiert wird.

AWS Glue Data Quality-Regeln (DQDL): `RowCount >= 1000`, `Completeness "col" > 0.98`. Pipeline stoppt bei Regelverletzung.

Benutzerdefiniertes Spark-basiertes Datenqualitäts-Framework auf EMR; benötigen statistische Prüfungen auf Spaltenebene.

AWS Deequ-Bibliothek auf Spark. Definieren Sie Constraints (`isComplete`, `hasMin`, `isContainedIn`); Deequ läuft als Spark-Job und gibt Metriken aus.

Analysten müssen Datenprodukte kontoübergreifend entdecken, Zugriff anfordern und deren Herkunft verstehen.

Amazon DataZone. Datenkatalog mit Business-Glossar, Zugriffs-Workflows, Lineage; umfasst Lake Formation, Redshift, RDS.

Lambda gibt Per-Record-Verarbeitungsmetriken aus; CloudWatch PutMetricData-Kosten sind hoch.

CloudWatch Embedded Metric Format (EMF). Protokollieren Sie JSON im EMF-Schema; CloudWatch extrahiert Metriken aus Protokollen ohne Kosten pro PutMetricData.

Alle Glue-Jobs finden, deren Dauer in den letzten 7 Tagen 1 Stunde überschritten hat.

CloudWatch Logs Insights-Abfrage: `fields @timestamp, @message | filter @message like /JobRunDuration/ | parse @message "duration=*" as d | filter d > 3600`.

Glue-Job ist langsam; muss wissen, ob er unterversorgt ist oder eine verzerrte Shuffle-Operation hat.

Glue Job-Metriken + Observability aktivieren. CloudWatch zeigt maximale DPU-Nutzung, Executor-Auslastung, Shuffle Read/Write pro Stage.

Glue Spark-Job-Größen variieren um das 10-fache über Läufe hinweg; Überprovisionierung für kleine Inputs.

Glue Auto Scaling aktivieren (Glue 3.0+). Worker werden während der Ausführung basierend auf der Stage-Parallelität hinzugefügt/entfernt.

Athena scannt 5 TB, um Abfragen zu beantworten, die einen Tag an Daten betreffen; Kosten zu hoch.

Partitionieren Sie nach Datum und stellen Sie sicher, dass die WHERE-Klausel Partitionschlüssel verwendet. Validieren Sie mit `EXPLAIN`, das Partition Pruning anzeigt.

Athena-Abfragen auf JSON Data Lake sind langsam und teuer.

Konvertieren Sie in Parquet (spaltenbasiert) oder ORC. Liest nur benötigte Spalten; native Komprimierung reduziert Scan-Kosten und -Zeit.

EMR-Cluster-Kostenoptimierung ohne Datenverlustrisiko.

Core-Nodes auf On-Demand (hosten HDFS / Shuffle). Task-Nodes auf Spot über Instance Fleets mit diversifizierten Instanztypen.

Redshift-Cluster läuft 24/7; On-Demand-Preise sind teuer.

Redshift Reserved Nodes (1 oder 3 Jahre, alle-/teilweise-/keine Vorauszahlung). Bis zu ~75 % Rabatt im Vergleich zu On-Demand für stabile Workloads.

Wählen Sie zwischen Athena, Redshift und EMR für 500 GB täglich / 50 Abfragen.

Ad-hoc, selten → Athena (pro gescanntem TB). Vorhersehbare BI-Dashboards → Redshift (RA3 + Reserved). Umfangreiches benutzerdefiniertes Spark → EMR.

Warum: Athena rechnet pro gescannten Daten ab; Redshift pro Cluster-Stunde; EMR pro Instanz-Stunde. Passen Sie die Abrechnung an das Zugriffsmuster an.

Glue-Job wird mehrmals gleichzeitig ausgelöst; soll auf einen Lauf gleichzeitig begrenzt werden.

Setzen Sie `MaxConcurrentRuns=1` für den Glue-Job. Nachfolgende Trigger warten; eliminiert gleichzeitige Statusbeschädigungen.

Glue ETL-Wiederholungen erzeugen doppelte Ausgabezeilen im S3-Ziel.

Idempotenz: Schreiben Sie pro Lauf in ein temporäres Präfix, dann atomare Umbenennung über S3 Multipart `CompleteMultipartUpload` oder verwenden Sie Iceberg/Hudi MERGE für Upserts.

Schlechter ETL-Lauf schrieb fehlerhafte Zeilen in Aurora MySQL; Wiederherstellung zu einem Zeitpunkt vor Minuten.

Aurora Backtrack (nur MySQL-kompatibel). Spult den Cluster auf eine Zielzeit zurück, ohne aus einem Snapshot wiederherzustellen.

Pipeline überschrieb korrekte S3-Objekte mit beschädigten Daten.

S3 Bucket Versionierung + Wiederherstellung der vorherigen Version. Kombinieren Sie dies mit MFA Delete, um versehentliches Ablaufen von Versionen zu verhindern.

Automatisieren Sie die EBS-Snapshot-Erstellung, -Aufbewahrung und Cross-Region-Kopie für Disaster Recovery.

Amazon Data Lifecycle Manager (DLM) mit Per-Tag-Richtlinie: Zeitplan, Aufbewahrung, Cross-Region-Kopie.

MSK-Consumer hinken Producern hinterher; muss erkannt und alarmiert werden.

CloudWatch-Metrik `MaxOffsetLag` pro Consumer-Gruppe. Alarm, wenn > Schwellenwert; Consumer-Anzahl skalieren oder Partitions-Parallelität erhöhen.

Kinesis-Consumer hinkt hinterher; soll erkannt werden.

CloudWatch-Metrik `GetRecords.IteratorAgeMilliseconds`. Alarm > 60s bedeutet normalerweise, dass Consumer unterversorgt sind.

Identifizieren Sie die langsamsten Redshift-Abfragen der letzten Stunde zur Optimierung.

Abfrage von `SVL_QLOG` / `STL_QUERY` / `SYS_QUERY_HISTORY` nach Einträgen mit der längsten elapsed-time; verwenden Sie `SVL_QUERY_REPORT` für eine Aufschlüsselung pro Schritt.

Datensicherheit und Governance

Vertriebsteams sollen nur Zeilen für ihre zugewiesenen Regionen im gemeinsamen Data Lake sehen.

Lake Formation Row-Level Security über Datenfilter: `region IN ('NA', 'EU')` pro IAM Principal. Eine Tabelle; pro Principal gefilterte Ansicht.

Gesundheitstabelle — Analysten dürfen SSN- und Diagnose-Spalten nicht sehen.

Lake Formation Column-Level Permissions: GRANT SELECT auf Tabelle EXCEPT (`ssn`, `diagnosis_code`).

Viele Teams + viele Tabellen; Per-Tabelle-Berechtigungen sind nicht wartbar.

Lake Formation LF-Tags. Tabellen/Spalten taggen; Tag-basierte Berechtigungen an Principals erteilen. Eine neue Tabelle benötigt lediglich das richtige Tag.

Konto A besitzt den Data Lake; Analysten von Konto B benötigen Lesezugriff auf bestimmte Tabellen.

Lake Formation Cross-Account Sharing über RAM. Konto A erteilt Berechtigungen an den IAM Principal/das Konto von B; B greift über Athena/Redshift Spectrum zu.

Row-Level Security innerhalb von Redshift (nicht Lake Formation).

Redshift native RLS-Richtlinien: `CREATE RLS POLICY` mit Prädikat, das den Session-Kontext referenziert (`current_user`, `session_role`). Richtlinie an Tabelle anhängen.

Compliance erfordert einen kundenverwalteten Schlüssel mit Audit-Trail für Redshift-Verschlüsselung.

Redshift-Cluster mit kundenverwaltetem KMS-Schlüssel verschlüsselt. Schlüsselrotation aktiviert; CloudTrail erfasst jede Decrypt-Operation gegen den CMK.

Glue ETL-Job-Inputs/Outputs mit unternehmensverwaltetem Schlüssel verschlüsseln.

Glue Security Configuration mit CMK für S3 + CloudWatch Logs + Job-Lesezeichen. Glue-Rolle erhält `kms:Decrypt`/`Encrypt` für den Schlüssel.

PII (Namen, SSNs, E-Mails) im S3 Data Lake entdecken und klassifizieren.

Amazon Macie. ML-gesteuerte Erkennung sensibler Daten auf S3; erstellt Findings mit Objektstandort und PII-Typ.

Jede S3 GetObject / PutObject im Data Lake-Bucket prüfen.

CloudTrail Datenereignisse für den Bucket. CloudTrail protokolliert standardmäßig nur Management-Ereignisse; Datenereignisse müssen explizit aktiviert werden.

Warum: Datenereignisse werden pro Ereignis abgerechnet; auf den sensiblen Bucket beschränken, um Kosten zu kontrollieren.

Benötigen Wer/Wann/IP für jeden S3-Zugriff; CloudTrail Datenereignisse sind zu teuer.

S3 Server Access Logging. Kostenlos; Protokolle werden an einen separaten Logging-Bucket geliefert; weniger Details als CloudTrail, deckt aber Anfragenden + IP + Pfad ab.

Verhindern Sie, dass ein Bucket im Konto versehentlich öffentlich gemacht wird, selbst wenn eine Bucket-Richtlinie dies zulässt.

S3 Block Public Access auf Kontoebene. Überschreibt jede Bucket-Level-Richtlinie; wird als Leitplanke durchgesetzt.

Redshift in VPC muss von S3 lesen, ohne das öffentliche Internet zu nutzen.

S3 Gateway Endpoint in der Redshift-Subnetz-Routing-Tabelle. Der Traffic wird über das AWS-Backbone geleitet; kein NAT, kein IGW.

Glue ETL-Job benötigt Zugriff auf RDS in einem privaten Subnetz UND muss Glue Data Catalog APIs aufrufen.

Glue-Verbindung im RDS-VPC + Interface VPC Endpoints für `glue.amazonaws.com` + S3 Gateway Endpoint.

Glue ETL benötigt S3-Lesen, Redshift-Schreiben, Secrets Manager-Lesen.

Einzelne Glue-Ausführungsrolle mit Least-Privilege-Richtlinien: `s3:GetObject` auf Quellpräfix, `redshift-data:ExecuteStatement`, `secretsmanager:GetSecretValue` auf dem spezifischen Secret ARN.

Ungewöhnliche Datenzugriffsmuster erkennen – großer Download durch einen IAM-Benutzer ohne vorherigen Data-Lake-Zugriff.

GuardDuty S3 Protection. Verhaltensbaselines pro IAM Principal; Findings zu anomalen Zugriffsvolumen/-mustern.

Compliance erfordert WORM (Write Once, Read Many) Aufbewahrung von Finanzdaten für 7 Jahre.

S3 Object Lock mit Compliance-Modus + Aufbewahrungsfrist 7 Jahre. Selbst Root kann nicht löschen; erfüllt SEC 17a-4 / FINRA.

Kontinuierliche Sammlung von Compliance-Nachweisen für HIPAA / SOC 2 Audits.

AWS Audit Manager mit vorgefertigten Frameworks. Sammelt automatisch Nachweise von CloudTrail, Config, Security Hub; erstellt auditbereite Berichte.