🏠होम 📚सर्टिफिकेशन 📱मोबाइल ऐप्स

🎓परीक्षा जानकारी

✍️ब्लॉग 📊प्रगति 📅कैलेंडर 💬सहायता

गोपनीयता नीति उपयोग की शर्तें हमसे संपर्क करें कुकी नीति अस्वीकरण सुगम्यता DMCA / कॉपीराइट

सामग्री पर जाएँ

DEA-C01मार्गदर्शिका

मार्गदर्शिका

AWS Certified Data Engineer Associate

अंतिम समीक्षा: मई 2026

DEA-C01 परीक्षा द्वारा परखे जाने वाले architectural patterns का स्कैन-योग्य संदर्भ। ऊपर से नीचे पढ़ें या किसी section पर जाएं।

अनुभाग

डेटा अधिग्रहण और परिवर्तन35 प्रविष्टियां
डेटा स्टोर प्रबंधन26 प्रविष्टियां
डेटा संचालन और समर्थन20 प्रविष्टियां
डेटा सुरक्षा और शासन17 प्रविष्टियां

डेटा अधिग्रहण और परिवर्तन

स्ट्रीमिंग अधिग्रहण के लिए Kinesis सेवा चुनें।

उपभोक्ता-नियंत्रित उप-सेकंड प्रोसेसिंग → Kinesis Data Streams। S3/Redshift/OpenSearch पर वैकल्पिक प्रारूप रूपांतरण के साथ पूर्णतः प्रबंधित डिलीवरी → Kinesis Data Firehose।

क्यों: KDS रिकॉर्ड को बनाए रखता है (24 घंटे-365 दिन) और कई उपभोक्ताओं का समर्थन करता है। Firehose में रीप्ले नहीं होता; रीप्ले को शून्य-ऑप्स डिलीवरी के लिए बदलता है।

संदर्भ

पीक के दौरान स्ट्रीम ProvisionedThroughputExceeded त्रुटियों का सामना करती है।

रिशार्ड करें। प्रत्येक शार्ड 1 MB/s या 1,000 रिकॉर्ड/s अधिग्रहण, 2 MB/s निकास का समर्थन करता है। एकसमान विभाजन कुंजियों का उपयोग करें; प्रति उपभोक्ता >2 MB/s के लिए Enhanced Fan-Out सक्षम करें।

क्यों: हॉट विभाजन कुंजियाँ एक शार्ड पर ट्रैफिक केंद्रित करती हैं। यादृच्छिक या हैश-आधारित कुंजियाँ लोड को फैलाती हैं।

संदर्भ

स्ट्रीमिंग वर्कलोड स्पाइकी और अप्रत्याशित है; मैन्युअल रिशार्डिंग परिचालन में समस्या है।

ऑन-डिमांड क्षमता मोड में Kinesis Data Streams। डिफ़ॉल्ट रूप से 200 MB/s तक स्वतः-स्केल करता है; डेटा वॉल्यूम के अनुसार भुगतान करें।

संदर्भ

एक ही स्ट्रीम को पढ़ने वाले कई उपभोक्ता 2 MB/s/shard पढ़ने की सीमा को पार कर जाते हैं।

Enhanced Fan-Out। प्रत्येक उपभोक्ता को पुश-आधारित HTTP/2 SubscribeToShard के माध्यम से समर्पित 2 MB/s/shard प्राप्त होता है।

संदर्भ

प्रोड्यूसर-साइड एप्लिकेशन से अधिग्रहण थ्रूपुट को अधिकतम करें।

Kinesis Producer Library (KPL) एकत्रीकरण + संग्रह के साथ। कई उपयोगकर्ता रिकॉर्ड को एक Kinesis रिकॉर्ड में 1 MB तक बैच करता है; PUT लागत कम करता है।

क्यों: सिंगल-रिकॉर्ड PutRecord 50k इवेंट/s पर दर-सीमित और महंगा है। KPL क्लाइंट-साइड पर एकत्रित करता है।

संदर्भ

JSON क्लिकस्ट्रीम को S3 में Parquet के रूप में उतारें, इवेंट समय के अनुसार विभाजित करें।

Glue Data Catalog तालिका + इवेंट टाइमस्टैम्प पर डायनेमिक पार्टिशनिंग का उपयोग करके रिकॉर्ड प्रारूप रूपांतरण (JSON → Parquet) के साथ Firehose।

क्यों: Parquet + पार्टिशनिंग Athena स्कैन लागत को नाटकीय रूप से कम करता है। डायनेमिक पार्टिशनिंग एक अलग ETL चरण से बचाती है।

संदर्भ

कुछ रिकॉर्ड Firehose परिवर्तन या वितरण में विफल होते हैं; उन्हें रीप्ले के लिए कैप्चर करने की आवश्यकता है।

S3 बैकअप को `AllData` या `FailedDataOnly` के साथ कॉन्फ़िगर करें। विफल रिकॉर्ड त्रुटि मेटाडेटा के साथ कॉन्फ़िगर किए गए उपसर्ग पर आते हैं।

संदर्भ

यदि एक ब्रोकर AZ विफल हो जाता है तो MSK में कोई डेटा हानि सुनिश्चित न करें।

3 AZs और `min.insync.replicas=2` के साथ उत्पादक `acks=all` पर प्रतिकृति कारक ≥ 3। ZooKeeper-less KRaft या 3-AZ ब्रोकर प्लेसमेंट के माध्यम से Multi-AZ सक्षम करें।

संदर्भ

Kafka Connect क्लस्टर को प्रबंधित किए बिना MSK से S3, OpenSearch या RDS में स्ट्रीम करें।

प्रबंधित कनेक्टर (Confluent S3 Sink, CDC के लिए Debezium) के साथ MSK Connect। WCU के अनुसार ऑटो-स्केल वर्कर्स।

संदर्भ

विषय प्रति कुंजी एक रिकॉर्ड का नवीनतम संस्करण संग्रहीत करता है; पुराने संस्करणों को छोड़ा जा सकता है।

विषय `cleanup.policy=compact` सेट करें। Kafka प्रत्येक कुंजी के लिए सबसे हाल का मान रखता है; पुराने समान-कुंजी रिकॉर्ड संपीड़न के लिए योग्य हैं।

संदर्भ

Direct Connect पर ऑन-प्रेम NFS से S3 में 10 TB का साप्ताहिक आवर्ती स्थानांतरण।

ऑन-प्रेम एजेंट + अनुसूचित कार्य के साथ AWS DataSync। डेटा अखंडता को सत्यापित करता है, वृद्धिशील स्थानांतरण, समानांतर का समर्थन करता है।

क्यों: DataSync aws-cli सिंक से तेज़ है और मूल रूप से बैंडविड्थ थ्रॉटलिंग, रिट्राइज़ और सत्यापन को संभालता है।

संदर्भ

SaaS APIs (Salesforce, ServiceNow, Zendesk) से डेटा को S3 में एक शेड्यूल पर खींचें।

AWS AppFlow। प्रबंधित कनेक्टर, OAuth संभाला गया, अनुसूचित या इवेंट-ट्रिगर, S3 में Parquet लिखता है।

संदर्भ

न्यूनतम डाउनटाइम के साथ ऑन-प्रेम SQL Server से Aurora MySQL में चल रहे परिवर्तनों को रेप्लिकेट करें।

फुल-लोड + CDC कार्य के साथ AWS DMS। DMS से पहले विषम स्कीमा/कोड रूपांतरण के लिए Schema Conversion Tool (SCT) का उपयोग करें।

संदर्भ

DMS प्रतिकृति इंस्टेंस विफल हो जाता है — प्रतिकृति बाधित होती है।

प्रतिकृति इंस्टेंस पर Multi-AZ सक्षम करें। दूसरे AZ में सिंक्रोनस स्टैंडबाय; स्वचालित फेलओवर।

संदर्भ

ETL पाइपलाइन के बिना OLTP Aurora डेटा पर लगभग-वास्तविक-समय के विश्लेषण की आवश्यकता है।

Redshift में Aurora शून्य-ETL एकीकरण। Aurora डेटा का Redshift में सतत प्रतिकृति; क्वेरीज़ सेकंडों के भीतर नया डेटा देखती हैं।

क्यों: OLTP-से-वेयरहाउस उपयोग के मामले के लिए DMS / Glue / कस्टम CDC पाइपलाइनों को समाप्त करता है।

संदर्भ

ऑन-प्रेम से S3 में 100 TB ऐतिहासिक संग्रह को ले जाएं; बैंडविड्थ सीमित है।

AWS Snowball Edge Storage Optimized। भौतिक डिवाइस साइट पर भेज दिया जाता है; डेटा कॉपी करें; वापस भेजें।

संदर्भ

स्रोत JSON में नेस्टेड एरेज़ हैं; डाउनस्ट्रीम रिलेशन एनालिसिस को फ्लैट किए गए पंक्तियों की आवश्यकता है।

Glue PySpark `Relationalize` ट्रांसफॉर्म (या DataFrame में `explode()`) नेस्टेड एरेज़ को अलग-अलग पंक्तियों/तालिकाओं में फ्लैट करता है।

संदर्भ

Glue Crawler अव्यवस्थित CSV डेटा से अस्पष्ट प्रकारों (`choice<int,string>`) को अनुमानित करता है।

`ResolveChoice` ट्रांसफॉर्म लागू करें — विशिष्ट प्रकार पर कास्ट करें या struct पर प्रोजेक्ट करें। या स्कीमा को लागू करके स्रोत पर ठीक करें।

संदर्भ

Glue ETL जॉब बढ़ते S3 डेटा पर प्रति घंटा चलता है; केवल नई फाइलों को संसाधित करने की आवश्यकता है।

Glue जॉब बुकमार्क्स सक्षम करें। Glue संसाधित फाइलों/विभाजनों को ट्रैक करता है और उन्हें पुनः चलाने पर छोड़ देता है।

क्यों: पूरे डेटासेट को पुनः संसाधित करने से बचाता है। वृद्धिशील ETL पाइपलाइनों के लिए आवश्यक है।

संदर्भ

बड़ी एकत्रीकरण के दौरान ड्राइवर पर आउट ऑफ मेमोरी त्रुटि के साथ Glue Spark जॉब विफल हो जाता है।

G.2X या G.4X वर्कर्स पर स्विच करें (अधिक ड्राइवर मेमोरी) या शफल्ड डेटा को कम करने के लिए `--enable-glue-datacatalog` पुश-डाउन प्रेडिकेट्स सक्षम करें।

संदर्भ

प्रबंधित इन्फ्रा के साथ Kinesis स्रोत के विरुद्ध सतत स्पार्क स्ट्रक्चर्ड स्ट्रीमिंग चलाएँ।

AWS Glue स्ट्रीमिंग ETL जॉब। अंतर्निहित Spark Structured Streaming; S3 पर चेकपॉइंटिंग।

संदर्भ

व्यावसायिक विश्लेषक को कोड लिखे बिना डेटा को साफ और परिवर्तित करने की आवश्यकता है।

AWS Glue DataBrew। विज़ुअल रेसिपी-आधारित ट्रांसफॉर्म (250+), प्रोफाइलिंग, लीनेज। S3, Redshift, RDS पर आउटपुट।

संदर्भ

Crawler द्वारा डेटा कैटलॉग को सफलतापूर्वक अपडेट करने के बाद ही Glue ETL जॉब चलाएँ।

शर्तों के साथ Glue Workflow। Crawler सफलता → ETL जॉब ट्रिगर करें। विफलता → छोड़ें / अलार्म।

संदर्भ

Crawler सभी CSV कॉलम को `string` के रूप में अनुमानित करता है — तारीख और संख्या प्रकारों की आवश्यकता है।

क्रॉलिंग से पहले एक कस्टम Glue क्लासिफायर (Grok पैटर्न या कॉलम संकेत) जोड़ें। वैकल्पिक रूप से स्पष्ट प्रकारों के साथ एक हेडर पंक्ति पहले से लिखें।

संदर्भ

Kafka पर कई उत्पादकों/उपभोक्ताओं को एक-दूसरे को तोड़े बिना स्कीमा विकास की आवश्यकता है।

संगतता नियमों (BACKWARD/FORWARD/FULL) के साथ AWS Glue Schema Registry। उत्पादक स्कीमा पंजीकृत करते हैं; उपभोक्ता लाते + मान्य करते हैं।

संदर्भ

Spark ETL के लिए EMR और Glue के बीच चयन करें।

गहरे ट्यूनिंग, कई फ्रेमवर्क (Hive, Presto, Flink) के साथ लंबे समय तक चलने वाला कस्टम Spark → EMR। Glue Data Catalog एकीकरण के साथ सर्वरलेस पे-पर-जॉब ETL → Glue। स्पाइकी/अप्रत्याशित Spark → EMR Serverless।

संदर्भ

अंतराल पर चलने वाले Spark/Hive जॉब्स; शून्य क्लस्टर ऑप्स और कोई निष्क्रिय कंप्यूट नहीं चाहते।

EMR Serverless। कम-विलंबता शुरू करने के लिए पूर्व-आरंभिक क्षमता पूल; प्रति-जॉब स्केल करता है; प्रति vCPU-घंटे भुगतान करें।

संदर्भ

लागत-अनुकूलित EMR के लिए ऑन-डिमांड कोर + स्पॉट टास्क नोड्स को मिलाएं।

प्रकार के अनुसार लक्ष्य क्षमता के साथ Instance Fleets। HDFS स्थिरता के लिए ऑन-डिमांड कोर फ्लीट; विविध इंस्टेंस प्रकारों के साथ स्पॉट टास्क फ्लीट।

संदर्भ

Kubernetes पर मानकीकरण करें; EMR Spark जॉब्स को अन्य वर्कलोड के साथ क्लस्टर साझा करना चाहते हैं।

EKS पर EMR। Spark मौजूदा EKS क्लस्टर पर पॉड्स के रूप में चलता है; IRSA के माध्यम से इन्फ्रा और IAM भूमिकाएँ साझा करें।

संदर्भ

विंडो वाली एकत्रीकरण और ठीक-एक बार सिमेंटिक्स के साथ स्टेटफुल स्ट्रीमिंग।

Apache Flink के लिए Kinesis Data Analytics। प्रबंधित Flink रनटाइम; S3 पर चेकपॉइंट; ऑटो-स्केल।

संदर्भ

एक Kinesis स्ट्रीम पर हल्का प्रति-रिकॉर्ड परिवर्तन (<1 ms प्रत्येक)।

KDS पर इवेंट स्रोत मैपिंग के साथ Lambda। `BatchSize`, `MaximumBatchingWindowInSeconds`, और `ParallelizationFactor` को ट्यून करें।

क्यों: छोटे प्रति-रिकॉर्ड कार्य के लिए Lambda KCL/Glue स्ट्रीमिंग से सस्ता है।

संदर्भ

Step Functions चरण कभी-कभी क्षणिक थ्रॉटलिंग पर विफल हो जाता है; फिर से प्रयास करें और फिर अलर्ट करें।

`ErrorEquals: ["Lambda.ThrottlingException", "States.TaskFailed"]`, `IntervalSeconds`, `MaxAttempts`, `BackoffRate=2` के साथ `Retry` ब्लॉक जोड़ें। साथ ही एक अधिसूचना स्थिति के लिए `Catch`।

संदर्भ

Lambda ट्रांसफॉर्म के माध्यम से 500,000 JSON फाइलों को समानांतर में संसाधित करें।

S3 से `MaxConcurrency` और ItemReader के साथ Step Functions वितरित Map स्टेट। हजारों समानांतर Lambda invocations में फैन-आउट।

संदर्भ

क्रॉस-सर्विस निर्भरताओं (Glue + Redshift COPY + Lambda + ईमेल) और लीनेज आवश्यकताओं के साथ जटिल DAG।

Amazon MWAA (Managed Workflows for Apache Airflow)। AWS सेवाओं के लिए नेटिव Airflow ऑपरेटर; Git-ड्रिवन DAG सिंक।

संदर्भ

यदि कोई परिनियोजन विफलताओं का कारण बनता है तो DAG परिवर्तनों को वापस रोल करने की आवश्यकता है।

DAGs को S3 संस्करण वाले बकेट में संग्रहीत करें + S3 संस्करण के माध्यम से सिंक करें। या CI के माध्यम से वातावरण-प्रति-शाखा + S3 सिंक के साथ Git में DAG रेपो बनाए रखें।

संदर्भ

डेटा स्टोर प्रबंधन

कच्चा डेटा 30 दिनों के लिए हॉट, अगले 90 दिनों के लिए कभी-कभार पहुंच, 7 साल के लिए आर्काइव।

S3 लाइफसाइकिल: 0-30 दिन स्टैंडर्ड, 30 दिनों में स्टैंडर्ड-IA में ट्रांजिशन, 120 दिनों में Glacier Flexible Retrieval में ट्रांजिशन, 7 साल बाद एक्सपायर।

संदर्भ

अप्रत्याशित पहुंच पैटर्न; मैन्युअल लाइफसाइकिल पॉलिसी गलत विकल्प है।

S3 Intelligent-Tiering। एक्सेस पैटर्न के आधार पर वस्तुओं को Frequent / Infrequent / Archive Instant Access / Archive / Deep Archive के बीच स्वतः ले जाता है। प्रति-वस्तु निगरानी शुल्क; Frequent/IA में कोई पुनर्प्राप्ति शुल्क नहीं।

संदर्भ

डेटा लेक पर एथेना क्वेरीज़ धीमी हैं; विभाजन में हजारों 1-5 KB JSON फाइलें हैं।

Glue/EMR जॉब के माध्यम से छोटी फाइलों को ~256 MB Parquet फाइलों में कॉम्पैक्ट करें। प्रबंधित तालिका प्रारूपों के लिए Iceberg `OPTIMIZE` या Hudi कॉम्पैक्शन का उपयोग करें।

क्यों: छोटी फाइलों के साथ Athena/Spark प्रति-फाइल ओवरहेड हावी होता है। सबसे अच्छा ~128-512 MB Parquet है।

संदर्भ

एक बकेट; कई टीमों को विभिन्न उपसर्ग-स्कोप वाले एक्सेस पैटर्न की आवश्यकता है।

S3 एक्सेस पॉइंट्स — अपनी स्वयं की नीति के साथ प्रति-टीम नामित एंडपॉइंट एक उपसर्ग से बंधा हुआ है। एक विशाल बकेट नीति की तुलना में सरल।

संदर्भ

विभिन्न उपभोक्ताओं को एक ही S3 ऑब्जेक्ट के विभिन्न विचारों की आवश्यकता है (संपादित PII, सारांशित)।

S3 Object Lambda एक्सेस पॉइंट। GET अनुरोध Lambda को इनवोक करता है जो ऑन-द-फ्लाई ऑब्जेक्ट को बदलता है; उपभोक्ता परिवर्तित दृश्य देखता है।

संदर्भ

S3 डेटा लेक पर ACID लेनदेन, स्कीमा विकास और समय-यात्रा की आवश्यकता है।

Apache Iceberg तालिकाएँ (Glue Catalog + S3 स्टोरेज)। परमाणु कमिट, MERGE/UPDATE/DELETE, स्नैपशॉट आइसोलेशन, विभाजन विकास।

क्यों: Hive-शैली केवल-जोड़ S3 पंक्ति-स्तर के अपडेट का समर्थन नहीं करता है। Iceberg/Hudi/Delta इसे हल करते हैं।

संदर्भ

एक डेटा-लेक तालिका पर कई लेखक और पाठक; ट्रांसेक्शनल स्थिरता और पंक्ति-स्तर एक्सेस नियंत्रण की आवश्यकता है।

अनुमतियों के लिए LF-टैग के साथ Lake Formation शासित तालिकाएँ (Iceberg-समर्थित)।

संदर्भ

Athena, Redshift Spectrum, EMR, और Glue ETL सभी को एक साझा मेटाडेटा स्टोर की आवश्यकता है।

AWS Glue Data Catalog। प्रत्येक एनालिटिक्स सेवा द्वारा उपभोग किया जाने वाला एकल Hive-संगत मेटास्टोर।

संदर्भ

Redshift क्लस्टर को कंप्यूट से स्वतंत्र रूप से स्टोरेज स्केल करने की आवश्यकता है।

प्रबंधित स्टोरेज (RMS) के साथ RA3 नोड्स। S3 द्वारा समर्थित स्टोरेज; कंप्यूट अलग से स्केल करता है। AQUA, Concurrency Scaling, Federated Queries के लिए आवश्यक।

संदर्भ

Redshift क्वेरी अक्सर `created_at` द्वारा फ़िल्टर करती है; पूर्ण-तालिका स्कैन धीमे होते हैं।

`created_at` पर एक सॉर्ट कुंजी (या `created_at` सहित कंपाउंड सॉर्ट कुंजी) परिभाषित करें। Redshift स्कैन के दौरान ब्लॉक को छोड़ने के लिए ज़ोन मैप्स का उपयोग करता है।

संदर्भ

`orders` और `order_items` के बीच बार-बार जॉइन; क्वेरी शफल से धीमापन आता है।

दोनों तालिकाओं पर समान DISTKEY (`order_id`) का उपयोग करें। सह-स्थित पंक्तियाँ जॉइन के दौरान नेटवर्क शफल से बचती हैं।

क्यों: KEY वितरण एक ही कंप्यूट नोड पर जॉइन होने वाली पंक्तियों को सह-स्थित करता है।

संदर्भ

4-नोड Redshift क्लस्टर में 32 gzip CSV फ़ाइलें (~1 GB प्रत्येक) लोड करना धीमा है।

एकल मैनिफ़ेस्ट से समानांतर में COPY। #फाइलें = स्लाइस गणना के गुणज (स्लाइस = नोड्स × vCPU) का लक्ष्य रखें। 4 नोड्स ra3.xlplus = 8 स्लाइस → 32 फाइलें = प्रति स्लाइस 4।

संदर्भ

S3 में 5 TB कोल्ड Parquet डेटा को हॉट Redshift फैक्ट तालिकाओं के साथ जॉइन करें; इसे लोड नहीं करना चाहते।

Redshift Spectrum। Glue Catalog में बाहरी तालिकाएँ; Redshift कंप्यूट के साथ सीधे S3 से क्वेरीज़ पढ़ें।

संदर्भ

पीक के दौरान रिपोर्टिंग टीम की क्वेरीज़ ETL वर्कलोड को धीमा कर देती हैं; दोनों एक ही क्लस्टर पर चलते हैं।

प्रासंगिक WLM कतार पर Concurrency Scaling सक्षम करें। Redshift पारदर्शी रूप से ओवरफ्लो क्वेरीज़ को स्केल-आउट क्लस्टर में रूट करता है।

संदर्भ

डैशबोर्ड क्वेरी बार-बार 3 बड़ी तालिकाओं को जॉइन करती है और एकत्रित करती है; विलंबता अधिक है।

ऑटो-रिफ्रेश के साथ Materialized view। Redshift पूर्व-गणना परिणाम बनाए रखता है; क्वेरी मैटेरियलाइज़्ड डेटा से पढ़ती है।

संदर्भ

अंतराल पर विश्लेषणात्मक वर्कलोड; प्रोविजन्ड क्लस्टर निष्क्रिय बैठता है।

Amazon Redshift Serverless। प्रति वर्कलोड RPUs को स्वतः-प्रोविजन और स्केल करता है; प्रति RPU-घंटे भुगतान करें। शून्य ऑप्स।

संदर्भ

ETL के बिना Redshift डेटा को लाइव Aurora MySQL डेटा के साथ जॉइन करने की आवश्यकता है।

Redshift Federated Queries। Aurora पर इंगित करते हुए बाहरी स्कीमा बनाएं; क्वेरीज़ लाइव RDS कनेक्शन पर प्रेडिकेट्स को पुश करती हैं।

संदर्भ

डैशबोर्ड हर रेंडर पर ऑर्डर + ग्राहक + उत्पाद को जॉइन करता है; स्टार स्कीमा बहुत धीमी है।

एक चौड़ी फैक्ट तालिका या मैटेरियलाइज़्ड व्यू में डेनॉर्मलाइज़ करें। BI वर्कलोड राइट टाइम पर हल किए गए रीड-टाइम जॉइन को पसंद करते हैं।

संदर्भ

S3 `year/month/day/hour` द्वारा विभाजित; `MSCK REPAIR TABLE` में 30+ मिनट लगते हैं।

Athena विभाजन प्रोजेक्शन सक्षम करें (कोई Glue Catalog विभाजन प्रविष्टियाँ नहीं)। तालिका गुणों में विभाजन कुंजी प्रकार + श्रेणियाँ परिभाषित करें।

क्यों: Athena क्वेरी समय पर प्रोजेक्शन नियमों से विभाजन स्थानों की गणना करता है — कोई MSCK नहीं, कोई Glue API थ्रॉटलिंग नहीं।

संदर्भ

एक ऑपरेशन में Athena क्वेरी परिणामों को Parquet में, विभाजित करके परिवर्तित करें।

`format=PARQUET`, `partitioned_by=ARRAY['region']`, लक्ष्य S3 उपसर्ग पर सेट `external_location` के साथ CREATE TABLE AS SELECT (CTAS)।

संदर्भ

एक ही क्वेरी टेम्पलेट पूरे दिन विभिन्न पैरामीटर मानों के साथ चलता है।

Athena तैयार कथन: `PREPARE`, पैरामीटर मानों के साथ `EXECUTE`। पुनः-पार्सिंग से बचाता है और स्वच्छ पैरामीटरकरण देता है।

संदर्भ

IoT डिवाइस रीडिंग; (1) एक समय सीमा में एक डिवाइस के लिए सभी रीडिंग, (2) प्रति डिवाइस नवीनतम रीडिंग की आवश्यकता है।

PK = `device_id`, SK = `timestamp`। PK = `device_id`, SK = उलटा `timestamp` (या `ScanIndexForward=false LIMIT 1` के साथ क्वेरी का उपयोग करें) के साथ GSI।

संदर्भ

सेशन तालिका असीमित रूप से बढ़ती है; पुराने सेशन को 7 दिनों के बाद हटाया जा सकता है।

`expires_at` युग विशेषता पर DynamoDB TTL सक्षम करें। DynamoDB समाप्त हो चुके आइटम को बिना किसी लागत के हटाता है (~48 घंटे के भीतर)।

संदर्भ

IoT सेंसर डेटा: पिछले 7 दिनों पर हॉट क्वेरीज़, 2 साल पर कभी-कभार क्वेरीज़।

Amazon Timestream। हाल के डेटा के लिए मेमोरी स्टोर (तेज़ क्वेरीज़); ऐतिहासिक के लिए मैग्नेटिक स्टोर में ऑटो-टियरिंग।

संदर्भ

90-दिवसीय प्रतिधारण के साथ उच्च-राइट टाइम-सीरीज़ के लिए Cassandra-संगत स्टोर।

पंक्तियों पर TTL के साथ Amazon Keyspaces। Cassandra CQL के साथ संगत; सर्वरलेस क्षमता, कोई क्लस्टर प्रबंधन नहीं।

संदर्भ

OpenSearch स्टोरेज लागत बढ़ती है; पुराने इंडेक्स शायद ही कभी क्वेरी किए जाते हैं।

OpenSearch ISM नीतियाँ डेटा को टियर करती हैं: हॉट → UltraWarm (S3-समर्थित) → Cold। कोल्ड टियर अलग है लेकिन मांग पर खोजा जा सकता है।

संदर्भ

डेटा संचालन और समर्थन

डाउनस्ट्रीम खपत से पहले यह मान्य करें कि ETL आउटपुट में ≥1,000 पंक्तियाँ और कॉलम नल-दर <2% है।

AWS Glue Data Quality नियम (DQDL): `RowCount >= 1000`, `Completeness "col" > 0.98`। नियम विफलता पर पाइपलाइन रुक जाती है।

संदर्भ

EMR पर कस्टम स्पार्क-आधारित डेटा गुणवत्ता फ्रेमवर्क; कॉलम-स्तर के सांख्यिकीय चेक की आवश्यकता है।

स्पार्क पर AWS Deequ लाइब्रेरी। बाधाएँ परिभाषित करें (`isComplete`, `hasMin`, `isContainedIn`); Deequ एक स्पार्क जॉब के रूप में चलता है और मेट्रिक्स उत्सर्जित करता है।

संदर्भ

विश्लेषकों को खातों में डेटा उत्पादों की वंशावली को खोजने, एक्सेस का अनुरोध करने और समझने की आवश्यकता है।

Amazon DataZone। व्यवसाय शब्दावली, एक्सेस वर्कफ़्लो, वंशावली के साथ डेटा कैटलॉग; Lake Formation, Redshift, RDS तक फैला हुआ है।

संदर्भ

Lambda प्रति-रिकॉर्ड प्रोसेसिंग मेट्रिक्स उत्सर्जित करता है; CloudWatch PutMetricData लागत अधिक हैं।

CloudWatch Embedded Metric Format (EMF)। EMF स्कीमा में JSON लॉग करें; CloudWatch प्रति-PutMetricData लागत के बिना लॉग से मेट्रिक्स निकालता है।

संदर्भ

पिछले 7 दिनों में उन सभी Glue जॉब्स को खोजें जिनकी अवधि 1 घंटे से अधिक थी।

CloudWatch Logs Insights क्वेरी: `fields @timestamp, @message | filter @message like /JobRunDuration/ | parse @message "duration=*" as d | filter d > 3600`।

संदर्भ

Glue जॉब धीमा है; यह जानना आवश्यक है कि यह अंडर-रिसोर्स है या इसमें तिरछा शफल है।

Glue जॉब मेट्रिक्स + ऑब्जर्वेबिलिटी सक्षम करें। CloudWatch अधिकतम DPU उपयोग, निष्पादक उपयोग, प्रति चरण शफल रीड/राइट दिखाता है।

संदर्भ

Glue Spark जॉब का आकार रनों के बीच 10 गुना बदलता रहता है; छोटे इनपुट के लिए ओवर-प्रोविजन किया गया है।

Glue ऑटो स्केलिंग (Glue 3.0+) सक्षम करें। स्टेज पैरेललिज्म के आधार पर निष्पादन के दौरान वर्कर्स जोड़े/हटाए जाते हैं।

संदर्भ

Athena 5 TB स्कैन करता है उन क्वेरीज़ का जवाब देने के लिए जो एक दिन के डेटा को छूती हैं; लागत बहुत अधिक है।

तारीख के अनुसार विभाजन करें और सुनिश्चित करें कि WHERE क्लॉज़ विभाजन कुंजियों का उपयोग करता है। विभाजन छंटनी दिखाते हुए `EXPLAIN` के साथ मान्य करें।

संदर्भ

JSON डेटा लेक पर Athena क्वेरीज़ धीमी और महंगी हैं।

Parquet (कॉलम) या ORC में कनवर्ट करें। केवल आवश्यक कॉलम पढ़ता है; नेटिव कंप्रेशन स्कैन लागत और समय दोनों को कम करता है।

संदर्भ

डेटा हानि के जोखिम के बिना EMR क्लस्टर लागत अनुकूलन।

ऑन-डिमांड पर कोर नोड्स (HDFS / शफल होस्ट करें)। विविध इंस्टेंस प्रकारों के साथ Instance Fleets के माध्यम से स्पॉट पर टास्क नोड्स।

संदर्भ

Redshift क्लस्टर 24/7 चलता है; ऑन-डिमांड मूल्य निर्धारण महंगा है।

Redshift Reserved Nodes (1 वर्ष या 3 वर्ष, सभी-/आंशिक-/कोई-अपफ्रंट नहीं)। स्थिर-स्थिति वाले वर्कलोड के लिए ऑन-डिमांड की तुलना में ~75% तक छूट।

संदर्भ

500 GB दैनिक / 50 क्वेरीज़ के लिए Athena, Redshift, और EMR के बीच चयन करें।

तदर्थ, अल्पकालिक → Athena (प्रति-TB स्कैन किया गया)। अनुमानित BI डैशबोर्ड → Redshift (RA3 + Reserved)। भारी कस्टम Spark → EMR।

क्यों: Athena प्रति स्कैन किए गए डेटा के लिए बिल करता है; Redshift प्रति-क्लस्टर-घंटे बिल करता है; EMR प्रति-इंस्टेंस-घंटे। एक्सेस पैटर्न के अनुसार बिलिंग का मिलान करें।

संदर्भ

Glue जॉब कई बार समवर्ती रूप से ट्रिगर होता है; एक समय में एक रन तक सीमित करना चाहते हैं।

Glue जॉब `MaxConcurrentRuns=1` सेट करें। बाद के ट्रिगर प्रतीक्षा करते हैं; समवर्ती-स्थिति भ्रष्टाचार को समाप्त करता है।

संदर्भ

Glue ETL रिट्रीज़ S3 टारगेट में डुप्लिकेट आउटपुट पंक्तियों का उत्पादन करते हैं।

Idempotency: प्रति रन एक अस्थायी उपसर्ग पर लिखें, फिर S3 मल्टीपार्ट `CompleteMultipartUpload` के माध्यम से परमाणु-नाम बदलें या Upserts के लिए Iceberg/Hudi MERGE का उपयोग करें।

संदर्भ

खराब ETL रन ने Aurora MySQL में भ्रष्ट पंक्तियाँ लिखीं; मिनटों पहले के बिंदु पर पुनर्प्राप्त करें।

Aurora Backtrack (केवल MySQL-संगत)। स्नैपशॉट से पुनर्स्थापित किए बिना क्लस्टर को एक लक्ष्य समय पर वापस ले जाता है।

संदर्भ

पाइपलाइन ने सही S3 ऑब्जेक्ट को भ्रष्ट डेटा से अधिलेखित कर दिया।

S3 बकेट संस्करण + पिछली संस्करण को पुनर्स्थापित करें। आकस्मिक संस्करण समाप्ति को रोकने के लिए MFA डिलीट के साथ मिलाएं।

संदर्भ

आपदा पुनर्प्राप्ति के लिए EBS स्नैपशॉट निर्माण, प्रतिधारण और क्रॉस-रीजन कॉपी को स्वचालित करें।

प्रति-टैग नीति के साथ Amazon Data Lifecycle Manager (DLM): शेड्यूल, प्रतिधारण, क्रॉस-रीजन कॉपी।

संदर्भ

MSK उपभोक्ता उत्पादकों से पीछे रह जाते हैं; पता लगाने और अलर्ट करने की आवश्यकता है।

प्रति उपभोक्ता समूह CloudWatch मेट्रिक `MaxOffsetLag`। जब > थ्रेशोल्ड हो तो अलार्म; उपभोक्ता गणना स्केल करें या विभाजन समानांतरता बढ़ाएँ।

संदर्भ

Kinesis उपभोक्ता पीछे रह रहा है; पता लगाना चाहते हैं।

CloudWatch मेट्रिक `GetRecords.IteratorAgeMilliseconds`। > 60s का अलार्म आमतौर पर मतलब है कि उपभोक्ता अंडर-प्रोविजन्ड हैं।

संदर्भ

ट्यूनिंग के लिए पिछले एक घंटे से सबसे धीमी Redshift क्वेरीज़ की पहचान करें।

शीर्ष व्यतीत-समय प्रविष्टियों के लिए `SVL_QLOG` / `STL_QUERY` / `SYS_QUERY_HISTORY` क्वेरी करें; प्रति-चरण विवरण के लिए `SVL_QUERY_REPORT` का उपयोग करें।

संदर्भ

डेटा सुरक्षा और शासन

बिक्री टीमों को साझा डेटा लेक में केवल उनके असाइन किए गए क्षेत्रों के लिए पंक्तियाँ दिखनी चाहिए।

डेटा फ़िल्टर के माध्यम से Lake Formation पंक्ति-स्तर सुरक्षा: `region IN ('NA', 'EU')` प्रति IAM प्रिंसिपल। एकल तालिका; प्रति-प्रिंसिपल फ़िल्टर्ड दृश्य।

संदर्भ

स्वास्थ्य देखभाल तालिका — विश्लेषकों को SSN और निदान कॉलम नहीं दिखने चाहिए।

Lake Formation कॉलम-स्तर अनुमतियाँ: तालिका पर SELECT GRANT करें सिवाय (`ssn`, `diagnosis_code`)।

संदर्भ

कई टीमें + कई तालिकाएँ; प्रति-तालिका अनुदान अनुपयोगी हैं।

Lake Formation LF-टैग। तालिकाओं/कॉलमों को टैग करें; प्रिंसिपलों को टैग-आधारित अनुमतियाँ दें। एक नई तालिका जोड़ने के लिए बस सही टैग की आवश्यकता होती है।

संदर्भ

खाता A में डेटा लेक है; खाता B के विश्लेषकों को विशिष्ट तालिकाओं तक पढ़ने की पहुंच की आवश्यकता है।

RAM के माध्यम से Lake Formation क्रॉस-अकाउंट साझाकरण। खाता A, B के IAM प्रिंसिपल/खाते को अनुमतियाँ देता है; B Athena/Redshift Spectrum के माध्यम से एक्सेस करता है।

संदर्भ

Redshift के अंदर पंक्ति-स्तर सुरक्षा (Lake Formation नहीं)।

Redshift नेटिव RLS नीतियाँ: `CREATE RLS POLICY` सत्र संदर्भ (`current_user`, `session_role`) का संदर्भ देते हुए प्रेडिकेट के साथ। तालिका में नीति संलग्न करें।

संदर्भ

अनुपालन के लिए Redshift एन्क्रिप्शन के लिए ऑडिट ट्रेल के साथ ग्राहक-प्रबंधित कुंजी की आवश्यकता है।

ग्राहक-प्रबंधित KMS कुंजी के साथ Redshift क्लस्टर एन्क्रिप्टेड। कुंजी रोटेशन सक्षम; CloudTrail CMK के विरुद्ध प्रत्येक Decrypt ऑपरेशन को कैप्चर करता है।

संदर्भ

कंपनी-प्रबंधित कुंजी के साथ Glue ETL जॉब इनपुट/आउटपुट को एन्क्रिप्ट करें।

S3 + CloudWatch Logs + जॉब बुकमार्क्स के लिए CMK के साथ Glue Security Configuration। कुंजी पर `kms:Decrypt`/`Encrypt` के लिए Glue भूमिका प्रदान की गई।

संदर्भ

S3 डेटा लेक में बैठे PII (नाम, SSN, ईमेल) को खोजें और वर्गीकृत करें।

Amazon Macie। S3 पर ML-ड्रिवन संवेदनशील-डेटा खोज; वस्तु स्थान और PII प्रकार के साथ निष्कर्ष उत्पन्न करता है।

संदर्भ

डेटा लेक बकेट में हर S3 GetObject / PutObject का ऑडिट करें।

बकेट के लिए CloudTrail डेटा इवेंट्स। CloudTrail डिफ़ॉल्ट रूप से केवल प्रबंधन इवेंट्स को लॉग करता है; डेटा इवेंट्स को स्पष्ट रूप से सक्षम किया जाना चाहिए।

क्यों: डेटा इवेंट्स प्रति-इवेंट बिल किए जाते हैं; लागत को नियंत्रित करने के लिए केवल संवेदनशील बकेट तक सीमित करें।

संदर्भ

हर S3 एक्सेस के लिए कौन/कब/IP की आवश्यकता है; CloudTrail डेटा इवेंट्स बहुत महंगे हैं।

S3 सर्वर एक्सेस लॉगिंग। मुफ्त; लॉग एक अलग लॉगिंग बकेट में वितरित किए जाते हैं; CloudTrail की तुलना में कम विवरण लेकिन अनुरोधकर्ता + IP + पथ को कवर करता है।

संदर्भ

खाते में किसी भी बकेट को गलती से सार्वजनिक होने से रोकें, भले ही बकेट नीति ऐसा कहती हो।

खाता स्तर पर S3 Block Public Access। किसी भी बकेट-स्तर की नीति को ओवरराइड करता है; एक गार्डरेल के रूप में लागू किया जाता है।

संदर्भ

VPC में Redshift को सार्वजनिक इंटरनेट पर गए बिना S3 से पढ़ने की आवश्यकता है।

Redshift सबनेट रूट तालिका में S3 Gateway Endpoint। ट्रैफिक AWS बैकबोन के माध्यम से रूट होता है; कोई NAT नहीं, कोई IGW नहीं।

संदर्भ

Glue ETL जॉब को निजी सबनेट में RDS तक पहुंचने और Glue Data Catalog APIs को कॉल करने की आवश्यकता है।

RDS VPC पर Glue कनेक्शन + `glue.amazonaws.com` के लिए Interface VPC Endpoints + S3 Gateway Endpoint।

संदर्भ

Glue ETL को S3 रीड, Redshift राइट, Secrets Manager रीड की आवश्यकता है।

सबसे कम-विशेषाधिकार नीतियों के साथ एकल Glue निष्पादन भूमिका: स्रोत उपसर्ग पर `s3:GetObject`, `redshift-data:ExecuteStatement`, विशिष्ट गुप्त ARN पर `secretsmanager:GetSecretValue`।

संदर्भ

असामान्य डेटा एक्सेस पैटर्न का पता लगाएं — किसी IAM उपयोगकर्ता द्वारा बड़ी डाउनलोड जिसमें पहले डेटा-लेक एक्सेस नहीं था।

GuardDuty S3 Protection। प्रति IAM प्रिंसिपल व्यवहारिक बेसलाइन; विषम एक्सेस वॉल्यूम/पैटर्न पर निष्कर्ष।

संदर्भ

अनुपालन के लिए 7 साल के लिए वित्तीय डेटा पर WORM (एक बार लिखें, कई बार पढ़ें) प्रतिधारण की आवश्यकता है।

Compliance मोड + 7 वर्ष की प्रतिधारण अवधि के साथ S3 Object Lock। रूट भी हटा नहीं सकता; SEC 17a-4 / FINRA को पूरा करता है।

संदर्भ

HIPAA / SOC 2 ऑडिट के लिए सतत अनुपालन साक्ष्य संग्रह।

पूर्व-निर्मित फ्रेमवर्क के साथ AWS Audit Manager। CloudTrail, Config, Security Hub से साक्ष्य स्वतः-संग्रहित करता है; ऑडिट-तैयार रिपोर्ट उत्पन्न करता है।

संदर्भ