EC2 फ़्लीट से मेमोरी, डिस्क और प्रोसेस मेट्रिक्स एकत्र करें। डिफ़ॉल्ट CloudWatch मेट्रिक्स में वे शामिल नहीं होते हैं।
→SSM Distributor या `AmazonCloudWatch-ManageAgent` Run Command के माध्यम से CloudWatch एजेंट इंस्टॉल करें। Parameter Store से एजेंट कॉन्फ़िग पुश करें।
क्यों: मेमोरी और डिस्क गेस्ट-OS मेट्रिक्स हैं — हाइपरवाइज़र उन्हें नहीं देख सकता। डिफ़ॉल्ट CW मेट्रिक्स केवल EBS लेयर पर CPU/नेटवर्क/डिस्क-IO होते हैं।
संदर्भ↗
एप्लिकेशन को CloudWatch पर एक व्यावसायिक KPI (जैसे ऑर्डर/मिनट) प्रकाशित करने की आवश्यकता है।
→कस्टम नेमस्पेस + आयामों के साथ `PutMetricData` API का उपयोग करें। उच्च-मात्रा वाले उपयोग के लिए एम्बेडेड मेट्रिक फ़ॉर्मेट (EMF) का उपयोग करें — लॉग में संरचित JSON लिखें और CW स्वचालित रूप से मेट्रिक्स निकालता है।
संदर्भ↗
उच्च-कार्डिनैलिटी वाले कस्टम मेट्रिक्स की लागत कम करें।
→एम्बेडेड मेट्रिक फ़ॉर्मेट (EMF)। एक संरचित इवेंट एक बार लॉग करें; CW उससे मेट्रिक्स निकालता है। एक लॉग + एक मेट्रिक = प्रति आयाम कॉम्बो के लिए अलग `PutMetricData` कॉल की तुलना में सस्ता।
संदर्भ↗
स्थैतिक थ्रेशोल्ड अलार्म झूठे सकारात्मक परिणाम उत्पन्न करते हैं क्योंकि ट्रैफ़िक में दैनिक/साप्ताहिक मौसमीता होती है।
→CloudWatch विसंगति डिटेक्शन अलार्म। बैंड सीखी हुई मौसमीता के अनुसार अनुकूलित होते हैं; अलार्म तब सक्रिय होता है जब मेट्रिक बैंड से बाहर हो जाता है।
क्यों: मौसमी वर्कलोड में परिवर्तनीय सामान्य होता है — निश्चित थ्रेशोल्ड आधे समय गलत होते हैं।
संदर्भ↗
ऑन-कॉल को केवल तभी सूचित करें जब उच्च-त्रुटि-दर और कम-ट्रैफ़िक दोनों हों — न कि जब कोई एक अकेला ट्रिगर हो।
→नियम अभिव्यक्ति `ALARM(errors) AND ALARM(low_traffic)` के साथ कंपोजिट अलार्म। अंतर्निहित अलार्म अभी भी व्यक्तिगत रूप से सक्रिय होते हैं लेकिन केवल कंपोजिट ही SNS को सूचित करता है।
संदर्भ↗
`ERROR uid=123` जैसी लॉग लाइनों को अलार्म के लिए CloudWatch मेट्रिक में बदलें।
→CloudWatch Logs मेट्रिक फ़िल्टर — पैटर्न `ERROR` एक मेट्रिक को बढ़ाता है। फिर मेट्रिक पर एक अलार्म बनाएं।
क्यों: फ़िल्टर लॉग इनजेस्ट करते समय मूल्यांकन किए जाते हैं; किसी अलग पार्सिंग पाइपलाइन की आवश्यकता नहीं होती है।
संदर्भ↗
पिछले एक घंटे में कई लॉग स्ट्रीम में 5xx त्रुटियाँ पैदा करने वाले शीर्ष 10 IPs का पता लगाएं।
→CloudWatch Logs Insights क्वेरी: `fields @timestamp, @message | filter @message like /5\d\d/ | stats count() by clientIp | sort count desc | limit 10`।
संदर्भ↗
लॉग ग्रुप रिटेंशन डिफ़ॉल्ट रूप से "कभी समाप्त न हो" पर सेट होता है — बिल बढ़ रहा है।
→प्रति लॉग ग्रुप रिटेंशन सेट करें (1 दिन–10 साल)। `aws logs put-retention-policy` या AWS Config नियम के माध्यम से लागू करें जो नए ग्रुप्स को स्वचालित रूप से ठीक करता है।
संदर्भ↗
50 खातों से लॉग को एक सुरक्षा खाते में केंद्रीकृत करें।
→प्रत्येक स्रोत लॉग ग्रुप पर सब्सक्रिप्शन फ़िल्टर → केंद्रीय खाते में Kinesis Data Streams या Firehose। मेट्रिक्स + ट्रेसेस के लिए CloudWatch क्रॉस-अकाउंट ऑब्ज़र्वेबिलिटी।
संदर्भ↗
कम लागत पर लंबे समय तक लॉग संग्रह।
→लॉग ग्रुप को Kinesis Firehose → Glacier ट्रांज़िशन लाइफ़सायकल के साथ S3 पर सब्सक्राइब करें। या सीधे S3 पर निर्धारित `CreateExportTask`।
क्यों: Firehose निरंतर है; ExportTask ऑन-डिमांड बल्क निर्यात है। S3 + Glacier, CW Logs स्टोरेज से 100 गुना सस्ता है।
संदर्भ↗
IAM एक्सेस के बिना किसी गैर-AWS कॉन्ट्रैक्टर के साथ एक ऑप्स डैशबोर्ड साझा करें।
→CloudWatch डैशबोर्ड शेयरिंग — सार्वजनिक शेयर लिंक (Cognito द्वारा प्रदान की गई प्रमाणीकरण के साथ) या गुमनाम (विशिष्ट डैशबोर्ड तक सीमित)।
संदर्भ↗
जब EC2 इंस्टेंस `stopped` स्थिति में जाए तो Lambda को ट्रिगर करें।
→इवेंट पैटर्न `{"source":["aws.ec2"],"detail-type":["EC2 Instance State-change Notification"],"detail":{"state":["stopped"]}}` → Lambda लक्ष्य के साथ EventBridge नियम।
संदर्भ↗
जब AWS आपके किसी RDS इंस्टेंस के लिए निर्धारित रखरखाव की घोषणा करे तो स्वचालित रूप से एक टिकट बनाएं।
→AWS Health → EventBridge डिफ़ॉल्ट बस → Lambda या SNS → टिकट सिस्टम। `source: aws.health` और प्रभावित संसाधन पर फ़िल्टर करें।
संदर्भ↗
ग्राहकों के शिकायत करने से पहले पता लगाएं कि सार्वजनिक वेबसाइट 404s कब है।
→CloudWatch Synthetics canary — हर मिनट स्क्रिप्टेड ब्राउज़र हिट, विफलता पर स्क्रीनशॉट, विफल रन पर अलार्म।
संदर्भ↗
वास्तविक उपयोगकर्ताओं से ब्राउज़र-साइड पेज-लोड समय और JavaScript त्रुटियों को मापें।
→CloudWatch RUM। पेज पर स्निपेट प्रदर्शन + त्रुटि डेटा भेजता है। बैकएंड सहसंबंध के लिए X-Ray के साथ युग्मित करें।
संदर्भ↗
हर इंस्टेंस पर CloudWatch को मैन्युअल रूप से जांचे बिना EC2 फ़्लीट का सही आकार निर्धारित करें।
→AWS Compute Optimizer — CW मेट्रिक्स + मेमोरी डेटा (एजेंट के साथ) का विश्लेषण करता है और इंस्टेंस-टाइप परिवर्तनों की सिफारिश करता है। इसमें EC2, ASG, EBS, Lambda, ECS Fargate शामिल हैं।
संदर्भ↗
200 खातों में "क्या हर EBS वॉल्यूम पर एन्क्रिप्शन-एट-रेस्ट सक्षम है" देखें।
→मल्टी-अकाउंट मल्टी-रीजन ऑथोराइजेशन के साथ AWS Config एग्रीगेटर। एग्रीगेटर डैशबोर्ड + उन्नत क्वेरीज़ (SQL)।
संदर्भ↗
गैर-अनुपालक संसाधनों को स्वचालित रूप से ठीक करें (जैसे अनएन्क्रिप्टेड EBS वॉल्यूम → स्नैपशॉट + एन्क्रिप्टेड फिर से बनाएं)।
→AWS Config नियम + SSM Automation रनबुक के माध्यम से स्वचालित सुधार कार्रवाई। पुनः प्रयास संख्या + पैरामीटर निर्दिष्ट करें।
संदर्भ↗
कस्टम स्क्रिप्ट लिखे बिना लागत बचत के अवसर और सुरक्षा जोखिमों को उजागर करें।
→AWS Trusted Advisor। लागत / प्रदर्शन / सुरक्षा / दोष सहिष्णुता / सेवा सीमाएं जांचें। पूर्ण चेक सेट के लिए Business या Enterprise Support की आवश्यकता होती है।
संदर्भ↗
आने वाले लॉन्च के लिए किसी क्षेत्र में EC2 vCPU कोटा बढ़ाने की आवश्यकता है।
→Service Quotas कंसोल — कोटा वृद्धि का अनुरोध करें। या स्क्रिप्ट करने के लिए Service Quotas API का उपयोग करें। कुछ कोटा स्वचालित रूप से अनुमोदित होते हैं; अन्य Support के माध्यम से जाते हैं।
संदर्भ↗
मासिक बिल आने से पहले अप्रत्याशित लागत स्पाइक्स को पकड़ें।
→AWS Cost Anomaly Detection — ML-आधारित; प्रति सेवा / लिंक्ड अकाउंट / लागत श्रेणी के मॉनिटर कॉन्फ़िगर करें। SNS या ईमेल के माध्यम से अलर्ट।
संदर्भ↗
यदि मासिक बजट थ्रेशोल्ड से अधिक हो तो गैर-उत्पादन EC2 को स्वचालित रूप से रोकें।
→AWS Budgets एक्शन — थ्रेशोल्ड पर, एक SSM ऑटोमेशन चलाएं जो टैग किए गए इंस्टेंस को रोकता है या IAM के माध्यम से एक डिनाई-ऑल SCP लागू करता है।
संदर्भ↗