विभिन्न ऑन-प्रिमाइसेस और क्लाउड स्रोतों से डेटा को स्थानांतरित और रूपांतरित करने वाले जटिल डेटा एकीकरण वर्कफ़्लो को बनाने, शेड्यूल करने और मॉनिटर करने की आवश्यकता है।
→Azure Data Factory (ADF) का उपयोग करें।
क्यों: ADF बड़े पैमाने पर ETL/ELT पाइपलाइन बनाने और प्रबंधित करने के लिए एक प्रबंधित क्लाउड ऑर्केस्ट्रेशन सेवा है, जिसमें व्यापक कनेक्टिविटी और निगरानी क्षमताएं हैं।
संदर्भ↗
एक Azure Data Factory पाइपलाइन को कॉर्पोरेट फ़ायरवॉल के पीछे ऑन-प्रिमाइसेस स्थित डेटा स्रोत तक पहुंचने की आवश्यकता है।
→ऑन-प्रिमाइसेस नेटवर्क के भीतर एक मशीन पर सेल्फ-होस्टेड इंटीग्रेशन रनटाइम (IR) स्थापित करें।
क्यों: सेल्फ-होस्टेड IR एक सुरक्षित गेटवे के रूप में कार्य करता है, जिससे क्लाउड में ADF ऑन-प्रिमाइसेस स्रोतों से डेटा को सार्वजनिक इंटरनेट पर उजागर किए बिना कनेक्ट और स्थानांतरित कर सकता है।
डेटा वेयरहाउसिंग (SQL), बड़े डेटा एनालिटिक्स (Spark), डेटा अन्वेषण (सर्वरलेस SQL), और डेटा एकीकरण के लिए एक एकल, एकीकृत प्लेटफ़ॉर्म की आवश्यकता है।
→Azure Synapse Analytics का उपयोग करें।
क्यों: Synapse एक एकीकृत कार्यक्षेत्र (Synapse Studio) प्रदान करता है जो इन विभिन्न विश्लेषणात्मक इंजनों को एक साथ लाता है, जिससे जटिलता और एकीकरण ओवरहेड कम होता है।
Synapse Analytics के भीतर एक SQL क्वेरी इंजन चुनना।
→डेटा लेक में डेटा पर एड-हॉक, एक्सप्लोरेटरी क्वेरीज़ के लिए पे-पर-क्वेरी मॉडल के साथ सर्वरलेस SQL पूल का उपयोग करें। प्रोविज़न्ड संसाधनों के साथ उच्च-प्रदर्शन, अनुमानित डेटा वेयरहाउसिंग वर्कलोड के लिए डेडिकेटेड SQL पूल का उपयोग करें।
क्यों: सर्वरलेस अप्रत्याशित अन्वेषण और खोज के लिए है। डेडिकेटेड प्रदर्शन SLAs के साथ उत्पादन BI और रिपोर्टिंग के लिए है।
लाइव डैशबोर्ड को पावर देने या अलर्ट ट्रिगर करने के लिए IoT Hub या Event Hubs जैसे स्रोतों से उच्च-मात्रा स्ट्रीमिंग डेटा को वास्तविक समय में संसाधित और विश्लेषण करने की आवश्यकता है।
→Azure Stream Analytics का उपयोग करें।
क्यों: Stream Analytics एक वास्तविक समय इवेंट प्रोसेसिंग इंजन है जो कम विलंबता के साथ गति में डेटा का विश्लेषण करने के लिए एक सरल SQL-जैसी क्वेरी भाषा का उपयोग करता है।
एक डेटा साइंस टीम को Apache Spark का उपयोग करके बड़े पैमाने पर डेटा इंजीनियरिंग और मशीन लर्निंग के लिए एक सहयोगी, नोटबुक-आधारित वातावरण की आवश्यकता है।
→Azure Databricks का उपयोग करें।
क्यों: Databricks एक अनुकूलित Spark रनटाइम, सहयोगी नोटबुक, और एकीकृत ML क्षमताएं (MLflow) प्रदान करता है, जिससे यह Azure पर उन्नत एनालिटिक्स और ML के लिए प्रमुख प्लेटफ़ॉर्म बन जाता है।
वास्तविक समय प्रसंस्करण के लिए मोबाइल ऐप्स, वेब टेलीमेट्री, या IoT उपकरणों जैसे स्रोतों से प्रति सेकंड लाखों घटनाओं को अंतर्ग्रहण करने की आवश्यकता है।
→Azure Event Hubs का उपयोग करें।
क्यों: Event Hubs उच्च-थ्रूपुट इवेंट अंतर्ग्रहण के लिए डिज़ाइन किया गया एक बड़ा डेटा स्ट्रीमिंग प्लेटफ़ॉर्म है। यह स्ट्रीमिंग डेटा के लिए "सामने का दरवाजा" के रूप में कार्य करता है, जो उत्पादकों को उपभोक्ताओं से अलग करता है।
एक संगठन एक एकल, एकीकृत SaaS एनालिटिक्स प्लेटफ़ॉर्म चाहता है जो न्यूनतम बुनियादी ढांचे के प्रबंधन के साथ डेटा इंजीनियरिंग, डेटा साइंस, डेटा वेयरहाउसिंग और BI को जोड़ता है।
→Microsoft Fabric का उपयोग करें।
क्यों: Fabric एक एकल डेटा लेक (OneLake) पर निर्मित एक एंड-टू-एंड, SaaS-आधारित एनालिटिक्स अनुभव प्रदान करता है। यह अलग PaaS सेवाओं के साथ निर्माण की तुलना में वास्तुकला को सरल बनाता है और एकीकरण ओवरहेड को कम करता है।
संदर्भ↗
Microsoft Fabric के भीतर, खुले डेल्टा लेक प्रारूप में डेटा संग्रहीत करने के लिए एक एकल कलाकृति की आवश्यकता है जिसे Spark इंजनों (डेटा इंजीनियरिंग के लिए) और SQL इंजनों (BI के लिए) दोनों द्वारा एक्सेस किया जा सके।
→एक Microsoft Fabric Lakehouse का उपयोग करें।
क्यों: Lakehouse Fabric में मुख्य वास्तुशिल्प पैटर्न है। यह डेटा लेक की स्केलेबिलिटी और लचीलेपन को डेटा वेयरहाउस की ट्रांजेक्शनल गारंटी और SQL क्वेरी क्षमताओं के साथ जोड़ता है।
Microsoft Fabric में एक Power BI रिपोर्ट को OneLake से सीधे बड़ी मात्रा में डेटा को क्वेरी करने की आवश्यकता है जिसमें इंपोर्ट मोड का प्रदर्शन हो लेकिन DirectQuery की डेटा ताजगी हो।
→Power BI में Direct Lake मोड का उपयोग करें।
क्यों: Direct Lake एक अद्वितीय Fabric सुविधा है जो Parquet/Delta फ़ाइलों को सीधे Power BI इंजन मेमोरी में मांग पर लोड करती है, डेटा दोहराव और क्वेरी विलंबता से बचाती है जबकि लगभग वास्तविक समय डेटा एक्सेस प्रदान करती है।
व्यवसाय उपयोगकर्ताओं को विभिन्न डेटा स्रोतों से कनेक्ट करने, इंटरैक्टिव डैशबोर्ड और रिपोर्ट बनाने, और संगठन भर में अंतर्दृष्टि साझा करने की आवश्यकता है।
→Power BI का उपयोग करें।
क्यों: Power BI इंटरैक्टिव डेटा विज़ुअलाइज़ेशन बनाने के लिए Microsoft की व्यावसायिक एनालिटिक्स सेवा है। लेखन के लिए Power BI Desktop और साझाकरण और सहयोग के लिए Power BI Service का उपयोग करें।
Power BI में बहु-पृष्ठ इंटरैक्टिव विश्लेषण और एकल-पृष्ठ, उच्च-स्तरीय अवलोकन के बीच अंतर करना।
→एक रिपोर्ट एक ही डेटासेट से निर्मित विस्तृत, इंटरैक्टिव विज़ुअल का एक बहु-पृष्ठ संग्रह है। एक डैशबोर्ड एक या अधिक रिपोर्ट से पिन किए गए टाइल्स का एक एकल कैनवास है, जो एक नज़र में अवलोकन प्रदान करता है।
क्यों: रिपोर्ट गहन विश्लेषण के लिए हैं। डैशबोर्ड मुख्य मेट्रिक्स की निगरानी के लिए हैं।
एक एकल Power BI रिपोर्ट को कई उपयोगकर्ताओं के साथ साझा किया जाना चाहिए, लेकिन प्रत्येक उपयोगकर्ता को केवल उनके लिए प्रासंगिक डेटा ही दिखना चाहिए (उदाहरण के लिए, एक बिक्री प्रबंधक को केवल अपने क्षेत्र का डेटा दिखता है)।
→रो-लेवल सिक्योरिटी (RLS) लागू करें।
क्यों: RLS उपयोगकर्ता भूमिकाओं के आधार पर फ़िल्टर नियम परिभाषित करता है, डेटा मॉडल स्तर पर डेटा सुरक्षा को लागू करता है ताकि एक ही रिपोर्ट तक पहुंचने वाले उपयोगकर्ता डेटा के विभिन्न उपसमूह देखें।
अत्यधिक स्वरूपित, पिक्सेल-परफेक्ट रिपोर्ट (जैसे चालान या वित्तीय विवरण) उत्पन्न करने की आवश्यकता है जो मुद्रण या PDF निर्यात के लिए अनुकूलित हैं।
→Power BI Paginated Reports का उपयोग करें।
क्यों: पृष्ठित रिपोर्ट प्रिंट-रेडी लेआउट के लिए डिज़ाइन की गई हैं जिसमें हेडर, फुटर और पेज ब्रेक पर सटीक नियंत्रण होता है, मानक इंटरैक्टिव Power BI रिपोर्ट के विपरीत जो ऑन-स्क्रीन अन्वेषण के लिए होती हैं।
अरबों पंक्तियों वाले एक Power BI डेटासेट को रीफ़्रेश होने में बहुत अधिक समय लगता है। केवल पिछले कुछ दिनों का डेटा ही अक्सर बदलता रहता है।
→डेटासेट पर वृद्धिशील रीफ़्रेश कॉन्फ़िगर करें।
क्यों: वृद्धिशील रीफ़्रेश डेटा को विभाजित करता है (आमतौर पर तिथि के अनुसार) और केवल सबसे हाल के विभाजन को रीफ़्रेश करता है, जिससे बड़े डेटासेट के लिए रीफ़्रेश समय और संसाधन उपयोग नाटकीय रूप से कम हो जाता है।
एक एकल Power BI रिपोर्ट को प्री-लोडेड, उच्च-प्रदर्शन डेटा (इंपोर्ट मोड) को एक ऑपरेशनल स्रोत (DirectQuery मोड) से वास्तविक समय डेटा के साथ संयोजित करने की आवश्यकता है।
→Power BI कंपोजिट मॉडल का उपयोग करें।
क्यों: कंपोजिट मॉडल एक एकल डेटासेट को विभिन्न स्टोरेज मोड वाली तालिकाओं को मिलाने की अनुमति देते हैं, जिससे प्रदर्शन और डेटा की ताजगी को संतुलित करने के लिए लचीलापन मिलता है।
एक संगठन को डेटा शासन और खोज को सक्षम करने के लिए अपने हाइब्रिड डेटा एस्टेट में सभी डेटा संपत्तियों की खोज, वर्गीकरण और कैटलॉग करने की आवश्यकता है।
→Microsoft Purview का उपयोग करें।
क्यों: Purview एक एकीकृत डेटा शासन सेवा है जो स्वचालित डेटा स्कैनिंग, एक व्यावसायिक शब्दावली, डेटा वर्गीकरण, और एंड-टू-एंड डेटा लीनिएज विज़ुअलाइज़ेशन प्रदान करती है।