יש צורך לבנות, לתזמן ולנטר זרימות עבודה מורכבות של אינטגרציית נתונים המעבירות ומבצעות טרנספורמציה לנתונים ממקורות מקומיים וענן שונים.
→השתמש ב-Azure Data Factory (ADF).
למה: ADF הוא שירות תזמור ענן מנוהל לבנייה וניהול צינורות ETL/ELT בקנה מידה, עם יכולות קישוריות וניטור נרחבות.
מקור↗
צינור Azure Data Factory צריך לגשת למקור נתונים הממוקם מקומית מאחורי חומת אש ארגונית.
→התקן Integration Runtime (IR) בהתקנה עצמית (Self-hosted) במכונה בתוך הרשת המקומית.
למה: ה-IR בהתקנה עצמית פועל כשער מאובטח, המאפשר ל-ADF בענן להתחבר למקורות נתונים מקומיים ולהעביר מהם נתונים מבלי לחשוף אותם לאינטרנט הציבורי.
יש צורך בפלטפורמה אחת, משולבת, למחסן נתונים (SQL), ניתוח נתונים גדולים (Spark), חקר נתונים (SQL ללא שרת), ואינטגרציית נתונים.
→השתמש ב-Azure Synapse Analytics.
למה: Synapse מספק סביבת עבודה מאוחדת (Synapse Studio) המאגדת את מנועי הניתוח השונים הללו, ומפחיתה את המורכבות ואת עלויות האינטגרציה.
בחירת מנוע שאילתות SQL בתוך Synapse Analytics.
→השתמש ב-Serverless SQL pool עבור שאילתות אד-הוק וחקירתיות על נתונים באגם הנתונים עם מודל תשלום לפי שאילתה. השתמש ב-Dedicated SQL pool עבור עומסי עבודה של מחסן נתונים בעלי ביצועים גבוהים וצפויים עם משאבים שהוקצו מראש.
למה: Serverless מיועד לחקירה וגילוי בלתי צפויים. Dedicated מיועד ל-BI ודיווח בסביבת ייצור עם SLAs של ביצועים.
יש צורך לעבד ולנתח נתוני זרם בנפח גבוה בזמן אמת ממקורות כמו IoT Hub או Event Hubs כדי להניע לוחות מחוונים חיים או להפעיל התראות.
→השתמש ב-Azure Stream Analytics.
למה: Stream Analytics הוא מנוע עיבוד אירועים בזמן אמת המשתמש בשפת שאילתות דמוית SQL פשוטה לניתוח נתונים בתנועה עם זמן אחזור נמוך.
צוות מדע נתונים זקוק לסביבה שיתופית מבוססת מחברות (notebooks) עבור הנדסת נתונים ולמידת מכונה בקנה מידה גדול באמצעות Apache Spark.
→השתמש ב-Azure Databricks.
למה: Databricks מספק סביבת ריצה ממוטבת של Spark, מחברות שיתופיות, ויכולות ML משולבות (MLflow), מה שהופך אותו לפלטפורמה המובילה עבור אנליטיקה מתקדמת ו-ML ב-Azure.
יש צורך לקלוט מיליוני אירועים בשנייה ממקורות כמו יישומים ניידים, טלמטריה אינטרנטית, או התקני IoT עבור עיבוד בזמן אמת.
→השתמש ב-Azure Event Hubs.
למה: Event Hubs היא פלטפורמת הזרמת נתונים גדולים המיועדת לקליטת אירועים בתפוקה גבוהה. היא פועלת כ"דלת הכניסה" לנתונים זורמים, ומנתקת את המפיקים מהצרכנים.
ארגון רוצה פלטפורמת אנליטיקה יחידה ומאוחדת מבוססת SaaS המשלבת הנדסת נתונים, מדעי נתונים, מחסני נתונים ו-BI עם ניהול תשתית מינימלי.
→השתמש ב-Microsoft Fabric.
למה: Fabric מספק חווית אנליטיקה מקצה לקצה מבוססת SaaS, הבנויה על אגם נתונים יחיד (OneLake). היא מפשטת את הארכיטקטורה ומפחיתה את עלויות האינטגרציה בהשוואה לבנייה עם שירותי PaaS נפרדים.
מקור↗
בתוך Microsoft Fabric, יש צורך באובייקט יחיד לאחסון נתונים בפורמט Delta Lake פתוח שניתן לגשת אליו הן על ידי מנועי Spark (להנדסת נתונים) והן על ידי מנועי SQL (ל-BI).
→השתמש ב-Microsoft Fabric Lakehouse.
למה: Lakehouse הוא דפוס הארכיטקטורה המרכזי ב-Fabric. הוא משלב את הסקלביליות והגמישות של אגם נתונים עם ערבויות טרנזקציונליות ויכולות שאילתות SQL של מחסן נתונים.
דוח Power BI ב-Microsoft Fabric צריך לבצע שאילתות על כמויות גדולות של נתונים ישירות מ-OneLake עם הביצועים של מצב ייבוא (import mode) אך עם עדכניות הנתונים של DirectQuery.
→השתמש במצב Direct Lake ב-Power BI.
למה: Direct Lake היא תכונה ייחודית של Fabric הטוענת קבצי Parquet/Delta ישירות לזיכרון מנוע Power BI לפי דרישה, מונעת כפילות נתונים וזמן אחזור שאילתות תוך מתן גישה לנתונים בזמן אמת כמעט.
משתמשים עסקיים צריכים להתחבר למקורות נתונים שונים, ליצור לוחות מחוונים ודוחות אינטראקטיביים, ולשתף תובנות ברחבי הארגון.
→השתמש ב-Power BI.
למה: Power BI הוא שירות האנליטיקה העסקית של מיקרוסופט לבניית הדמיות נתונים אינטראקטיביות. השתמש ב-Power BI Desktop לכתיבה וב-Power BI Service לשיתוף פעולה.
הבחנה בין ניתוח אינטראקטיבי מרובה עמודים לבין סקירה כללית ברמה גבוהה בעלת עמוד אחד ב-Power BI.
→דוח (Report) הוא אוסף רב-עמודים של חזותיים מפורטים ואינטראקטיביים הבנויים ממערך נתונים יחיד. לוח מחוונים (Dashboard) הוא קנבס יחיד של אריחים המוצמדים מדוח אחד או יותר, ומספק תצוגה מהירה.
למה: דוחות מיועדים לניתוח מעמיק. לוחות מחוונים מיועדים לניטור מדדי מפתח.
יש לשתף דוח Power BI יחיד עם מספר משתמשים, אך כל משתמש צריך לראות רק את הנתונים הרלוונטיים לו (לדוגמה, מנהל מכירות רואה רק את נתוני האזור שלו).
→יישם אבטחה ברמת השורה (RLS).
למה: RLS מגדיר כללי סינון המבוססים על תפקידי משתמשים, ואוכף אבטחת נתונים ברמת מודל הנתונים כך שמשתמשים הניגשים לאותו דוח יראו תת-קבוצות שונות של נתונים.
יש צורך לייצר דוחות מעוצבים מאוד, מדויקים לפיקסל (כמו חשבוניות או דוחות כספיים) המותאמים להדפסה או לייצוא ל-PDF.
→השתמש ב-Power BI Paginated Reports.
למה: דוחות מחולקים לדפים (Paginated reports) מיועדים לפריסות מוכנות להדפסה עם שליטה מדויקת על כותרות, כותרות תחתונות ומעברי עמודים, בניגוד לדוחות Power BI אינטראקטיביים סטנדרטיים המיועדים לחקר על המסך.
ערכת נתונים של Power BI המכילה מיליארדי שורות אורכת זמן רב מדי לרענון. רק הימים האחרונים של הנתונים משתנים לעתים קרובות.
→הגדר רענון מצטבר על ערכת הנתונים.
למה: רענון מצטבר מחלק את הנתונים למחיצות (בדרך כלל לפי תאריך) ומרענן רק את המחיצות האחרונות, ומפחית באופן דרמטי את זמן הרענון וצריכת המשאבים עבור מערכי נתונים גדולים.
דוח Power BI יחיד צריך לשלב נתונים טעונים מראש ובעלי ביצועים גבוהים (מצב ייבוא) עם נתונים בזמן אמת ממקור תפעולי (מצב DirectQuery).
→השתמש במודלים מורכבים של Power BI.
למה: מודלים מורכבים מאפשרים למערך נתונים יחיד לשלב טבלאות עם מצבי אחסון שונים, ומספקים את הגמישות לאזן בין ביצועים ועדכניות נתונים.
ארגון צריך לגלות, לסווג ולתעד את כל נכסי הנתונים ברחבי נכסי הנתונים ההיברידיים שלו כדי לאפשר ניהול נתונים וגילוי.
→השתמש ב-Microsoft Purview.
למה: Purview הוא שירות ניהול נתונים מאוחד המספק סריקת נתונים אוטומטית, מילון מונחים עסקי, סיווג נתונים והדמיית שושלת נתונים מקצה לקצה.