יצירת העתק כמעט בזמן אמת, לקריאה בלבד, של Azure SQL Database ב-Fabric מבלי להשפיע על המקור.
→שימוש ב-Fabric Mirroring עבור Azure SQL Database.
למה: Mirroring מספק שכפול נתונים רציף עם השהיה נמוכה ל-OneLake כטבלאות Delta, אידיאלי לניתוח בזמן אמת ללא פיתוח ETL.
שיתוף מערך נתונים עם סביבת עבודה אחרת או גישה לנתונים חיצוניים מבלי ליצור עותק.
→יצירת Shortcut המצביע על טבלת Lakehouse המקורית או מיקום נתונים חיצוני.
למה: Shortcuts פועלים כקישורים סימבוליים, ומספקים תצוגה אחידה של נתונים ב-OneLake תוך הימנעות משכפול נתונים, עלויות אחסון ובעיות סנכרון.
שילוב נתונים זורמים במהירות גבוהה עם נתוני אצווה היסטוריים לניתוח אחיד.
→שימוש ב-Eventstream לקליטה בזמן אמת וב-Lakehouse עם טבלאות Delta Lake לאחסון אחיד.
למה: Eventstream מטפל בנתיב הזרמת הנתונים, בעוד שתכונות ה-ACID של Delta Lake מאפשרות לו לשמש כיעד הן עבור הוספות זורמות והן עבור עדכוני אצווה.
הפעלת ניתוח מבוסס T-SQL ומדעי נתונים מבוססי Python על אותם נתוני Lakehouse.
→ניצול ה-SQL analytics endpoint שנוצר אוטומטית עבור ה-Lakehouse.
למה: Fabric מספק גישת מנוע כפול לאותן טבלאות Delta: SQL endpoint עבור שאילתות T-SQL ומנוע Spark עבור מחברות, ללא שכפול נתונים.
קליטת נתונים ממקור נתונים מקומי (לדוגמה, Oracle, SQL Server) ל-Fabric.
→התקנה והגדרה של on-premises data gateway.
למה: ה-Gateway פועל כגשר מאובטח, המעביר נתונים בין הרשת המקומית לשירות הענן של Fabric מבלי לחשוף את המקור לאינטרנט.
עיבוד אוטומטי של קבצים חדשים מיד עם הגעתם ל-Azure Blob Storage.
→שימוש ב-Storage Event trigger עבור Pipeline הנתונים, המוגדר להיפעל באירועי יצירת Blob.
למה: טריגרים מונחי אירועים מספקים השהיה נמוכה יותר והם יעילים יותר מסקר תקופתי (polling) מתוזמן, שעלול להחמיץ נתונים או לרוץ ללא צורך.
הטמעת לוגיקת Slowly Changing Dimension Type 2 או עיבוד זרמי Change Data Capture (CDC).
→שימוש בפעולת MERGE של Delta Lake עם סעיפי `WHEN MATCHED` ו-`WHEN NOT MATCHED`.
למה: MERGE מספק יכולות upsert אטומיות (עדכון/הוספה/מחיקה), שהיא הפעולה הבסיסית לשמירת רשומות היסטוריות בתבניות SCD2.
המרת עמודת DataFrame המכילה מערכים מקוננים של אובייקטים לשורות נפרדות.
→החלת פונקציית `explode()` על עמודת המערך במחברת PySpark.
למה: `explode()` היא פונקציית Spark הסטנדרטית לפריסת מערכים, היוצרת שורה חדשה עבור כל אלמנט במערך.
טיפול בנתונים שמגיעים באיחור באגרגציה זורמת עם מצב (stateful) (לדוגמה, ספירות בחלון).
→הגדרת watermark על עמודת זמן האירוע בשאילתת Spark Structured Streaming.
למה: Watermarking מגדיר סף זמן למשך כמה זמן המנוע ימתין לנתונים מאוחרים, מונע מצב מלגדול ללא הגבלה תוך הבטחת נכונות.
ביצוע טעינת נתונים מצטברת ממערכת מקור שיש לה עמודת Timestamp אך אין לה CDC.
→הטמעת תבנית high-watermark. אחסון ה-Timestamp המקסימלי מההרצה האחרונה ושימוש בו לסינון המקור בהרצה הבאה.
למה: זוהי תבנית יעילה ונפוצה לחילוץ רק רשומות חדשות או מעודכנות ללא תקורה של סריקות טבלה מלאות או דרישה ל-CDC רשמי.
פעילות pipeline נכשלת לסירוגין עקב בעיות רשת חולפות או עומס במערכת המקור.
→הגדרת מדיניות הניסיונות החוזרים של הפעילות עם ספירה ורווח אחורי אקספוננציאלי.
למה: בבניית חוסן ל-pipeline על ידי ניסיון אוטומטי של פעולות שנכשלו, ולעיתים קרובות פותר בעיות חולפות ללא התערבות ידנית.
קליטת ושאילתת נתוני טלמטריה או לוגים בנפח גבוה ובהשהיה נמוכה לצורך ניתוח אקספלורטורי בזמן אמת.
→קליטת נתונים ל-Eventhouse ושאילתתם באמצעות Kusto Query Language (KQL).
למה: Eventhouse (הבנוי על Azure Data Explorer) ו-KQL מיועדים במיוחד לניתוח טורי זמן ולוגים בביצועים גבוהים.
יצירת pipeline יחיד וניתן לשימוש חוזר לטעינת עשרות טבלאות החולקות את אותה לוגיקת טרנספורמציה.
→שימוש בגישה מונחית-מטא-נתונים. אחסון מידע מקור/יעד בטבלת בקרה ושימוש בפעילות ForEach כדי לבצע איטרציה ולהעביר פרמטרים ל-child pipeline גנרי.
למה: תבנית זו ניתנת להרחבה ותחזוקה גבוהה, ומונעת כפילות ותקורה ניהולית של יצירת pipelines נפרדים לכל טבלה.
אופטימיזציה של ביצועי Dataflow Gen2 המקור נתונים ממסד נתונים יחסי כמו SQL Server.
→תכנון טרנספורמציות הניתנות לקיפול (folding). אימות מצב קיפול השאילתה בעורך Power Query.
למה: קיפול שאילתות דוחף את לוגיקת הטרנספורמציה למטה למנוע מסד הנתונים המקור, שהיא בעלת ביצועים משמעותית טובים יותר מאשר משיכת כל הנתונים למנוע Spark לצורך טרנספורמציה.
שאילתת טבלה כפי שהייתה בנקודת זמן ספציפית בעבר לצורך ביקורת או שחזור מעדכון בשוגג.
→שימוש בתכונת time travel של Delta Lake עם `VERSION AS OF` או `TIMESTAMP AS OF` בשאילתה.
למה: Delta Lake מגדיר גרסאות באופן מובנה לכל טרנזקציה, ומאפשר שאילתות לנקודת זמן ספציפית ללא צורך בצילומי מצב ידניים או גיבויים.