אופטימיזציה של טבלת BigQuery גדולה עבור עלויות שאילתה וביצועים.
→חלק את הטבלה לפי עמודת יחידת זמן המסוננת לעיתים קרובות (לדוגמה, תאריך עסקה). מקבץ את הטבלה לפי עמודות אחרות בעלות קרדינליות גבוהה ומסוננות לעיתים קרובות (לדוגמה, `customer_id`).
למה: חלוקה היא הדרך היעילה ביותר להפחית עלויות והשהיה על ידי קיטום כמות הנתונים הנסרקים. קיבוץ משפר עוד יותר את הביצועים על ידי מיון נתונים בתוך מחיצות.
מקור↗
מנע העתקת נתונים ממערך נתונים רגיש של BigQuery ליעד לא מורשה (לדוגמה, דלי GCS ציבורי), אפילו על ידי משתמש עם אישורים תקפים.
→השתמש ב-VPC Service Controls כדי ליצור היקף שירות (service perimeter) סביב הפרויקט המכיל את מערך הנתונים של BigQuery.
למה: VPC Service Controls פועלים כ"חומת אש וירטואלית" לשירותי GCP, ומונעים מנתונים לעזוב את ההיקף. זוהי בקרת הגנה עמוקה קריטית נגד דליפת נתונים.
מקור↗
הגבל גישה לעמודות רגישות (לדוגמה, PII) בטבלת BigQuery לקבוצות מורשות, תוך כדי התרת גישה לאחרים לשאילתות על העמודות הנותרות.
→השתמש ב-Data Catalog כדי ליצור טקסונומיה ותגי מדיניות. החל תגי מדיניות על עמודות רגישות והענק את תפקיד ה-"Fine-Grained Reader" לקבוצות מורשות.
למה: זוהי השיטה המקורית והניתנת להרחבה לאבטחת ברמת העמודה ב-BigQuery. היא מספקת ממשל מרכזי ללא צורך ביצירה וניהול של תצוגות נפרדות.
סנן טבלה כך שמשתמשים יוכלו לראות רק שורות הנוגעות להם (לדוגמה, מנהלי מכירות רואים רק את נתוני האזור שלהם).
→צור מדיניות אבטחה ברמת שורה (Row-Level Security Policy) בטבלה שמסננת שורות על בסיס `SESSION_USER()`א.
למה: מספק סינון דינמי מבוסס פרדיקטים בזמן שאילתה. זה בטוח וניתן לניהול יותר מאשר יצירת תצוגה מורשית לכל משתמש או תפקיד.
מחק נתונים אוטומטית מטבלת BigQuery לאחר תקופת שמירה מוגדרת כדי לציית לתקנות (לדוגמה, מחיקת נתונים ישנים מ-7 שנים).
→עבור נתוני סדרות זמן, הגדר תפוגת מחיצה בטבלה מחולקת לפי זמן. עבור טבלאות אחרות, הגדר את תפוגת הטבלה המוגדרת כברירת מחדל.
למה: זוהי תכונה מובנית של "הגדר ושכח" המבטיחה ציות ללא סקריפטים ידניים לניקוי או תזמור חיצוני.
טבלת BigQuery שונתה או נמחקה בטעות.
→השתמש ב-BigQuery Time Travel כדי לבצע שאילתה על הטבלה כפי שהייתה קיימת בנקודת זמן לפני האירוע, באמצעות `FOR SYSTEM_TIME AS OF`.
למה: BigQuery שומר אוטומטית היסטוריה של 7 ימים של נתוני טבלה. זה מאפשר שחזור מיידי בתוך חלון ה-Time Travel ללא צורך בשחזור מגיבויים.
מקור↗
גלה, נהל, אבטח ונטר נכסי נתונים (BigQuery, GCS) ברחבי ארגון שלם.
→השתמש ב-Dataplex.
למה: Dataplex פועל כרשת נתונים חכמה, המספקת לוח בקרה מאוחד לממשל נתונים, איכות, שושלת, גילוי וניהול מחזור חיים על פני מאגרי נתונים מפוזרים.
הבן ודמיין כיצד נתונים זורמים ממערכות מקור, דרך עבודות טרנספורמציה, לטבלאות דיווח סופיות.
→השתמש ב-Dataplex Data Lineage.
למה: קולט אוטומטית מידע שושלת מיומני BigQuery, Data Fusion ו-Composer כדי לספק תצוגה אינטראקטיבית מבוססת גרפים של תלות נתונים לצורך ניתוח השפעה וביקורת.
הבטח ביצועי שאילתה ועלות צפויים עבור עומסי עבודה קריטיים, הימנעות מ"תחרות על חריצים" (slot contention) ממשתמשים אחרים.
→רכוש BigQuery Editions (תמחור מבוסס קיבולת). צור הזמנות כדי להקדיש מאגר של חריצים לפרויקטים או תיקיות ספציפיים.
למה: מעבר ממאגר משותף, לפי דרישה, לקיבולת חישוב ייעודית, המבטיח משאבים לעבודות קריטיות ומספק חיוב צפוי.
סרוק את כל נכסי הנתונים ב-BigQuery וב-Cloud Storage כדי לזהות ולסווג אוטומטית PII ונתונים רגישים אחרים.
→הגדר עבודת סריקת גילוי של Cloud Data Loss Prevention (DLP).
למה: Cloud DLP משתמש במאות גלאים מוגדרים מראש כדי למצוא נתונים רגישים בקנה מידה. הוא יכול להשתלב עם Data Catalog כדי להחיל אוטומטית תגי מדיניות לצורך ממשל.
יישום מבוסס קונטיינרים (ב-GKE או Cloud Run) צריך לבצע אימות מאובטח ל-BigQuery ללא ניהול מפתחות חשבון שירות.
→השתמש ב-Workload Identity.
למה: השיטה המומלצת לאימות שירות-לשירות. היא ממפה חשבון שירות של Kubernetes לחשבון שירות של GCP IAM, תוך שימוש באסימונים קצרי מועד המסתובבים אוטומטית.
לצורך ציות, הפק דוח של כל המשתמשים שביצעו שאילתה על טבלת BigQuery רגישה ב-90 הימים האחרונים.
→אפשר ובצע שאילתה על יומני הביקורת של BigQuery Data Access, אשר ניתן לנתב למערך נתונים של BigQuery לצורך ניתוח.
למה: יומני Data Access מספקים תיעוד בלתי ניתן לשינוי של מי ניגש לאיזה נתונים ומתי. הם חיוניים לביקורות אבטחה וציות אך חייבים להיות מופעלים במפורש.
זהה אילו משתמשים או שאילתות אחראים לעלויות גבוהות ב-BigQuery.
→בצע שאילתה על התצוגה `INFORMATION_SCHEMA.JOBS`.
למה: תצוגת מטא-נתונים זו מכילה מידע מפורט על כל הרצת שאילתה, כולל המשתמש, בייטים שחויבו, וחריצים שנצרכו, מה שמאפשר ייחוס וניתוח עלויות מדויק.