בחירת מודל Bedrock בסיסי עבור מקרה שימוש.
→היגיון בהקשר ארוך + שימוש בכלים ← Claude (Sonnet/Opus). צ'אט ממוטב עלויות ← Claude Haiku או Titan Text Lite. קוד ← Claude או Llama. הטמעות (Embeddings) ← Titan Embeddings V2 או Cohere Embed. יצירת תמונות ← Titan Image, Stable Diffusion, או Nova Canvas. משקלים פתוחים עם שליטה באירוח עצמי ← Llama, Mistral, או Custom Model Import.
למה: אין מודל יחיד שהוא הטוב ביותר בכל ההיבטים: עלות, חביון, יכולת ותנאי רישיון. התאם את סוג המודל לצוואר הבקבוק.
מקור↗
מקור KB הוא שאלות נפוצות קצרות ועצמאיות או תיאורי מוצרים קצרים (כ-100–500 מילים כל אחד).
→חלוקה לגושים בגודל קבוע עם גודל אסימון ברירת מחדל (300) וחפיפה (20%).
למה: יחידות עצמאיות אינן מרוויחות מחלוקה לגושים מודעת גבולות. גודל קבוע הוא הפשוט והזול ביותר.
מקור↗
מסמכים מכילים שינויי נושא טבעיים בתוך פסקאות; פיצולים בגודל קבוע קוטעים משפטים באמצע מחשבה.
→Semantic chunking. Bedrock Knowledge Bases מקבץ משפטים עוקבים שה-embeddings שלהם קרובים, ומפצל בגבולות משמעותיים.
למה: שומר על רעיונות קוהרנטיים בתוך גוש ← שליפה נקייה יותר, איכות תשובה גבוהה יותר.
מקור↗
מדריכים טכניים ארוכים עם הפניות צולבות בין סעיפים; שאלות דורשות סינתזה על פני מסמך.
→Hierarchical chunking. Bedrock בונה גושים הורים (גדולים) + ילדים (קטנים); שולף על בסיס embeddings של ילדים, מחזיר את הקשר ההורי.
למה: גושים קטנים מאפשרים שליפה מדויקת; הקשר ההורי שומר על הפניות צולבות ופרטים מסביב.
מקור↗
קבצי מקור כבר מחולקים לגושים מראש או שכל קובץ הוא בכוונה יחידה לוגית אחת.
→אין אסטרטגיית chunking. כל קובץ הופך לגוש אחד ב-KB.
מקור↗
מקור PDF מכיל טקסט + דיאגרמות; משתמשים שואלים שאלות הדורשות הבנה של הדיאגרמות.
→אפשר ניתוח מתקדם של Bedrock KB עם מודל בסיס (Claude/Nova) כמנתח. דיאגרמות וטבלאות מתוארות באמצעות ראייה, ולאחר מכן מוטמעות (embedded).
למה: ניתוח ברירת המחדל הוא טקסט בלבד. ניתוח רב-מודאלי ממיר תוכן ויזואלי לטקסט תיאורי לפני ההטמעה.
מקור↗
בחר Titan Embeddings G1 לעומת V2.
→V2 תומך בממדים ניתנים להגדרה (256/512/1024) ומשיג ביצועים טובים יותר מ-G1 במבחנים רב-לשוניים. G1 קבוע על 1536. בחר V2 עבור מקרי שימוש מוגבלי אחסון או שאינם באנגלית; G1 רק לתאימות לאחור.
מקור↗
קטלוג מוצרים של 500 אלף: כותרות קצרות (50 מילים) + מפרטים ארוכים (500 מילים). אופטימיזציה של איכות חיפוש + עלות.
→הטמע כל פריט פעם אחת (שדות משולבים או נפרדים). השתמש ב-Titan Embeddings V2 עם ממדים מופחתים (256 או 512) לצורך עלות; הטמע שאילתה ומסמך עם אותו מודל.
למה: ערבוב מודלי embedding או דילוג על נורמליזציה פוגע בחיפוש דמיון. ממדים נמוכים יותר מקצצים בעלות האחסון והשאילתה עם אובדן איכות שולי.
מקור↗
בחירת מאגר וקטורי עבור Bedrock Knowledge Bases.
→הגדרה מהירה / ברירת מחדל ← Amazon OpenSearch Serverless (מנוהל אוטומטית). תת-מילישנייה עם עדכוני סכימה תכופים + צירופים יחסיים ← Aurora PostgreSQL עם pgvector. לקוח Pinecone / MongoDB Atlas / Redis קיים ← שמור עליו. KB קטן (פחות מ-10 אלף מסמכים) ממוטב עלויות ← Aurora pgvector או Neptune Analytics.
למה: OpenSearch Serverless הוא ברירת המחדל הקלה ביותר ליישום. Aurora pgvector מנצח כשאתה צריך טרנזקציות או צירופים על מטא-דאטה.
מקור↗
KB מחזיר מסמכים רלוונטיים סמנטית, אך הם מגרסאות מיושנות/אזור שגוי.
→הוסף מטא-דאטה לקבצי מקור (`version`, `region`, `effective_date`) והחל מסנני מטא-דאטה בזמן שאילתה באמצעות `retrievalConfiguration.vectorSearchConfiguration.filter`.
למה: דמיון וקטורי טהור מתעלם מרעננות וסמכות. סינון מטא-דאטה מצמצם את מאגר המועמדים לפני הדירוג.
מקור↗
RAG מחמיץ שאילתות המכילות מזהים מדויקים (SKUs, קודי שגיאה, מספרי תקנות) מכיוון שחיפוש סמנטי מקנה משקל יתר לטקסט בעל משמעות דומה.
→אפשר חיפוש היברידי ב-KB (סמנטי + מילות מפתח/BM25). משלב דמיון וקטורי עם התאמה לקסיקלית עבור מזהים, קודים ושמות עצם פרטיים.
מקור↗
Top-k=5 שולף 5 גושים אך הרלוונטי ביותר מדורג לעיתים קרובות במקום ה-3 או ה-4.
→הגדל את `numberOfResults` ל-20 ולאחר מכן אפשר מודל reranking (Cohere Rerank או Amazon Rerank) לסידור מחדש לפי רלוונטיות לשאילתה המקורית.
למה: דמיון Embedding ≠ רלוונטיות למשימה. מודלי reranker מסוג Cross-encoder רואים שאילתה + גוש יחד ומדרגים בדיוק.
מקור↗
שאלות משתמשים הן שיחתיות, מרובות חלקים, או מכילות כינויים/המשכים; איכות שליפת ה-KB יורדת.
→אפשר ניסוח מחדש של שאילתות ב-Bedrock KB. המודל כותב מחדש שאילתות מורכבות למספר תת-שאילתות ממוקדות לפני השליפה.
מקור↗
מסמכי מקור ב-S3 מתעדכנים לעיתים קרובות; ה-KB חייב לשקף תמיד את הגרסאות העדכניות ביותר ללא סנכרון ידני.
→הגדר את מקור הנתונים של ה-KB לסנכרון אוטומטי באמצעות S3 event notifications → EventBridge → StartIngestionJob, או השתמש בסנכרון מתוזמן של ה-KB. הימנע מהסתמכות על כפתור "Sync" הידני בקונסולה.
מקור↗
מודל QA למסמכים ארוכים "מזייף" (hallucinates) על שאלות שתשובותיהן נמצאות באמצע המסמך.
→אל תעביר מסמכים מלאים ב-prompt – חלק לגושים + שלוף באמצעות RAG כך שרק הגושים הרלוונטיים יגיעו למודל. אם מסמך מלא הוא חובה, השתמש במודל עם זיכרון הקשר ארוך חזק (Claude Sonnet 200K) והצב את השאלה לאחר המסמך.
למה: רוב מודלי ה-LLM מציגים ירידה בזיכרון הנקראת "אובדן באמצע". RAG עוקף זאת; מיקום עוזר כאשר RAG אינו זמין.
בחר את ההתאמה האישית הזולה ביותר העומדת ברף האיכות.
→נסה לפי הסדר: (1) prompt engineering, (2) RAG עם KB, (3) fine-tuning, (4) continued pre-training, (5) Custom Model Import. עצור בראשון שעומד ברף.
למה: המאמץ והעלות השוטפת גדלים בכל שלב. Fine-tuning + Provisioned Throughput יקרים בהרבה מ-RAG.
מקור↗
כוונן עדין מודל Bedrock עם דוגמאות משימות מתויגות.
→קובץ JSONL ב-S3 עם דוגמה אחת לכל שורה: `{"prompt": "...", "completion": "..."}` (או פורמט צ'אט מקביל עבור משפחת המודלים).
למה: לכל משפחת מודלים (Titan, Claude, Llama) יש סכימה ספציפית; בדוק את תיעוד ה-fine-tuning של המודל לפני העיצוב.
מקור↗
התאם מודל בסיס לאוצר מילים מיוחד (משפטי, רפואי, מדעי) באמצעות הרבה טקסט תחום לא מתויג.
→אימון מקדים מתמשך על קורפוס התחום הלא מתויג. שונה מ-instruction fine-tuning (שדורש זוגות prompt-completion).
למה: אימון מקדים מתמשך מעדכן את הבנת השפה; instruction fine-tuning מלמד התנהגות משימתית. צורת נתונים שונה, מטרה שונה.
מקור↗
נתוני אינטראקציות לקוחות לצורך fine-tuning מכילים שמות, מיילים, מספרי טלפון.
→נקה או סמן (tokenize) מידע PII לפני העלאת מערך נתוני האימון ל-S3. ברגע שהמשקלים סופגים PII, סינון הפלט אינו יכול למסך אותו בצורה אמינה.
למה: מודל מכוונן עדין עשוי להחזיר קטעי נתוני אימון. ניקוי בשכבת הנתונים הוא ההפחתה העמידה היחידה.
מקור↗
הבא מודל Llama או Mistral מכוונן עדין עצמאית והגש אותו באמצעות ה-API המאוחד של Bedrock.
→ייבוא מודל מותאם אישית (Custom Model Import). העלה משקלים ל-S3, רשום ב-Bedrock, הפעל באמצעות סביבת הריצה של Bedrock עם IAM ורישום אחודים.
למה: מאפשר לך להשתמש מחדש ב-Bedrock Guardrails, KBs ו-Agents על משקלים משלך מבלי להקים נקודות קצה של SageMaker.
מקור↗
הגשת מודל Bedrock מכוונן עדין לייצור.
→רכוש Provisioned Throughput. מודלים מותאמים אישית (מכווננים עדין, מאומנים מראש באופן מתמשך, מיובאים) אינם יכולים להיות מופעלים לפי דרישה.
מקור↗
יישום Claude עתיר תנועה מגיע למגבלות מכסה אזוריות בשיאים; נדרש תפוקה גבוהה יותר ללא רכישת Provisioned Throughput.
→פרופילי הסקה בין-אזוריים (Cross-region inference profiles). Bedrock מנתב הפעלות בין מספר אזורים בשקיפות כדי להגדיל את מכסות ה-TPM/RPM האפקטיביות.
למה: מכסות על פי דרישה באזור יחיד מוגבלות בזמן עליות; פרופילים בין-אזוריים מכפילים בקירוב את המכסות ללא שינויים בקוד היישום מעבר לשימוש ב-ARN של פרופיל ההסקה.
מקור↗
משתמשי APAC רואים חביון גבוה משמעותית ממשתמשי ארה"ב/האיחוד האירופי ביישום Bedrock הפרוס ב-us-east-1.
→פרוס נקודות קצה אזוריות של Bedrock ב-ap-northeast-1 / ap-southeast-1 / ap-south-1 (היכן שהמודל זמין באופן כללי). נתב משתמשים באמצעות מדיניות חביון או מיקום גיאוגרפי של Route 53.
למה: זמן הלוך-חזור של LLM שולט עבור הקשרים ארוכים; זמן RTT לבדו מעבר לאוקיינוס השקט הוא 150–250 אלפיות השנייה.
מקור↗
יישום המוסדר ב-HIPAA צריך לסכם PHI באמצעות Bedrock.
→השתמש רק במודלי בסיס כשירים ל-HIPAA (לפי רשימת השירותים הכשירים ל-HIPAA). חתום על BAA עם AWS. הצפן promptים/תגובות עם מפתחות KMS מנוהלים על ידי הלקוח. השבת רישום הפעלת מודלים או הגבל אותו לדלי S3 פרטי עם גישה מוגבלת.
מקור↗
החלט אילו נתונים רשאים לזרום ל-Bedrock בהתבסס על רגישות (ציבורי / חסוי / מוגבל).
→ציבורי ← ללא הגבלה. חסוי ← רק באמצעות נקודות קצה של VPC + CMK + רישום הפעלות בדליים פרטיים. מוגבל (סודות מסחריים, PHI/PCI מוסדר) ← חסום מ-Bedrock לחלוטין או השתמש במשטר תאימות כשיר ל-Bedrock + בצע עריכה לפני הפעלה.
ארגון מרובה חשבונות רוצה שחשבון A ישתף מודל Bedrock מותאם אישית עם חשבון B ללא העתקת משקלים.
→שיתוף מודל מותאם אישית באמצעות AWS RAM. הבעלים משתף את ה-ARN של המודל המותאם אישית; חשבונות צרכנים מפעילים אותו דרך סביבת הריצה הסטנדרטית של Bedrock עם ישויות IAM בין-חשבונאיות במדיניות המשאבים.
למה: מונע עלויות fine-tuning מיותרות ומרכז את מחזור חיי המודל. RAM שולט מי יכול לצרוך את המשאב המשותף.
מקור↗
זקוק למודל צד שלישי נישתי (למשל, LLM המתמחה בבריאות) שאינו בקטלוג Bedrock הסטנדרטי.
→Amazon Bedrock Marketplace. הירשם למודל מקטלוג Marketplace, פרוס לנקודת קצה של Bedrock, הפעל באמצעות ה-API הסטנדרטי של סביבת הריצה.
למה: מאחד חיובים של צד שלישי, IAM, KMS ויכולת תצפית עם מודלי Bedrock של צד ראשון.
מקור↗
יישום חיפוש עתיר נפח מטמיע מחדש את אותם המסמכים בכל רענון שאילתה; עלות ההטמעה שולטת.
→חשב מראש embeddings בעת קליטת מסמך, אחסן את הווקטור ב-DynamoDB או OpenSearch מקושרים לפי מזהה מסמך + גיבוב תוכן. הטמע מחדש רק כאשר גיבוב התוכן משתנה.
למה: הטמעת אותו טקסט שוב ושוב היא העלות הנפוצה ביותר שניתן להימנע ממנה. מטמון מבוסס גיבוב הוא דילוג ב-O(1).
זכות השכחה (GDPR right-to-be-forgotten) על מודל מכוונן עדין: משתמש מבקש מחיקה של PII שלו מנתוני אימון.
→מחק רשומות מקורפוס האימון, ולאחר מכן כוונן עדין מודל בסיס חדש מאפס. לא ניתן לנקות נתונים באופן אמין ממשקלים קיימים – סינון פלט אינו מספיק.
למה: ברגע שמשקלים סופגים נתוני אימון, מיסוך בהסקה אינו אמין. הדרך הבטוחה היא אימון מחדש מלא ללא הרשומות המושפעות.
KB משותף משרת מספר צוותים; כל צוות חייב לראות רק את המסמכים שלו.
→תייג כל גוש עם מטא-דאטה `tenant_id` / `team_id` / `clearance` בעת קליטה. בזמן שאילתה, הגדר את `retrievalConfiguration.vectorSearchConfiguration.filter` לערכים המותרים של הקורא מהסשן IAM או הקשר היישום.
למה: דמיון וקטורי מתעלם מבקרת גישה; סינון מטא-דאטה הוא הבידוד העמיד היחיד לכל דייר ב-KB משותף.
מקור↗
לקוח אירופאי דורש ש-prompts ו-KB embeddings לעולם לא יעזבו את eu-west-1.
→פרוס Bedrock + KB + דלי מקור S3 ב-eu-west-1. הצמד הפעלות באמצעות ARN של פרופיל הסקה מוגבל ל-eu-west-1; SCP `aws:RequestedRegion` דחייה על אזורים אחרים עבור `bedrock:*`.
מקור↗