किसी उपयोग के लिए Bedrock फाउंडेशन मॉडल चुनें।
→लंबे-संदर्भ तर्क + टूल उपयोग → Claude (Sonnet/Opus)। लागत-अनुकूलित चैट → Claude Haiku या Titan Text Lite। कोड → Claude या Llama। एम्बेडिंग → Titan Embeddings V2 या Cohere Embed। इमेज जनरेशन → Titan Image, Stable Diffusion, या Nova Canvas। सेल्फ-होस्ट नियंत्रण के साथ ओपन-वेट → Llama, Mistral, या Custom Model Import।
क्यों: लागत, विलंबता, क्षमता और लाइसेंस शर्तों के अनुसार कोई एक मॉडल सबसे अच्छा नहीं है। मॉडल वर्ग को बॉटलनेक से मिलाएं।
संदर्भ↗
KB स्रोत छोटे, स्व-निहित FAQ या उत्पाद विवरण (~100–500 शब्द प्रत्येक) हैं।
→डिफ़ॉल्ट टोकन आकार (300) और ओवरलैप (20%) के साथ निश्चित-आकार की चंकिंग।
क्यों: स्व-निहित इकाइयाँ बाउंड्री-अवेयर चंकिंग से लाभ नहीं उठाती हैं। निश्चित-आकार सबसे सरल और सस्ता है।
संदर्भ↗
दस्तावेजों में पैराग्राफ के भीतर प्राकृतिक विषय परिवर्तन होते हैं; निश्चित-आकार के विभाजन वाक्यों को बीच-विचार में तोड़ देते हैं।
→सिमेंटिक चंकिंग। Bedrock Knowledge Bases उन लगातार वाक्यों को समूहबद्ध करता है जिनके एम्बेडिंग करीब होते हैं, अर्थ सीमाओं पर विभाजन करता है।
क्यों: एक चंक के भीतर सुसंगत विचारों को बनाए रखता है → स्वच्छ पुनर्प्राप्ति, उच्च उत्तर गुणवत्ता।
संदर्भ↗
अनुभागों के बीच क्रॉस-रेफरेंस वाले लंबे तकनीकी मैनुअल; प्रश्नों को दस्तावेज़ में संश्लेषण की आवश्यकता होती है।
→पदानुक्रमित चंकिंग। Bedrock पैरेंट (बड़ा) + चाइल्ड (छोटा) चंक बनाता है; चाइल्ड एम्बेडिंग पर पुनर्प्राप्त करता है, पैरेंट संदर्भ लौटाता है।
क्यों: छोटे चंक सटीक पुनर्प्राप्ति देते हैं; पैरेंट संदर्भ क्रॉस-रेफरेंस और आसपास के विवरण को सुरक्षित रखता है।
संदर्भ↗
स्रोत फ़ाइलें पहले से चंक की गई हैं या प्रत्येक फ़ाइल जानबूझकर एक तार्किक इकाई है।
→कोई चंकिंग रणनीति नहीं। प्रत्येक फ़ाइल KB में एक चंक बन जाती है।
संदर्भ↗
PDF स्रोत में टेक्स्ट + आरेख शामिल हैं; उपयोगकर्ता ऐसे प्रश्न पूछते हैं जिनके लिए आरेखों को समझने की आवश्यकता होती है।
→Bedrock KB उन्नत पार्सिंग को फाउंडेशन मॉडल (Claude/Nova) को पार्सर के रूप में सक्षम करें। आरेखों और तालिकाओं को विजन के माध्यम से वर्णित किया जाता है, फिर एम्बेड किया जाता है।
क्यों: डिफ़ॉल्ट पार्सिंग केवल टेक्स्ट है। मल्टीमॉडल पार्सिंग विज़ुअल सामग्री को एम्बेड करने से पहले वर्णनात्मक टेक्स्ट में परिवर्तित करती है।
संदर्भ↗
Titan Embeddings G1 बनाम V2 चुनें।
→V2 कॉन्फ़िगर करने योग्य आयामों (256/512/1024) का समर्थन करता है और बहुभाषी बेंचमार्क पर G1 से बेहतर प्रदर्शन करता है। G1 1536 पर स्थिर है। भंडारण-प्रतिबंधित या गैर-अंग्रेजी उपयोग के मामलों के लिए V2 चुनें; G1 केवल लीगेसी संगतता के लिए।
संदर्भ↗
500K उत्पाद कैटलॉग: छोटे शीर्षक (50 शब्द) + लंबी विशिष्टताएँ (500 शब्द)। खोज गुणवत्ता + लागत का अनुकूलन करें।
→प्रत्येक आइटम को एक बार एम्बेड करें (संयुक्त या अलग फ़ील्ड)। लागत के लिए कम आयामों (256 या 512) के साथ Titan Embeddings V2 का उपयोग करें; क्वेरी और दस्तावेज़ को एक ही मॉडल के साथ एम्बेड करें।
क्यों: एम्बेडिंग मॉडल को मिलाना या सामान्यीकरण छोड़ना समानता खोज को तोड़ देता है। कम आयाम मामूली गुणवत्ता हानि के साथ भंडारण और क्वेरी लागत को कम करते हैं।
संदर्भ↗
Bedrock Knowledge Bases के लिए एक वेक्टर स्टोर चुनें।
→डिफ़ॉल्ट / सबसे तेज़ सेटअप → Amazon OpenSearch Serverless (स्वचालित-प्रबंधित)। लगातार स्कीमा अपडेट + रिलेशनल जॉइन के साथ सब-एमएस → pgvector के साथ Aurora PostgreSQL। मौजूदा Pinecone / MongoDB Atlas / Redis ग्राहक → इसे बनाए रखें। छोटे KB (<10K दस्तावेज़) लागत-अनुकूलित → Aurora pgvector या Neptune Analytics।
क्यों: OpenSearch Serverless कम-प्रतिरोध का डिफ़ॉल्ट मार्ग है। Aurora pgvector तब जीतता है जब आपको मेटाडेटा पर लेनदेन या जॉइन की आवश्यकता होती है।
संदर्भ↗
KB सिमेंटिक रूप से प्रासंगिक दस्तावेज़ लौटाता है, लेकिन वे पुराने/गलत-क्षेत्र संस्करणों से हैं।
→स्रोत फ़ाइलों में मेटाडेटा (`version`, `region`, `effective_date`) जोड़ें और `retrievalConfiguration.vectorSearchConfiguration.filter` के माध्यम से क्वेरी समय पर मेटाडेटा फ़िल्टर लागू करें।
क्यों: शुद्ध वेक्टर समानता नवीनता और अधिकार को अनदेखा करती है। मेटाडेटा फ़िल्टरिंग रैंकिंग से पहले उम्मीदवार पूल को संकीर्ण करती है।
संदर्भ↗
RAG उन प्रश्नों को छोड़ देता है जिनमें सटीक पहचानकर्ता (SKU, त्रुटि कोड, विनियमन संख्या) होते हैं क्योंकि सिमेंटिक खोज समान-अर्थ वाले टेक्स्ट को अधिक महत्व देती है।
→KB पर हाइब्रिड खोज सक्षम करें (सिमेंटिक + कीवर्ड/BM25)। IDs, कोड और उचित संज्ञाओं के लिए लेक्सिकल मैच के साथ वेक्टर समानता को जोड़ता है।
संदर्भ↗
Top-k=5 5 चंक पुनर्प्राप्त करता है लेकिन सबसे प्रासंगिक वाला अक्सर 3वें या 4वें स्थान पर होता है।
→`numberOfResults` को 20 तक बढ़ाएँ फिर मूल क्वेरी के लिए प्रासंगिकता के अनुसार फिर से व्यवस्थित करने के लिए एक रीरैंकिंग मॉडल (Cohere Rerank या Amazon Rerank) सक्षम करें।
क्यों: एम्बेडिंग समानता ≠ कार्य प्रासंगिकता। क्रॉस-एनकोडर रीरैंकर क्वेरी + चंक को एक साथ देखते हैं और सटीक स्कोर करते हैं।
संदर्भ↗
उपयोगकर्ता के प्रश्न संवादात्मक, बहु-भाग वाले, या सर्वनाम/अनुवर्ती प्रश्नों वाले होते हैं; KB पुनर्प्राप्ति गुणवत्ता घट जाती है।
→Bedrock KB क्वेरी सुधार को सक्षम करें। मॉडल पुनर्प्राप्ति से पहले जटिल प्रश्नों को कई केंद्रित उप-प्रश्नों में फिर से लिखता है।
संदर्भ↗
S3 स्रोत दस्तावेज़ अक्सर अपडेट होते हैं; KB को मैन्युअल सिंक के बिना हमेशा नवीनतम संस्करणों को प्रतिबिंबित करना चाहिए।
→S3 इवेंट नोटिफिकेशन → EventBridge → StartIngestionJob के माध्यम से स्वचालित सिंक के लिए KB डेटा स्रोत को कॉन्फ़िगर करें, या KB शेड्यूल्ड सिंक का उपयोग करें। मैन्युअल कंसोल "Sync" बटन पर निर्भर रहने से बचें।
संदर्भ↗
लंबे-दस्तावेज़ QA मॉडल उन प्रश्नों पर भ्रमित हो जाता है जिनके उत्तर दस्तावेज़ के बीच में होते हैं।
→प्रॉम्प्ट में पूरे दस्तावेज़ पास न करें — RAG के माध्यम से चंक + पुनर्प्राप्त करें ताकि केवल प्रासंगिक चंक ही मॉडल तक पहुँचें। यदि पूरा दस्तावेज़ अनिवार्य है, तो मजबूत लंबे-संदर्भ रिकॉल (Claude Sonnet 200K) वाले मॉडल का उपयोग करें और प्रश्न को दस्तावेज़ के बाद रखें।
क्यों: अधिकांश LLM "बीच में खो गए" रिकॉल गिरावट प्रदर्शित करते हैं। RAG इसे दरकिनार करता है; प्लेसमेंट तब मदद करता है जब RAG उपलब्ध न हो।
गुणवत्ता मानक को पूरा करने वाले सबसे सस्ते अनुकूलन का चयन करें।
→इस क्रम में प्रयास करें: (1) प्रॉम्प्ट इंजीनियरिंग, (2) KB के साथ RAG, (3) फाइन-ट्यूनिंग, (4) निरंतर प्री-ट्रेनिंग, (5) Custom Model Import। जो पहला मानक को पूरा करता है, उस पर रुकें।
क्यों: प्रत्येक चरण में प्रयास और चल रही लागत बढ़ती जाती है। फाइन-ट्यूनिंग + Provisioned Throughput RAG की तुलना में कहीं अधिक महंगा है।
संदर्भ↗
लेबल किए गए कार्य उदाहरणों के साथ एक Bedrock मॉडल को फाइन-ट्यून करें।
→S3 में JSONL फ़ाइल जिसमें प्रति पंक्ति एक उदाहरण: `{"prompt": "...", "completion": "..."}` (या मॉडल परिवार के लिए चैट-फॉर्मेट समतुल्य)।
क्यों: प्रत्येक मॉडल परिवार (Titan, Claude, Llama) का एक विशिष्ट स्कीमा होता है; फ़ॉर्मेटिंग से पहले मॉडल के फाइन-ट्यूनिंग दस्तावेज़ की जाँच करें।
संदर्भ↗
बहुत सारे अललेबल डोमेन टेक्स्ट का उपयोग करके एक फाउंडेशन मॉडल को विशेष शब्दावली (कानूनी, चिकित्सा, वैज्ञानिक) में अनुकूलित करें।
→अललेबल डोमेन कॉर्पस पर निरंतर प्री-ट्रेनिंग। इंस्ट्रक्शन फाइन-ट्यूनिंग से अलग (जिसे प्रॉम्प्ट-कंप्लीशन जोड़े की आवश्यकता होती है)।
क्यों: निरंतर प्री-ट्रेनिंग भाषा की समझ को अपडेट करती है; इंस्ट्रक्शन फाइन-ट्यूनिंग कार्य व्यवहार सिखाती है। अलग डेटा आकार, अलग लक्ष्य।
संदर्भ↗
फाइन-ट्यूनिंग के लिए ग्राहक इंटरैक्शन डेटा में नाम, ईमेल, फ़ोन नंबर शामिल हैं।
→प्रशिक्षण डेटासेट को S3 पर अपलोड करने से पहले PII को स्क्रब या टोकनाइज करें। एक बार जब वेट PII को सोख लेते हैं, तो आउटपुट फ़िल्टरिंग इसे मज़बूती से मास्क नहीं कर सकती है।
क्यों: फाइन-ट्यून किया गया मॉडल प्रशिक्षण-डेटा के टुकड़े वापस ला सकता है। डेटा परत पर स्क्रबिंग ही एकमात्र टिकाऊ शमन है।
संदर्भ↗
एक सेल्फ-फाइन-ट्यून किए गए Llama या Mistral मॉडल को लाएँ और उसे Bedrock के एकीकृत API के माध्यम से सर्व करें।
→Custom Model Import। वेट्स को S3 पर अपलोड करें, Bedrock के साथ रजिस्टर करें, एकीकृत IAM और लॉगिंग के साथ Bedrock रनटाइम के माध्यम से इन्वोक करें।
क्यों: आपको SageMaker एंडपॉइंट्स स्थापित किए बिना अपने स्वयं के वेट्स पर Bedrock Guardrails, KBs और Agents का पुन: उपयोग करने देता है।
संदर्भ↗
उत्पादन में एक फाइन-ट्यून किए गए Bedrock मॉडल को सर्व करें।
→Provisioned Throughput खरीदें। कस्टम (फाइन-ट्यून किए गए, निरंतर-प्रीट्रेन किए गए, आयातित) मॉडल को ऑन-डिमांड इन्वोक नहीं किया जा सकता है।
संदर्भ↗
उच्च-ट्रैफ़िक Claude एप्लिकेशन पीक के दौरान प्रति-क्षेत्र कोटा तक पहुँचता है; Provisioned Throughput खरीदे बिना उच्च थ्रूपुट की आवश्यकता है।
→क्रॉस-क्षेत्र इन्फरेंस प्रोफाइल। Bedrock प्रभावी TPM/RPM कोटे को बढ़ाने के लिए कई क्षेत्रों में पारदर्शी रूप से इनवोकेशन को रूट करता है।
क्यों: स्पाइक्स के दौरान एकल-क्षेत्र ऑन-डिमांड कोटा कैप; क्रॉस-क्षेत्र प्रोफाइल इन्फरेंस-प्रोफाइल ARN का उपयोग करने से परे कोई ऐप कोड परिवर्तन के बिना कोटे को लगभग गुणा करते हैं।
संदर्भ↗
us-east-1 में तैनात Bedrock ऐप पर APAC उपयोगकर्ता US/EU उपयोगकर्ताओं की तुलना में काफी अधिक विलंबता देखते हैं।
→ap-northeast-1 / ap-southeast-1 / ap-south-1 (जहां मॉडल GA है) में क्षेत्रीय Bedrock एंडपॉइंट्स तैनात करें। Route 53 विलंबता या भू-स्थान नीति के माध्यम से उपयोगकर्ताओं को रूट करें।
क्यों: लंबे संदर्भों के लिए LLM राउंड-ट्रिप हावी होती है; अकेले क्रॉस-पैसिफिक RTT 150-250 ms है।
संदर्भ↗
HIPAA-नियामित ऐप को Bedrock के साथ PHI को सारांशित करने की आवश्यकता है।
→केवल HIPAA-योग्य फाउंडेशन मॉडल का उपयोग करें (HIPAA Eligible Services सूची के अनुसार)। AWS के साथ BAA पर हस्ताक्षर करें। ग्राहक-प्रबंधित KMS कुंजी के साथ प्रॉम्प्ट/प्रतिक्रियाओं को एन्क्रिप्ट करें। मॉडल इनवोकेशन लॉगिंग को अक्षम करें या इसे प्रतिबंधित पहुंच वाले एक निजी S3 बकेट तक सीमित करें।
संदर्भ↗
संवेदनशीलता (सार्वजनिक / गोपनीय / प्रतिबंधित) के आधार पर यह तय करें कि Bedrock पर कौन सा डेटा प्रवाहित हो सकता है।
→सार्वजनिक → अप्रतिबंधित। गोपनीय → केवल VPC एंडपॉइंट्स + CMK + निजी बकेट में इनवोकेशन लॉगिंग के माध्यम से। प्रतिबंधित (व्यापार रहस्य, विनियमित PHI/PCI) → Bedrock से पूरी तरह से ब्लॉक करें या Bedrock-योग्य अनुपालन व्यवस्था का उपयोग करें + इन्वोक करने से पहले redact करें।
बहु-खाता संगठन चाहता है कि खाता A एक कस्टम Bedrock मॉडल को खाता B के साथ वेट्स कॉपी किए बिना साझा करे।
→AWS RAM के माध्यम से कस्टम मॉडल साझाकरण। मालिक कस्टम मॉडल ARN साझा करता है; उपभोक्ता खाते संसाधन नीति पर क्रॉस-अकाउंट IAM प्रिंसिपल के साथ मानक Bedrock रनटाइम के माध्यम से इसे इन्वोक करते हैं।
क्यों: अनावश्यक फाइन-ट्यूनिंग लागत से बचाता है और मॉडल जीवनचक्र को केंद्रीकृत करता है। RAM नियंत्रित करता है कि साझा संसाधन का उपभोग कौन कर सकता है।
संदर्भ↗
मानक Bedrock कैटलॉग में नहीं मौजूद एक विशिष्ट तृतीय-पक्ष मॉडल (जैसे स्वास्थ्य सेवा-विशिष्ट LLM) की आवश्यकता है।
→Amazon Bedrock Marketplace। मार्केटप्लेस कैटलॉग से मॉडल की सदस्यता लें, Bedrock एंडपॉइंट पर तैनात करें, मानक रनटाइम API के माध्यम से इन्वोक करें।
क्यों: तृतीय-पक्ष बिलिंग, IAM, KMS और ऑब्ज़र्बिलिटी को प्रथम-पक्ष Bedrock मॉडल के साथ एकीकृत करता है।
संदर्भ↗
उच्च-मात्रा वाला खोज ऐप हर क्वेरी ताज़ा करने पर उन्हीं दस्तावेज़ों को फिर से एम्बेड करता है; एम्बेडिंग लागत हावी होती है।
→दस्तावेज़ इन्जेस्ट पर एम्बेडिंग की पूर्व-गणना करें, वेक्टर को DynamoDB या OpenSearch में दस्तावेज़ id + कंटेंट हैश द्वारा कुंजीबद्ध करके संग्रहीत करें। केवल तभी फिर से एम्बेड करें जब कंटेंट हैश बदलता है।
क्यों: एक ही टेक्स्ट को बार-बार एम्बेड करना सबसे आम टाली जा सकने वाली लागत है। हैश-कुंजीबद्ध कैश एक O(1) स्किप है।
एक फाइन-ट्यून किए गए मॉडल पर GDPR भूल जाने का अधिकार: उपयोगकर्ता प्रशिक्षण डेटा से अपने PII को हटाने का अनुरोध करता है।
→प्रशिक्षण कॉर्पस से रिकॉर्ड हटाएँ, फिर स्क्रैच से एक नया बेस मॉडल फाइन-ट्यून करें। मौजूदा वेट्स से डेटा को मज़बूती से स्क्रब नहीं किया जा सकता है — आउटपुट फ़िल्टरिंग पर्याप्त नहीं है।
क्यों: एक बार जब वेट प्रशिक्षण डेटा को सोख लेते हैं, तो इन्फरेंस पर मास्किंग अविश्वसनीय होती है। बचाव योग्य मार्ग प्रभावित रिकॉर्ड के बिना पूर्ण रिट्रेनिंग है।
साझा KB कई टीमों को सेवा प्रदान करता है; प्रत्येक टीम को केवल अपने दस्तावेज़ देखने चाहिए।
→इन्जेस्ट पर प्रत्येक चंक को `tenant_id` / `team_id` / `clearance` मेटाडेटा के साथ टैग करें। क्वेरी समय पर `retrievalConfiguration.vectorSearchConfiguration.filter` को IAM सत्र या ऐप संदर्भ से कॉलर के अनुमत मानों पर सेट करें।
क्यों: वेक्टर समानता एक्सेस कंट्रोल को अनदेखा करती है; साझा KB में मेटाडेटा फ़िल्टरिंग ही एकमात्र टिकाऊ प्रति-किरायेदार अलगाव है।
संदर्भ↗
EU ग्राहक की आवश्यकता है कि प्रॉम्प्ट और KB एम्बेडिंग कभी भी eu-west-1 से बाहर न निकलें।
→eu-west-1 में Bedrock + KB + S3 स्रोत बकेट तैनात करें। eu-west-1 तक सीमित इन्फरेंस प्रोफाइल ARN के माध्यम से इनवोकेशन को पिन करें; अन्य क्षेत्रों के लिए `bedrock:*` पर SCP `aws:RequestedRegion` अस्वीकार करें।
संदर्भ↗