एक Azure OpenAI चैटबॉट को ग्राहक सेवा परिदृश्य के लिए सुसंगत, केंद्रित और गैर-रचनात्मक प्रतिक्रियाएं प्रदान करने की आवश्यकता है।
→`temperature` पैरामीटर को कम मान पर सेट करें, जैसे 0.1 या 0.2। अधिकांश मॉडलों के लिए इसे ठीक 0 पर सेट करने से बचें।
क्यों: तापमान आउटपुट की यादृच्छिकता को नियंत्रित करता है। इसे कम करने से मॉडल अधिक नियतात्मक हो जाता है और उच्चतम-संभाव्यता टोकन चुनने की अधिक संभावना होती है।
एक RAG समाधान में, सुनिश्चित करें कि जेनरेटिव मॉडल केवल उन दस्तावेजों से उत्तर संश्लेषित करता है जिन्हें विशिष्ट उपयोगकर्ता तक पहुंचने की अनुमति है।
→पुनर्प्राप्ति चरण में सुरक्षा ट्रिमिंग लागू करें। Azure AI Search में, उपयोगकर्ता की AAD पहचान और समूह सदस्यता के आधार पर खोज क्वेरी पर सुरक्षा फ़िल्टर लागू करें।
क्यों: डेटा देखने से पहले LLM पर एक्सेस कंट्रोल लागू किया जाना चाहिए। खोज (पुनर्प्राप्ति) परत पर फ़िल्टरिंग इसे लागू करने का एकमात्र सुरक्षित तरीका है।
Azure OpenAI का उपयोग करके असंरचित पाठ से संरचित डेटा को लगातार एक वैध JSON ऑब्जेक्ट में निकालें।
→एक प्रॉम्प्ट का उपयोग करें जिसमें शामिल हों: 1) एक स्पष्ट भूमिका। 2) केवल JSON लौटाने के लिए स्पष्ट निर्देश। 3) फ़ील्ड नामों और प्रकारों के साथ वांछित JSON स्कीमा। 4) यदि संभव हो तो कुछ-शॉट उदाहरण।
क्यों: अत्यधिक संरचित और स्पष्ट प्रॉम्प्ट LLM से अच्छी तरह से निर्मित, संरचित आउटपुट प्राप्त करने की विश्वसनीयता को काफी बढ़ाते हैं।
एक मिशन-महत्वपूर्ण एप्लिकेशन को Azure OpenAI से गारंटीकृत, सुसंगत थ्रूपुट की आवश्यकता होती है, जिसमें पीक लोड के दौरान कोई थ्रॉटलिंग न हो।
→Provisioned Throughput Units (PTU) का उपयोग करके मॉडल खरीदें और तैनात करें।
क्यों: PTU समर्पित, आरक्षित मॉडल प्रोसेसिंग क्षमता प्रदान करते हैं, मानक पे-एज़-यू-गो डिप्लॉयमेंट के विपरीत जो एक साझा क्षमता मॉडल पर काम करते हैं और थ्रॉटलिंग के अधीन होते हैं।
संदर्भ↗
मॉडल की टोकन सीमा को पार किए बिना एक लंबी चैटबॉट बातचीत में संदर्भ बनाए रखें।
→एक बातचीत सारांशीकरण रणनीति लागू करें। बातचीत के पुराने हिस्सों का सारांश प्रस्तुत करने के लिए समय-समय पर एक अलग LLM कॉल का उपयोग करें, और इस सारांश के साथ-साथ प्रॉम्प्ट में सबसे हाल के मोड़ भी शामिल करें।
क्यों: यह "सारांशित करें और स्लाइड करें" पैटर्न सरल ट्रंकेशन या संपूर्ण (और अंततः बहुत लंबा) इतिहास भेजने की तुलना में दीर्घकालिक संदर्भ को कहीं अधिक प्रभावी ढंग से और आर्थिक रूप से संरक्षित करता है।
एक Azure OpenAI मॉडल को वर्तमान मौसम की जानकारी प्राप्त करने के लिए एक बाहरी API को कॉल करने में सक्षम करें।
→API को मॉडल के लिए एक सटीक JSON Schema प्रारूप का उपयोग करके एक टूल के रूप में परिभाषित करें। एक स्पष्ट फ़ंक्शन `description` और विस्तृत `parameter` विवरण शामिल करें ताकि मॉडल को पता चले कि इसका उपयोग कब और कैसे करना है।
क्यों: मॉडल एक फ़ंक्शन को कॉल करने के लिए एक सूचित निर्णय लेने के लिए पूरी तरह से स्कीमा और विवरण पर निर्भर करता है। विश्वसनीयता के लिए एक अच्छी तरह से वर्णित फ़ंक्शन महत्वपूर्ण है।
Azure OpenAI का उपयोग करके एक दस्तावेज़ का सारांश प्रस्तुत करें जो मॉडल की संदर्भ विंडो से काफी लंबा है।
→एक "मैप-रिड्यूस" या "रिफाइन" रणनीति लागू करें। दस्तावेज़ को खंडित करें, प्रत्येक खंड के लिए एक सारांश उत्पन्न करें (मैप), और फिर खंड सारांशों के संग्रह से एक अंतिम सारांश उत्पन्न करें (रिड्यूस)।
क्यों: यह मनमाने ढंग से लंबे इनपुट पर निश्चित-संदर्भ मॉडल लागू करने का मानक पैटर्न है, यह सुनिश्चित करता है कि पूरे दस्तावेज़ सामग्री पर विचार किया जाए।
AI की प्रतिक्रिया को उत्पन्न होते ही प्रदर्शित करके एक चैट एप्लिकेशन की कथित प्रतिक्रियाशीलता में सुधार करें।
→Chat Completions API को कॉल करते समय, `stream` पैरामीटर को `true` पर सेट करें। प्रतिक्रिया को टोकन दर टोकन बनाने के लिए सर्वर-भेजी गई घटनाओं को उनके आने पर संसाधित करें।
क्यों: Streaming वास्तविक समय के अनुप्रयोगों के लिए एक बेहतर उपयोगकर्ता अनुभव प्रदान करती है, बजाय पूरी प्रतिक्रिया के उत्पन्न होने का इंतजार करने के, जिसमें कई सेकंड लग सकते हैं।
एक AI एजेंट को यह गतिशील रूप से तय करना होगा कि उपयोगकर्ता के अनुरोध को पूरा करने के लिए कई उपकरणों (जैसे, डेटाबेस क्वेरी, वेब खोज, ईमेल प्रेषक) में से किसका उपयोग करना है।
→Semantic Kernel या Azure AI Agent Service जैसे फ्रेमवर्क का उपयोग करें। प्रत्येक क्षमता को एक विशिष्ट टूल/प्लगइन के रूप में परिभाषित करें और एजेंट के प्लानर या ReAct लूप को टूल कॉल्स को ऑर्केस्ट्रेट करने दें।
क्यों: Agentic Frameworks ऑर्केस्ट्रेशन परत (प्लानर/रीजनिंग लूप) प्रदान करते हैं जो एक LLM को साधारण प्रश्नोत्तर से आगे बढ़कर उपकरणों का उपयोग करने वाले एक स्वायत्त अभिनेता बनने में सक्षम बनाता है।
एक स्वायत्त AI एजेंट को बिना निरीक्षण के उच्च-जोखिम वाले कार्य (जैसे, डेटा हटाना, पैसे खर्च करना) करने से रोकें।
→एक मानव-इन-द-लूप पैटर्न लागू करें। जब एजेंट एक उच्च-जोखिम वाले कार्य की योजना बनाता है, तो सिस्टम को रुकना होगा और निष्पादित करने से पहले एक मानव ऑपरेटर से स्पष्ट पुष्टि की आवश्यकता होगी।
क्यों: यह एजेंटिक प्रणालियों के लिए एक महत्वपूर्ण जिम्मेदार AI पैटर्न है, जो स्वायत्तता को सुरक्षा के साथ संतुलित करता है, अपरिवर्तनीय या उच्च-प्रभाव वाले कार्यों को गेट करके।