Ein Azure OpenAI-Chatbot muss konsistente, fokussierte und nicht-kreative Antworten für ein Kundendienstszenario liefern.
→Stellen Sie den `temperature`-Parameter auf einen niedrigen Wert ein, z. B. 0,1 oder 0,2. Vermeiden Sie es, ihn für die meisten Modelle genau auf 0 zu setzen.
Warum: Die Temperatur steuert die Zufälligkeit der Ausgabe. Eine Senkung macht das Modell deterministischer und wahrscheinlicher, die Token mit der höchsten Wahrscheinlichkeit zu wählen.
Stellen Sie in einer RAG-Lösung sicher, dass das generative Modell Antworten nur aus Dokumenten synthetisiert, auf die der spezifische Benutzer Zugriff hat.
→Implementieren Sie Sicherheitstrimming in der Abrufphase. Wenden Sie in Azure AI Search Sicherheitsfilter auf die Suchabfrage basierend auf der AAD-Identität und Gruppenmitgliedschaften des Benutzers an.
Warum: Die Zugriffskontrolle muss durchgesetzt werden, bevor der LLM die Daten sieht. Das Filtern auf der Such-(Abruf-)Ebene ist die einzig sichere Methode, dies zu implementieren.
Extrahieren Sie mit Azure OpenAI konsistent strukturierte Daten aus unstrukturiertem Text in ein gültiges JSON-Objekt.
→Verwenden Sie einen Prompt, der Folgendes enthält: 1) Eine klare Rolle. 2) Eine explizite Anweisung, NUR JSON zurückzugeben. 3) Das gewünschte JSON-Schema mit Feldnamen und Typen. 4) Wenige Beispiele (Few-shot examples), falls möglich.
Warum: Hochstrukturierte und explizite Prompts erhöhen die Zuverlässigkeit, gut geformte, strukturierte Ausgaben von LLMs zu erhalten, erheblich.
Eine geschäftskritische Anwendung erfordert einen garantierten, konsistenten Durchsatz von Azure OpenAI, ohne Drosselung während Spitzenlasten.
→Kaufen und stellen Sie das Modell mit Provisioned Throughput Units (PTU) bereit.
Warum: PTUs bieten dedizierte, reservierte Modellverarbeitungskapazität, im Gegensatz zu standardmäßigen Pay-as-you-go-Bereitstellungen, die auf einem Shared-Capacity-Modell basieren und Drosselung unterliegen können.
Referenz↗
Behalten Sie den Kontext in einer lang laufenden Chatbot-Konversation bei, ohne das Token-Limit des Modells zu überschreiten.
→Implementieren Sie eine Strategie zur Konversationszusammenfassung. Verwenden Sie periodisch einen separaten LLM-Aufruf, um ältere Teile der Konversation zusammenzufassen, und fügen Sie diese Zusammenfassung sowie die neuesten Äußerungen in den Prompt ein.
Warum: Dieses "Zusammenfassen und Verschieben"-Muster bewahrt den langfristigen Kontext wesentlich effektiver und wirtschaftlicher als einfaches Abschneiden oder das Senden der gesamten (und schließlich zu langen) Historie.
Ermöglichen Sie einem Azure OpenAI-Modell, eine externe API aufzurufen, um aktuelle Wetterinformationen abzurufen.
→Definieren Sie die API als Tool für das Modell unter Verwendung eines präzisen JSON-Schema-Formats. Fügen Sie eine klare Funktions`description` und detaillierte `parameter`-Beschreibungen hinzu, damit das Modell weiß, wann und wie es sie verwenden soll.
Warum: Das Modell verlässt sich vollständig auf das Schema und die Beschreibungen, um eine fundierte Entscheidung für den Aufruf einer Funktion zu treffen. Eine gut beschriebene Funktion ist entscheidend für die Zuverlässigkeit.
Verwenden Sie Azure OpenAI, um ein Dokument zusammenzufassen, das viel länger ist als das Kontextfenster des Modells.
→Implementieren Sie eine "Map-Reduce"- oder "Refine"-Strategie. Zerlegen Sie das Dokument in Abschnitte, generieren Sie eine Zusammenfassung für jeden Abschnitt (Map) und generieren Sie dann eine finale Zusammenfassung aus der Sammlung der Abschnittszusammenfassungen (Reduce).
Warum: Dies ist das Standardmuster, um Modelle mit festem Kontext auf beliebig lange Eingaben anzuwenden und sicherzustellen, dass der gesamte Dokumentinhalt berücksichtigt wird.
Verbessern Sie die wahrgenommene Reaktionsfähigkeit einer Chat-Anwendung, indem Sie die Antwort der KI anzeigen, während sie generiert wird.
→Stellen Sie beim Aufruf der Chat Completions API den `stream`-Parameter auf `true`. Verarbeiten Sie die Server-Sent Events, sobald sie eintreffen, um die Antwort Token für Token aufzubauen.
Warum: Streaming bietet eine wesentlich bessere Benutzererfahrung für Echtzeitanwendungen, als auf die Generierung der vollständigen Antwort zu warten, was mehrere Sekunden dauern kann.
Ein KI-Agent muss dynamisch entscheiden, welches von mehreren Tools (z. B. Datenbankabfrage, Websuche, E-Mail-Versender) verwendet werden soll, um eine Benutzeranfrage zu erfüllen.
→Verwenden Sie ein Framework wie Semantic Kernel oder Azure AI Agent Service. Definieren Sie jede Fähigkeit als separates Tool/Plugin und lassen Sie den Planer oder die ReAct-Schleife des Agenten die Tool-Aufrufe orchestrieren.
Warum: Agentische Frameworks bieten die Orchestrierungsebene (Planer/Reasoning-Schleife), die einem LLM ermöglicht, über einfache Q&A hinauszugehen und ein autonomer Akteur zu werden, der Tools verwendet.
Verhindern Sie, dass ein autonomer KI-Agent ohne Aufsicht risikoreiche Aktionen (z. B. Daten löschen, Geld ausgeben) durchführt.
→Implementieren Sie ein Human-in-the-Loop-Muster. Wenn der Agent eine risikoreiche Aktion plant, muss das System pausieren und eine explizite Bestätigung von einem menschlichen Bediener anfordern, bevor es ausgeführt wird.
Warum: Dies ist ein kritisches Muster für verantwortungsvolle KI in agentischen Systemen, das Autonomie mit Sicherheit in Einklang bringt, indem es irreversible oder hochwirksame Aktionen kontrolliert.