Ein Backend-Dienst muss Modelle und agents aufrufen, die in einem Foundry-Projekt definiert sind.
→Verwenden Sie das Azure AI Foundry SDK (AIProjectClient) mit dem Projektverbindungsstring und einem DefaultAzureCredential, um Modell- und agent-Clients zu erhalten.
Warum: Der Projekt-Client löst Verbindungen und Bereitstellungen zentral auf; das Hardcodieren von Endpunkten und Schlüsseln pro Modell umgeht die Projekt-Governance.
Referenz↗
Erstellen Sie eine F&A-App, die auf Richtliniendokumenten basiert.
→Betten Sie die Dokumente ein und indizieren Sie sie, rufen Sie top-k chunks pro Abfrage ab und übergeben Sie sie als Kontext an die Chat-Vervollständigung mit einer Anweisung zum Zitieren Ihrer Quellen.
Warum: RAG hält Wissen aktuell und zitierbar, ohne Neuschulung; das Übergeben des gesamten Korpus in den prompt sprengt das Kontextfenster und die Kosten.
Das Modell muss den Live-Bestellstatus während eines Gesprächs nachschlagen.
→Definieren Sie ein tool mit einem JSON schema, lassen Sie das Modell einen tool call ausgeben, führen Sie ihn serverseitig aus und geben Sie das Ergebnis an das Modell zur Zusammenfassung zurück.
Warum: Function/tool calling ermöglicht es dem Modell, reale Systeme deterministisch aufzurufen; es zu bitten, den Status zu "erraten", führt zu Fälschungen.
Referenz↗
Eine Aufgabe benötigt mehrere abhängige tool calls vor einer endgültigen Antwort.
→Führen Sie eine tool-Nutzungsschleife aus: Geben Sie jedes tool-Ergebnis an das Modell zurück und iterieren Sie, bis es eine endgültige Nachricht zurückgibt, mit einer maximalen Iterationsbegrenzung.
Warum: Iterative tool loops unterstützen mehrstufiges Denken; ein einziger Roundtrip kann keine abhängigen Suchvorgänge verketten, und eine unbegrenzte Schleife kann außer Kontrolle geraten.
Vor der Auslieferung quantifizieren, wie oft eine RAG-App halluziniert oder vom Thema abweicht.
→Führen Sie Foundry Evaluatoren für groundedness, Relevanz und Kohärenz über einen gekennzeichneten Testsatz aus und steuern Sie die Freigabe anhand von Schwellenwerten.
Warum: Integrierte Evaluatoren liefern messbare Qualitäts- und Sicherheitssignale; das Überprüfen einiger weniger Stichproben erkennt keine systematische Fälschung.
Referenz↗
Definieren Sie einen Support-agent mit einer klaren Persona, Zielen und Grenzen.
→Legen Sie die Systemanweisungen des agents fest (Rolle, Ziele, Ablehnungsregeln) und hängen Sie nur die tools an, die er für seinen Umfang benötigt.
Warum: Strenge Anweisungen plus minimaler tool-Zugriff halten den agent bei der Aufgabe; breite Anweisungen und jedes tool laden zu Scope Creep und unsicheren Aktionen ein.
Ein agent muss den Kontext über Gesprächsrunden innerhalb einer Sitzung hinweg speichern.
→Verwenden Sie Foundry Agent Service threads, die den Nachrichtenverlauf pro Konversation speichern, sodass jeder Durchlauf frühere Gesprächsrunden sieht.
Warum: Threads bieten eine verwaltete Gesprächserinnerung; das manuelle erneute Senden des gesamten Transkripts bei jedem Anruf ist fehleranfällig und kann leicht falsch gekürzt werden.
Referenz↗
Ein agent benötigt Web-grounding und Code-Ausführung ohne kundenspezifische Implementierung.
→Hängen Sie integrierte Foundry agent tools wie Grounding mit Bing Search und den Code Interpreter an, anstatt Integrationen manuell zu erstellen.
Warum: Verwaltete tools werden sofort geregelt und unterstützt; benutzerdefinierte Neuimplementierungen erhöhen den Wartungsaufwand und umgehen Plattform-Sicherheitskontrollen.
Ein primärer agent sollte Abrechnungsfragen an einen spezialisierten Abrechnungs-agent delegieren.
→Verwenden Sie verbundene agents: Machen Sie den Abrechnungs-agent als tool verfügbar, das der Haupt-agent aufrufen kann, sodass er Unteraufgaben an Spezialisten weiterleitet.
Warum: Verbundene agents ermöglichen hierarchische Delegation; das Hineinpressen jeder Domäne in einen Mega-agent bläht Anweisungen auf und mindert die Genauigkeit.
Referenz↗
Ein Workflow benötigt einen Planer, einen Researcher und einen Schreiber, die mit gemeinsamem Status zusammenarbeiten.
→Orchestrieren Sie sie mit einem multi-agent Framework (Semantic Kernel / AutoGen on Foundry) unter Verwendung eines definierten Orchestrierungsmusters und gemeinsamen Kontexts.
Warum: Frameworks verwalten die Reihe, den Zustand und die Beendigung; ad-hoc String-Übergabe zwischen agents hat keine Koordination oder Abbruchbedingung.
Ein agent läuft unbeaufsichtigt über Nacht und darf keine riskanten Aktionen allein ausführen.
→Begrenzen Sie ihn mit zugelassenen tools, Pro-Aktions-Budgets, Inhaltsfiltern und einem Kontrollpunkt, der Schritte mit hoher Auswirkung zur Genehmigung eskaliert.
Warum: Geschichtete Sicherheitsmaßnahmen halten die Autonomie sicher; eine autonome Schleife mit vollem tool-Zugriff und ohne Genehmigungsgate kann irreversible Schäden verursachen.
Ein agent fällt sporadisch mitten in einer Aufgabe aus, und Sie müssen den fehlerhaften Schritt finden.
→Überprüfen Sie die nachverfolgten Schritte und tool-call Inputs/Outputs des Laufs in Foundry, um das fehlerhafte tool oder das fehlerhafte Argument zu lokalisieren.
Warum: Schrittweise Traces zeigen genau, wo ein Lauf unterbrochen wurde; eine einzelne finale Fehlermeldung verbirgt, welcher tool call oder Denkschritt tatsächlich fehlgeschlagen ist.
Die Ausgaben sind inkonsistent und ignorieren Formatierungsanweisungen.
→Verwenden Sie eine klare Systemnachricht, few-shot Beispiele und explizite Ausgabe-Constraints; für eine strenge Form aktivieren Sie structured outputs / JSON schema.
Warum: Strukturiertes prompting und schema-erzwungene Ausgaben machen Ergebnisse zuverlässig; das Erhöhen der temperature oder blindes Wiederholen beheben nicht das Befolgen von Anweisungen.
Referenz↗
Eine kreative Texterstellungsaufgabe fühlt sich zu repetitiv an; eine Datenextraktionsaufgabe ist zu zufällig.
→Erhöhen Sie temperature/top-p für die kreative Aufgabe und senken Sie diese für die Extraktion auf 0, um sie deterministisch zu machen.
Warum: Sampling-Parameter tauschen Vielfalt gegen Determinismus; der Modellwechsel ist übertrieben, wenn die Parametereinstellung die eigentliche Ursache ist.
Ein reasoning agent macht vermeidbare Logikfehler bei schwierigen Aufgaben.
→Fügen Sie einen Reflexions-/Selbstkritik-Schritt hinzu, bei dem der agent seinen Entwurf überprüft und überarbeitet, oder verwenden Sie ein reasoning model für den Schritt.
Warum: Chain-of-thought und Selbstkritik verbessern die Genauigkeit bei schwierigen Aufgaben; ein einzelner Vorwärtsdurchlauf hat keine Chance, eigene Fehler zu erkennen.
Der Betrieb benötigt token-Verbrauch, Latenz und Sicherheitssignale pro Anfrage in der Produktion.
→Senden Sie OpenTelemetry traces und Metriken von der App an Azure Monitor / Application Insights, die tokens, Latenz und content-safety Flags erfassen.
Warum: Vereinheitlichte Observability verbindet Kosten, Leistung und Sicherheit; das manuelle Auslesen von Logs kann einen langsamen Durchlauf nicht mit seiner token-Nutzung korrelieren.
Referenz↗
Eine App mischt kostengünstige Klassifizierung mit gelegentlicher komplexer Denkweise.
→Orchestrieren Sie mehrere Bereitstellungen: Leiten Sie einfache Gesprächsrunden an ein SLM und eskalieren Sie schwierige Gesprächsrunden an ein Frontier LLM hinter einer App-Schicht.
Warum: Das Modell-Routing optimiert Kosten und Qualität pro Gesprächsrunde; die Verwendung eines Premium-Modells für alles ist eine Überbezahlung für die leichte Mehrheit.