Es muss verstanden werden, warum ein komplexes "Black-Box"-Modell bestimmte Vorhersagen trifft, zur Fehlersuche, Compliance oder zum Vertrauen der Stakeholder.
→Verwenden Sie das Responsible AI-Dashboard in Azure ML, um Modellerklärungen zu generieren. Verwenden Sie SHAP für lokale (individuelle Vorhersage-) Erklärungen und die globale Feature-Wichtigkeit für das Gesamtverhalten des Modells.
Warum: SHAP-Werte bieten eine robuste, modellagnostische Methode, um den Einfluss jedes Features auf eine spezifische Vorhersage zuzuordnen, was für regulatorische und Debugging-Szenarien entscheidend ist.
Ein Modell, das für Entscheidungen wie die Kreditgenehmigung verwendet wird, muss fair sein und darf geschützte demografische Gruppen nicht diskriminieren.
→Verwenden Sie die Fairness-Bewertung des Responsible AI-Dashboards, um Fairness-Metriken (z. B. demografische Parität, equalized odds) über sensible Features hinweg zu analysieren. Wenden Sie bei gefundenen Ungleichheiten Milderungstechniken wie Schwellenwertanpassungen nach der Verarbeitung an.
Warum: Die Fairness-Bewertung liefert quantitative Beweise für das Verhalten eines Modells über verschiedene Gruppen hinweg. Milderungstechniken helfen, Verzerrungen zu korrigieren, um gerechte Ergebnisse zu gewährleisten.
Ein LLM muss Fragen auf der Grundlage spezifischer, privater Unternehmensdokumente beantworten, ohne Fakten zu halluzinieren.
→Implementieren Sie ein Retrieval-Augmented Generation (RAG)-Muster. Verwenden Sie Azure AI Search, um einen Vektorindex der Dokumente zu erstellen. Zum Abfragezeitpunkt rufen Sie relevante Dokumentabschnitte ab und übergeben diese als Kontext im Prompt an das LLM.
Warum: RAG verankert die Antwort des LLM in faktischen, aktuellen Informationen, reduziert Halluzinationen erheblich und ermöglicht es, Wissen zu nutzen, das nicht in seinen ursprünglichen Trainingsdaten enthalten ist.
Ein LLM muss konsistent spezifische Richtlinien, Ton und Ausgabeformate (z. B. JSON generieren) befolgen.
→Verwenden Sie detailliertes System-Prompt-Engineering. Geben Sie eine klare Persona, explizite Regeln und Einschränkungen sowie Few-Shot-Beispiele für gewünschte Eingabe-/Ausgabe-Paare an.
Warum: Ein gut ausgearbeiteter System-Prompt ist die direkteste und effektivste Methode, das Verhalten eines LLM zu steuern, ohne die Kosten und die Komplexität des Fine-Tunings.
Die Qualität einer RAG-basierten LLM-Anwendung muss gemessen werden.
→Verwenden Sie RAG-spezifische Bewertungsmetriken wie Groundedness (wird die Antwort durch den Kontext gestützt?) und Relevance (beantwortet die Antwort die Frage des Benutzers?).
Warum: Standard-NLP-Metriken wie ROUGE sind unzureichend. Groundedness und Relevance messen direkt die Kernherausforderungen von RAG: Halluzinationen verhindern und nützliche Antworten liefern.
Eine LLM-Anwendung ist zu langsam oder zu teuer für den Produktionseinsatz.
→Implementieren Sie einen Router, um kleinere, günstigere Modelle (z. B. GPT-3.5-Turbo) für einfache Aufgaben zu verwenden. Aktivieren Sie das Antwort-Caching für wiederholte Abfragen. Optimieren Sie die Prompt-Länge.
Warum: Die Verwendung des passenden Modells für die jeweilige Aufgabe ist die effektivste Maßnahme zur Kosteneinsparung. Caching eliminiert redundante API-Aufrufe und reduziert direkt Kosten und Latenz.
Eine LLM-Anwendung verarbeitet sensible Daten, die das Unternehmensnetzwerk nicht verlassen oder für das Modelltraining verwendet werden dürfen.
→Stellen Sie den Azure OpenAI-Dienst mit einem privaten Endpunkt bereit. Konfigurieren Sie die Ressource so, dass keine Prompt-/Completion-Daten protokolliert werden.
Warum: Private Endpunkte gewährleisten die Netzwerkisolation. Die Option zum Nicht-Protokollieren bietet eine zusätzliche Ebene des Datenschutzes und erfüllt strenge Compliance-Anforderungen.
Ein in Azure AI Studio entwickelter Prompt Flow muss als hochverfügbarer, skalierbarer Produktionsendpunkt bereitgestellt werden.
→Stellen Sie den Prompt Flow als Azure ML Managed Online Endpoint bereit.
Warum: Dies bietet einen nahtlosen Pfad von der Entwicklung zur Produktion und nutzt dieselbe robuste Infrastruktur (Auto-Skalierung, Lastverteilung, Überwachung), die auch für traditionelle ML-Modelle verwendet wird.
Eine benutzerseitige generative KI-Anwendung muss vor der Generierung oder Verarbeitung schädlicher, beleidigender oder unsicherer Inhalte geschützt werden.
→Verwenden Sie sowohl die integrierten Azure OpenAI-Inhaltsfilter als auch den Azure AI Content Safety-Dienst für eine umfassende Moderation von Prompts und Completions.
Warum: Geschichtete Sicherheit ist entscheidend. Die integrierten Filter bieten eine Basis, während der dedizierte Content Safety-Dienst eine granularere Kontrolle und multimodale Fähigkeiten bietet.
Ein konversationeller KI-Chatbot muss den Kontext über mehrere Benutzerbeiträge hinweg aufrechterhalten.
→LLMs sind zustandslos. Die Anwendung muss den Konversationsverlauf (z. B. in einer Sitzung oder Datenbank) verwalten und relevante Teile des Verlaufs in jeden neuen Prompt an das LLM aufnehmen.
Warum: Das explizite Bereitstellen von Kontext in jedem API-Aufruf ist die einzige Möglichkeit für ein zustandsloses LLM, sich an die Konversation zu "erinnern".
Es müssen verschiedene Prompts systematisch getestet werden, um denjenigen zu finden, der die beste LLM-Leistung erzielt.
→Verwenden Sie Prompt Flow-Varianten. Definieren Sie mehrere Prompt-Versionen für einen Knoten und führen Sie einen Massentest gegen einen Bewertungsdatensatz durch, um Leistungsmetriken zu vergleichen.
Warum: Varianten bieten einen strukturierten, datengesteuerten Ansatz für Prompt Engineering, der über manuelles Trial-and-Error hinausgeht und eine systematische Optimierung ermöglicht.
Eine Produktions-LLM-Anwendung muss sowohl auf den operativen Zustand als auch auf die Antwortqualität überwacht werden.
→Kombinieren Sie Application Insights für operationelle Telemetriedaten (Latenz, Fehlerraten, Token-Nutzung) mit periodischen Batch-Evaluierungsjobs unter Verwendung eines Evaluierungsflows, um die Antwortqualität (Groundedness, Relevanz) zu bewerten.
Warum: Die Überwachung von LLMs erfordert die Verfolgung sowohl der Systemleistung als auch der Qualität der generierten Inhalte. Diese Kombination bietet eine ganzheitliche Sicht auf die Anwendungsgesundheit.