🏠Startseite 📚Zertifizierungen 📱Mobile Apps

🎓Prüfungsinfo

✍️Blog 💼Karriere 📊Fortschritt 📅Kalender 💬Support

Datenschutzrichtlinie Nutzungsbedingungen Kontakt Cookie-Richtlinie Haftungsausschluss Barrierefreiheit DMCA / Urheberrecht

Zum Inhalt springen

AI-103Handbuch

Handbuch — AI-103 Microsoft Azure AI Apps and Agents Developer Associate

Zuletzt überprüft: Juni 2026

Eine übersichtliche Referenz der Architekturmuster, die in der AI-103-Prüfung getestet werden. Von oben nach unten lesen oder zu einem Abschnitt springen.

Abschnitte

Eine Azure AI-Lösung planen und verwalten16 Einträge
Generative KI- und Agenten-Lösungen implementieren17 Einträge
Computer Vision-Lösungen implementieren7 Einträge
Textanalyse-Lösungen implementieren7 Einträge
Informationsgewinnungs-Lösungen implementieren7 Einträge

Eine Azure AI-Lösung planen und verwalten

Eine Chat-Funktion läuft mit hohem Volumen, kurzen, einfachen Gesprächsrunden und einem knappen Latenz- und Kostenbudget.

Stellen Sie ein small language model (SLM) wie Phi aus dem Foundry Modellkatalog bereit, anstatt eines Frontier LLM.

Warum: SLMs senken Kosten und Latenz für spezifische Aufgaben; große LLMs sollten komplexen Denkprozessen vorbehalten bleiben. Passen Sie die Modellgröße der Aufgabe an, nicht der Marke.

Ein einzelner agent muss über vom Benutzer hochgeladene Bilder und Text in einer einzigen Anfrage nachdenken.

Wählen Sie ein multimodales Modell (z.B. GPT-4o Familie) im Foundry Katalog, anstatt ein Vision-Modell an ein reines Text-LLM zu ketten.

Warum: Native multimodale Modelle akzeptieren Bild und Text in einem prompt; ein reines Textmodell erzwingt eine verlustbehaftete Beschreibungsübergabe, die visuelle Details fallen lässt.

Antworten müssen in einer privaten Unternehmens-Wissensdatenbank verankert sein, nicht im Vortraining des Modells.

Bauen Sie eine Abrufschicht auf: Indexieren Sie den Korpus in Azure AI Search mit vector embeddings und verankern Sie das Modell über RAG über diesem Index.

Warum: Grounding injiziert abgerufenen, zitierbaren Kontext bei der Inferenz; Feintuning backt Wissen statisch ein und kann nicht zitieren oder kostengünstig aktualisieren.

Ein agent muss interne REST-APIs aufrufen und auch aus einem indizierten Dokumentenspeicher abrufen.

Registrieren Sie die APIs als agent tools (Funktion/OpenAPI) und hängen Sie den AI Search Index als Wissensquelle an den Foundry agent an.

Warum: Tools verleihen dem agent Handlungsfähigkeit; Wissensquellen ermöglichen eine verankerte Abfrage (grounded retrieval). Es sind separate Integrationsflächen, nicht derselbe Connector.

Mehrere Teams benötigen isolierte agent-Konfigurationen, Verbindungen und Bereitstellungen unter gemeinsamer Governance.

Verwenden Sie einen Foundry Hub mit pro-Team Foundry Projekten; jedes Projekt beschränkt seine eigenen Verbindungen, Bereitstellungen und Zugriffe.

Warum: Der Hub zentralisiert Netzwerk, Richtlinien und gemeinsame Ressourcen; das Projekt ist die Arbeitsbereichseinheit für eine App oder ein Team. Teilen Sie kein einzelnes Projekt über mehrere Teams hinweg.

Eine Produktions-App benötigt vorhersehbare Datenresidenz und reservierten Durchsatz für eine Modellbereitstellung.

Verwenden Sie eine Standard (regionale) oder Provisioned Throughput (PTU)-Bereitstellung anstelle einer Global deployment für residenzsensible Workloads mit hohem Durchsatz.

Warum: Global deployments leiten an jede Region für Kapazität; Standard fixiert die Region, und PTU reserviert Kapazität für stabile Latenz. Wählen Sie nach Residenz- und SLA-Anforderungen.

Prompt- und agent-Definitionen müssen mit Überprüfung und Rollback von der Entwicklung in die Produktion überführt werden.

Speichern Sie prompt flow / agent Definitionen als Code in einem Repository und befördern Sie sie durch Umgebungen mit Azure DevOps oder GitHub Actions Pipelines.

Warum: Behandeln Sie prompts und agent-Konfigurationen als versionierte Artefakte; manuelle Portalbearbeitungen in der Produktion haben keine Audit-Spur oder Rollback-Pfad.

Ein Traffic-Schwall löst 429-Fehler bei einer Modellbereitstellung aus.

Erhöhen Sie das TPM/RPM-Kontingent der Bereitstellung, sofern verfügbar, fügen Sie ein clientseitiges Wiederholen mit exponentiellem Backoff hinzu und erwägen Sie eine PTU-Bereitstellung für garantierte Kapazität.

Warum: Das Kontingent ist die Obergrenze für tokens pro Minute; Backoff glättet vorübergehende Drosselung. Das Hochfahren doppelter Ressourcen ohne Kontingentplanung verschiebt nur den Engpass.

Die Ausgaben sind unvorhersehbar und werden von langen RAG prompts dominiert.

Begrenzen Sie die maximalen output tokens, kürzen Sie den abgerufenen Kontext auf top-k, cachen Sie wiederverwendbaren Systemkontext und verfolgen Sie die token-Nutzung pro Bereitstellung in Azure Monitor.

Warum: Die Kosten skalieren mit Input plus output tokens; das Schrumpfen von Kontext und Outputs ist der direkte Hebel. Das Wechseln der Region oder SKU ändert den Token-Preis selten wesentlich.

Über Wochen scheinen sich die Antwortqualität und die grounding-Treue in der Produktion zu verschlechtern.

Führen Sie kontinuierliche Online-Evaluierungen in Foundry für groundedness, Relevanz und Kohärenz auf Stichproben des Live-Traffics durch und alarmieren Sie bei Punktabfällen.

Warum: Geplante Evaluatoren erkennen Abweichungen, die Sie in rohen Latenzmetriken nicht sehen können; CPU-/Latenz-Dashboards allein enthüllen nie eine grounding-Regression.

RAG-Antworten veralten, weil keine neuen Dokumente abgerufen werden.

Überwachen Sie den Ausführungsverlauf des AI Search Indexers und die Dokumentanzahl; planen Sie inkrementelle Indizierung und alarmieren Sie bei fehlgeschlagenen Indexer-Läufen.

Warum: Die Abrufqualität bricht stillschweigend zusammen, wenn der Indexer fehlschlägt oder verzögert; modellseitige Metriken sehen gut aus, weil die Lücke in der Datenpipeline liegt.

Eine App muss eine Foundry Modellbereitstellung ohne Geheimnisse in der Konfiguration aufrufen.

Aktivieren Sie eine managed identity für die App und weisen Sie ihr die Rolle "Cognitive Services OpenAI User" zu; authentifizieren Sie sich mit Entra ID tokens, nicht mit API-Schlüsseln.

Warum: Die schlüssellose Entra-Authentifizierung entfernt leckbare Geheimnisse und zentralisiert RBAC; das Speichern von API-Schlüsseln, selbst in Key Vault, hinterlässt immer noch einen Schlüssel, der rotiert und geschützt werden muss.

Der Foundry-Traffic darf niemals das öffentliche Internet durchqueren.

Platzieren Sie die Foundry-Ressource und deren Abhängigkeiten hinter private endpoints, deaktivieren Sie den öffentlichen Netzwerkzugriff und lösen Sie über private DNS-Zonen auf.

Warum: Private endpoints binden den Traffic an das VNet; Firewall-IP-Zulassungslisten leiten immer noch über öffentliche endpoints und bieten eine schwächere Isolation.

Generierte Antworten enthalten gelegentlich hasserfüllte oder gewalttätige Inhalte.

Wenden Sie einen Azure AI Content Safety Filter bei der Bereitstellung an, mit geeigneten Schweregradschwellenwerten für Hass-, sexuelle, Gewalt- und Selbstverletzungskategorien.

Warum: Inhaltsfilter prüfen prompts und Vervollständigungen serverseitig; sich allein auf eine system-prompt-Anweisung zu verlassen, kann durch Jailbreaks leicht umgangen werden.

Ein autonomer agent kann irreversible Aktionen ausführen, wie z.B. Rückerstattungen ausstellen.

Konfigurieren Sie ein Human-in-the-Loop-Genehmigungsgate für Tools mit hoher Auswirkung und beschränken Sie den agent auf eine Liste zugelassener Aktionen.

Warum: Genehmigungsmodi und tool-Zugriffsbeschränkungen begrenzen die Autonomie; ein uneingeschränkter autonomer agent hat keine Bremse bei einem destruktiven tool-Aufruf.

Auditoren müssen sehen, welche Quellen und tool-Aufrufe eine bestimmte Antwort erzeugt haben.

Aktivieren Sie tracing in Foundry (OpenTelemetry), um prompts, abgerufene Zitate, tool-Aufrufe und Ausgaben pro Anfrage zu erfassen.

Warum: End-to-End-Traces liefern Herkunft und Reproduzierbarkeit; aggregierte token-Metriken allein können die Argumentationskette einer einzelnen Antwort nicht rekonstruieren.

Generative KI- und Agenten-Lösungen implementieren

Ein Backend-Dienst muss Modelle und agents aufrufen, die in einem Foundry-Projekt definiert sind.

Verwenden Sie das Azure AI Foundry SDK (AIProjectClient) mit dem Projektverbindungsstring und einem DefaultAzureCredential, um Modell- und agent-Clients zu erhalten.

Warum: Der Projekt-Client löst Verbindungen und Bereitstellungen zentral auf; das Hardcodieren von Endpunkten und Schlüsseln pro Modell umgeht die Projekt-Governance.

Erstellen Sie eine F&A-App, die auf Richtliniendokumenten basiert.

Betten Sie die Dokumente ein und indizieren Sie sie, rufen Sie top-k chunks pro Abfrage ab und übergeben Sie sie als Kontext an die Chat-Vervollständigung mit einer Anweisung zum Zitieren Ihrer Quellen.

Warum: RAG hält Wissen aktuell und zitierbar, ohne Neuschulung; das Übergeben des gesamten Korpus in den prompt sprengt das Kontextfenster und die Kosten.

Das Modell muss den Live-Bestellstatus während eines Gesprächs nachschlagen.

Definieren Sie ein tool mit einem JSON schema, lassen Sie das Modell einen tool call ausgeben, führen Sie ihn serverseitig aus und geben Sie das Ergebnis an das Modell zur Zusammenfassung zurück.

Warum: Function/tool calling ermöglicht es dem Modell, reale Systeme deterministisch aufzurufen; es zu bitten, den Status zu "erraten", führt zu Fälschungen.

Eine Aufgabe benötigt mehrere abhängige tool calls vor einer endgültigen Antwort.

Führen Sie eine tool-Nutzungsschleife aus: Geben Sie jedes tool-Ergebnis an das Modell zurück und iterieren Sie, bis es eine endgültige Nachricht zurückgibt, mit einer maximalen Iterationsbegrenzung.

Warum: Iterative tool loops unterstützen mehrstufiges Denken; ein einziger Roundtrip kann keine abhängigen Suchvorgänge verketten, und eine unbegrenzte Schleife kann außer Kontrolle geraten.

Vor der Auslieferung quantifizieren, wie oft eine RAG-App halluziniert oder vom Thema abweicht.

Führen Sie Foundry Evaluatoren für groundedness, Relevanz und Kohärenz über einen gekennzeichneten Testsatz aus und steuern Sie die Freigabe anhand von Schwellenwerten.

Warum: Integrierte Evaluatoren liefern messbare Qualitäts- und Sicherheitssignale; das Überprüfen einiger weniger Stichproben erkennt keine systematische Fälschung.

Definieren Sie einen Support-agent mit einer klaren Persona, Zielen und Grenzen.

Legen Sie die Systemanweisungen des agents fest (Rolle, Ziele, Ablehnungsregeln) und hängen Sie nur die tools an, die er für seinen Umfang benötigt.

Warum: Strenge Anweisungen plus minimaler tool-Zugriff halten den agent bei der Aufgabe; breite Anweisungen und jedes tool laden zu Scope Creep und unsicheren Aktionen ein.

Ein agent muss den Kontext über Gesprächsrunden innerhalb einer Sitzung hinweg speichern.

Verwenden Sie Foundry Agent Service threads, die den Nachrichtenverlauf pro Konversation speichern, sodass jeder Durchlauf frühere Gesprächsrunden sieht.

Warum: Threads bieten eine verwaltete Gesprächserinnerung; das manuelle erneute Senden des gesamten Transkripts bei jedem Anruf ist fehleranfällig und kann leicht falsch gekürzt werden.

Ein agent benötigt Web-grounding und Code-Ausführung ohne kundenspezifische Implementierung.

Hängen Sie integrierte Foundry agent tools wie Grounding mit Bing Search und den Code Interpreter an, anstatt Integrationen manuell zu erstellen.

Warum: Verwaltete tools werden sofort geregelt und unterstützt; benutzerdefinierte Neuimplementierungen erhöhen den Wartungsaufwand und umgehen Plattform-Sicherheitskontrollen.

Ein primärer agent sollte Abrechnungsfragen an einen spezialisierten Abrechnungs-agent delegieren.

Verwenden Sie verbundene agents: Machen Sie den Abrechnungs-agent als tool verfügbar, das der Haupt-agent aufrufen kann, sodass er Unteraufgaben an Spezialisten weiterleitet.

Warum: Verbundene agents ermöglichen hierarchische Delegation; das Hineinpressen jeder Domäne in einen Mega-agent bläht Anweisungen auf und mindert die Genauigkeit.

Ein Workflow benötigt einen Planer, einen Researcher und einen Schreiber, die mit gemeinsamem Status zusammenarbeiten.

Orchestrieren Sie sie mit einem multi-agent Framework (Semantic Kernel / AutoGen on Foundry) unter Verwendung eines definierten Orchestrierungsmusters und gemeinsamen Kontexts.

Warum: Frameworks verwalten die Reihe, den Zustand und die Beendigung; ad-hoc String-Übergabe zwischen agents hat keine Koordination oder Abbruchbedingung.

Ein agent läuft unbeaufsichtigt über Nacht und darf keine riskanten Aktionen allein ausführen.

Begrenzen Sie ihn mit zugelassenen tools, Pro-Aktions-Budgets, Inhaltsfiltern und einem Kontrollpunkt, der Schritte mit hoher Auswirkung zur Genehmigung eskaliert.

Warum: Geschichtete Sicherheitsmaßnahmen halten die Autonomie sicher; eine autonome Schleife mit vollem tool-Zugriff und ohne Genehmigungsgate kann irreversible Schäden verursachen.

Ein agent fällt sporadisch mitten in einer Aufgabe aus, und Sie müssen den fehlerhaften Schritt finden.

Überprüfen Sie die nachverfolgten Schritte und tool-call Inputs/Outputs des Laufs in Foundry, um das fehlerhafte tool oder das fehlerhafte Argument zu lokalisieren.

Warum: Schrittweise Traces zeigen genau, wo ein Lauf unterbrochen wurde; eine einzelne finale Fehlermeldung verbirgt, welcher tool call oder Denkschritt tatsächlich fehlgeschlagen ist.

Die Ausgaben sind inkonsistent und ignorieren Formatierungsanweisungen.

Verwenden Sie eine klare Systemnachricht, few-shot Beispiele und explizite Ausgabe-Constraints; für eine strenge Form aktivieren Sie structured outputs / JSON schema.

Warum: Strukturiertes prompting und schema-erzwungene Ausgaben machen Ergebnisse zuverlässig; das Erhöhen der temperature oder blindes Wiederholen beheben nicht das Befolgen von Anweisungen.

Eine kreative Texterstellungsaufgabe fühlt sich zu repetitiv an; eine Datenextraktionsaufgabe ist zu zufällig.

Erhöhen Sie temperature/top-p für die kreative Aufgabe und senken Sie diese für die Extraktion auf 0, um sie deterministisch zu machen.

Warum: Sampling-Parameter tauschen Vielfalt gegen Determinismus; der Modellwechsel ist übertrieben, wenn die Parametereinstellung die eigentliche Ursache ist.

Ein reasoning agent macht vermeidbare Logikfehler bei schwierigen Aufgaben.

Fügen Sie einen Reflexions-/Selbstkritik-Schritt hinzu, bei dem der agent seinen Entwurf überprüft und überarbeitet, oder verwenden Sie ein reasoning model für den Schritt.

Warum: Chain-of-thought und Selbstkritik verbessern die Genauigkeit bei schwierigen Aufgaben; ein einzelner Vorwärtsdurchlauf hat keine Chance, eigene Fehler zu erkennen.

Der Betrieb benötigt token-Verbrauch, Latenz und Sicherheitssignale pro Anfrage in der Produktion.

Senden Sie OpenTelemetry traces und Metriken von der App an Azure Monitor / Application Insights, die tokens, Latenz und content-safety Flags erfassen.

Warum: Vereinheitlichte Observability verbindet Kosten, Leistung und Sicherheit; das manuelle Auslesen von Logs kann einen langsamen Durchlauf nicht mit seiner token-Nutzung korrelieren.

Eine App mischt kostengünstige Klassifizierung mit gelegentlicher komplexer Denkweise.

Orchestrieren Sie mehrere Bereitstellungen: Leiten Sie einfache Gesprächsrunden an ein SLM und eskalieren Sie schwierige Gesprächsrunden an ein Frontier LLM hinter einer App-Schicht.

Warum: Das Modell-Routing optimiert Kosten und Qualität pro Gesprächsrunde; die Verwendung eines Premium-Modells für alles ist eine Überbezahlung für die leichte Mehrheit.

Computer Vision-Lösungen implementieren

Eine Marketing-App muss Originalbilder aus Textprompts generieren.

Stellen Sie ein Bildgenerierungsmodell (z.B. DALL-E / GPT-image im Foundry Katalog) bereit und rufen Sie es mit dem Textprompt und den Größenparametern auf.

Warum: Generative Bildmodelle synthetisieren neue Visuals; die Image Analysis (vision) API beschreibt nur bestehende Bilder, sie kann sie nicht erstellen.

Ersetzen Sie nur den Hintergrund eines vorhandenen Produktfotos, wobei das Produkt intakt bleibt.

Verwenden Sie den Bildbearbeitungs (inpainting) Endpunkt mit dem Quellbild plus einer Maske, die nur den bearbeitbaren Bereich markiert.

Warum: Eine Maske begrenzt Bearbeitungen auf den maskierten Bereich; ein einfacher Text-zu-Bild-Aufruf generiert den gesamten Rahmen neu und verliert das Originalprodukt.

Erzeugen Sie kurze generierte Videoclips aus einer Textbeschreibung.

Verwenden Sie ein Text-zu-Video-Modell wie Sora im Foundry Katalog mit prompt, Dauer und Auflösungsparametern.

Warum: Die Videogenerierung ist eine eigenständige Modellfamilie; Bildmodelle geben Einzelbilder aus und können keine zeitliche Bewegung erzeugen.

Benutzer stellen freiformulierte Fragen zu einem hochgeladenen Diagrammbild.

Senden Sie das Bild plus die Frage an ein multimodales LLM (GPT-4o) für visuelle Frage-Antwort-Systeme und eine natürlichsprachliche Antwort.

Warum: Multimodal-Chat verarbeitet offene visuelle QA; Bild-Tagging mit fester Taxonomie liefert Labels, nicht Antworten auf beliebige Fragen.

Automatisches Generieren von beschreibendem Alt-Text für Tausende von Bildern zur Barrierefreiheit.

Nutzen Sie die Image Analysis caption / dense-captions Fähigkeit, um menschenlesbare Beschreibungen in großem Umfang zu erstellen.

Warum: Die Bildunterschrift-Generierung liefert direkt prägnante Alt-Texte; die Objekterkennung gibt Bounding Boxes zurück, die noch in Prosa umgewandelt werden müssen.

Extrahieren Sie strukturierte Felder und Erkenntnisse auf Segmentebene aus langen aufgezeichneten Videos.

Verwenden Sie Azure AI Content Understanding mit einem Videoanalysator, um strukturierte, schema-definierte Ausgaben über die gesamte Zeitachse hinweg zu erhalten.

Warum: Content Understanding erzeugt geerdete strukturierte Ausgaben über Modalitäten hinweg; Einzelbild-Aufrufe liefern keine zeitleistenbewusste Struktur.

Ein multimodaler agent liest Benutzerbilder, die versteckten Anweisungstext enthalten können.

Aktivieren Sie prompt shields / indirekte Injektionserkennung und behandeln Sie Text in Bildern als nicht vertrauenswürdige Daten, nicht als Anweisungen.

Warum: Eingebetteter Bildtext ist ein klassischer Vektor für indirekte prompt injection; das direkte Weiterleiten von OCR'd Text an den System-prompt ermöglicht Angreifern, den agent zu kapern.

Textanalyse-Lösungen implementieren

Namen, Daten und Beträge aus E-Mails in einen typisierten JSON-Datensatz extrahieren.

Fordern Sie ein LLM mit einem Ziel-JSON schema auf und aktivieren Sie structured outputs, damit jedes Feld in einer festen Form zurückgegeben wird.

Warum: Schema-eingeschränkte LLM-Extraktion verarbeitet offene Formate und garantiert parsebares JSON; brüchige regex bricht bei der Vielfalt natürlicher Sprache.

Erstellen Sie eine prägnante, neu formulierte Zusammenfassung langer Support-Transkripte.

Verwenden Sie ein LLM für die abstraktive Zusammenfassung mit einer Längen- und Fokus-Anweisung oder die Zusammenfassungs-Fähigkeit des Language Service.

Warum: Abstraktive Zusammenfassungen umschreiben den Kern; extraktive Satzwahl kopiert lediglich Sätze und kann den Gesamtpunkt verfehlen.

Klassifizieren Sie Kundennachrichten nach Stimmung und markieren Sie aggressiven Ton.

Verwenden Sie ein LLM (oder die Language sentiment API), um Polarität zu kennzeichnen und den Ton zu erkennen, wobei eine Kategorie und eine Konfidenz zurückgegeben werden.

Warum: Sentiment/tone analysis ist eine Klassifizierungsaufgabe mit definierten Labels; Freitextgenerierung ohne Label schema ist schwer nachgelagert zu routen.

Übersetzen Sie große Mengen von UI-Strings präzise und kostengünstig in 30 Sprachen.

Verwenden Sie Azure AI Translator für die Massen-, deterministische Übersetzung; reservieren Sie ein LLM für nuancierte, kontextlastige Passagen.

Warum: Translator ist zweckgebunden, günstiger und im großen Maßstab konsistent; ein LLM pro String kostet mehr und kann im Ton über Läufe hinweg abweichen.

Ein Sprach-agent muss Anrufer-Audio in Echtzeit transkribieren.

Verwenden Sie den Speech Service Echtzeit-speech-to-text (oder schnelle Transkription), um Text in die agent-Pipeline einzuspeisen.

Warum: Streaming STT liefert Teitranskripte mit geringer Latenz für Live-Gespräche; Batch-Transkription ist für Offline-Dateien, nicht für Live-Sitzungen.

Transkription missversteht Produktnamen und medizinischen Fachjargon.

Trainieren Sie ein Custom Speech Modell mit Domänen-Audio und Phrasenlisten, um die Erkennung von speziellem Vokabular zu verbessern.

Warum: Custom Speech passt das akustische/Sprachmodell an Ihre Begriffe an; das Basismodell hat keine Kenntnis Ihres privaten Fachjargons.

Der agent muss mit natürlich klingender Sprachausgabe antworten.

Verwenden Sie neuronale Text to Speech mit einer geeigneten Stimme und SSML, um Prosodie, Pausen und Aussprache zu steuern.

Warum: Neuronale TTS plus SSML erzeugt lebensechte, steuerbare Sprache; einfacher Text ohne SSML führt zu einer flachen Phrasierung von Zahlen und Namen.

Informationsgewinnungs-Lösungen implementieren

Die reine vector-basierte Abfrage verfehlt exakte Keyword- und Code-Identifikator-Übereinstimmungen.

Verwenden Sie hybrid search in Azure AI Search (vector plus Keyword) mit semantic ranking, um die zusammengeführten Ergebnisse neu zu ordnen.

Warum: Hybrid plus semantic reranking übertrifft jedes Signal allein; reine vector search kann wörtliche Begriffe übersehen, reine Keyword-Suche verfehlt Paraphrasen.

Der Korpus enthält gescannte PDFs, deren Text nicht auswählbar ist.

Fügen Sie dem Indexierungs-Skillset eine OCR cognitive skill (Document Intelligence / Vision) hinzu, damit gescannter Text vor dem Chunking und embedding extrahiert wird.

Warum: OCR-Anreicherung macht Text aus Bildern für den Abruf verfügbar; das Indizieren des reinen gescannten PDF liefert nichts Durchsuchbares.

Während der Ingestion benötigen Sie OCR, Schlüsselphrasenextraktion und Übersetzung pro Dokument angewendet.

Definieren Sie ein AI Search skillset, das die benötigten cognitive skills verkettet und Ausgaben in Indexfelder projiziert, die der Indexer füllt.

Warum: Ein skillset orchestriert deklarativ die Anreicherung zur Indexierungszeit; dies im App-Code pro Abfrage zu tun, wiederholt Arbeit und bricht die Wiederverwendung.

Sie möchten, dass chunking und embedding innerhalb der Index-Pipeline behandelt werden, nicht im App-Code.

Verwenden Sie AI Search integrated vectorization, um Dokumente aufzuteilen und ein embedding-Modell während der Indizierung und zur Abfragezeit aufzurufen.

Warum: Integrierte Vektorisierung hält chunking/embedding zwischen Ingest und Abfrage konsistent; benutzerdefinierte clientseitige embedding birgt das Risiko einer Modellfehlanpassung.

Strukturierte Felder aus Rechnungen mit unterschiedlichen Layouts extrahieren.

Verwenden Sie ein Document Intelligence vorgefertigtes Rechnungsmodell oder trainieren Sie ein benutzerdefiniertes Modell, um typisierte Felder mit Konfidenz und Begrenzungsregionen zurückzugeben.

Warum: Document Intelligence versteht Layout und gibt typisierte Felder zurück; ein reiner OCR-Dump liefert Rohtext ohne Feldsemantik.

Sie benötigen eine saubere, geerdete markdown-Darstellung gemischter Dokumente für RAG.

Verwenden Sie Content Understanding Analyzer, um strukturierte / markdown-Ausgaben zu erzeugen, die Überschriften, Tabellen und Feld-grounding bewahren.

Warum: Grounded markdown bewahrt Struktur und Zitate für den Abruf; abgeflachter Klartext verliert Tabellen und Abschnittskontext, den das Modell benötigt.

Ein Foundry agent muss zur Laufzeit aus Ihrem angereicherten Suchindex abrufen.

Fügen Sie den AI Search Index als Wissensquelle / tool zum agent hinzu, damit jeder Lauf Antworten in abgerufenen, zitierten Ergebnissen verankert.

Warum: Das Verdrahten des Index als agent tool ermöglicht eine Live-grounded retrieval; das Einfügen statischer Schnipsel in Anweisungen kann nicht mit dem Korpus aktuell bleiben.