C1000-185Handbuch

Handbuch — C1000-185 IBM Certified watsonx Generative AI Engineer - Associate

Zuletzt überprüft: Juni 2026

Eine übersichtliche Referenz der Architekturmuster, die in der C1000-185-Prüfung getestet werden. Von oben nach unten lesen oder zu einem Abschnitt springen.

Grundlagenmodelle und Prompt Engineering

Ein Unternehmen benötigt ein anweisungsfolgendes Modell mit permissiver Lizenzierung und Haftungsfreistellung.

Wählen Sie ein IBM Granite Instruct-Modell aus dem watsonx.ai-Katalog anstelle eines von Drittanbietern gehosteten Modells.

Warum: Granite-Modelle werden von IBM entwickelt, gesteuert und verfügen über die IP-Haftungsfreistellung von IBM – die standardmäßige sichere Wahl für regulierte Arbeitslasten.

Auswahl zwischen einer Chat-optimierten und einer Anweisungs-optimierten Variante für eine Extraktionsaufgabe in einem einzigen Durchgang.

Verwenden Sie die Instruct-Variante mit einem klaren Direktiven-Prompt; reservieren Sie Chat-Modelle für den Dialog über mehrere Durchgänge.

Warum: Chat-Modelle erwarten rollenstrukturierte Durchgänge; für One-Shot-Aufgaben ist das Instruct-Modell einfacher und kostengünstiger.

Die Ausgabe muss für einen Compliance-Bericht deterministisch und reproduzierbar sein.

Stellen Sie die Dekodierung auf Greedy (kein Sampling) ein, damit immer das Token mit der höchsten Wahrscheinlichkeit ausgewählt wird.

Warum: Greedy-Dekodierung eliminiert Zufälligkeit; Sampling mit Temperatur führt Variationen ein, die Sie in der geprüften Ausgabe nicht wünschen.

Die Generierung kreativer Texte wirkt repetitiv und fad.

Wechseln Sie zur Sampling-Dekodierung und erhöhen Sie die Temperatur (z. B. 0.7-1.0), um die Token-Verteilung zu erweitern.

Warum: Eine höhere Temperatur glättet die Wahrscheinlichkeiten, sodass niedriger eingestufte Tokens ausgewählt werden, was die Vielfalt erhöht.

Sampling-Ausgaben weichen gelegentlich mit seltenen Tokens vom Thema ab.

Beschränken Sie das Sampling mit top-k oder top-p (Nukleus), um Kandidaten auf die wahrscheinlichsten Tokens zu begrenzen.

Warum: top-k begrenzt die Anzahl der Kandidaten; top-p begrenzt die kumulative Wahrscheinlichkeitsmasse – beides kürzt den langen Schwanz ab, der zu Abweichungen führt.

Das Modell schleift, wiederholt die gleiche Phrase oder den gleichen Satz.

Erhöhen Sie den Parameter für die Wiederholungsstrafe, um die erneute Ausgabe kürzlich verwendeter Tokens zu unterbinden.

Warum: Die Strafe senkt die Wahrscheinlichkeit bereits gesehener Tokens; Stop-Sequenzen allein beheben keine Schleifen während der Generierung.

Die Generierung geht über die Antwort hinaus und erzeugt halluzinierten Folgetext.

Definieren Sie eine oder mehrere Stop-Sequenzen (z. B. "\n\n", "###"), damit die Generierung an einer bekannten Grenze stoppt.

Warum: Stop-Sequenzen beenden die Ausgabe deterministisch; sich allein auf die maximale Anzahl von Tokens zu verlassen, würde mitten im Satz abschneiden.

Antworten werden abgeschnitten, bevor das angeforderte JSON vollständig ist.

Erhöhen Sie die maximale Anzahl neuer Tokens; setzen Sie die minimale Anzahl neuer Tokens, um bei Bedarf eine Antwort mit Mindestlänge zu erzwingen.

Warum: Die maximale Anzahl neuer Tokens begrenzt die Ausgabelänge; ist sie zu niedrig, wird die strukturierte Ausgabe vor der schließenden Klammer abgeschnitten.

Die Zero-Shot-Klassifizierung kennzeichnet Randfälle falsch.

Fügen Sie eine Handvoll beschrifteter Eingabe-/Ausgabebeispiele (Few-Shot) direkt in den Prompt ein.

Warum: Few-Shot-Beispiele legen das Ausgabeformat und die Entscheidungsgrenze im Kontext fest, ohne dass eine Abstimmung erforderlich ist.

Das Team möchte einen Prompt iterativ verbessern, bevor Code geschrieben wird.

Verwenden Sie Prompt Lab – wechseln Sie zwischen Freiform-, Struktur- und Chat-Modus, stimmen Sie Parameter ab und speichern Sie dann als Prompt-Vorlage.

Warum: Prompt Lab ist die No-Code-Oberfläche für die Iteration; der strukturierte Modus trennt Anweisungen, Beispiele und Eingaben sauber.

Lange Dokumente überschreiten das Kontextfenster des gewählten Modells.

Zerlegen Sie Dokumente in Blöcke und rufen Sie nur relevante Passagen ab (RAG) oder wählen Sie ein Modell mit längerem Kontext aus dem Katalog.

Warum: Sie können das Token-Limit des Modells nicht überschreiten; das Einfügen von mehr Text führt stillschweigend zu Fehlern oder zum Verlust von Daten – Abruf ist die skalierbare Lösung.

Modelltraining, -abstimmung und -bewertung

Prompt Engineering stagniert bei einer engen Domänenaufgabe, die einen konsistenten Stil erfordert.

Führen Sie Prompt-Tuning im Tuning Studio durch, um einen Soft-Prompt (abgestimmten Vektor) anhand von beschrifteten Beispielen zu lernen.

Warum: Prompt-Tuning passt das Verhalten an, ohne die Basisgewichte zu ändern – kostengünstiger als Fine-Tuning, zuverlässiger als lange Prompts.

Dem Modell fehlen aktuelle, faktische Unternehmenskenntnisse.

Verwenden Sie RAG, um Antworten in abgerufenen Dokumenten zu verankern, anstatt das Modell auf diese Fakten abzustimmen.

Warum: Tuning lehrt Stil/Verhalten, nicht neue Fakten; RAG injiziert aktuellen, geerdeten Kontext und ist leicht zu aktualisieren.

Entscheidung zwischen Prompt-Tuning und vollständigem Fine-Tuning für ein watsonx-Projekt auf Associate-Ebene.

Bevorzugen Sie Prompt-Tuning: Es trainiert weitaus weniger Parameter, läuft schneller und ist der unterstützte Pfad im Tuning Studio.

Warum: Vollständiges Fine-Tuning ist kostspielig, erfordert große Datensätze und birgt das Risiko des katastrophalen Vergessens; Prompt-Tuning ist die watsonx-Standardmethode.

Vorbereitung von Daten für das Prompt-Tuning eines Zusammenfassungsmodells.

Stellen Sie Eingabe-/Ausgabe-Paare im erwarteten JSON/JSONL-Format bereit, aufgeteilt in Trainings- und Validierungssätze.

Warum: Saubere, repräsentative Paare fördern die Tuning-Qualität; ein zurückgehaltener Validierungssatz ist erforderlich, um die Generalisierung zu beurteilen.

Die Tuning-Verlustkurve flacht früh ab, während der Validierungsverlust zu steigen beginnt.

Epochen stoppen oder reduzieren – das Modell beginnt, das Trainingsset zu überanpassen.

Warum: Auseinanderlaufende Trainings-/Validierungsverluste sind das klassische Overfitting-Signal; mehr Epochen würden memorisieren, nicht generalisieren.

Die Ergebnisse des Prompt-Tunings sind über verschiedene Durchläufe hinweg instabil.

Passen Sie die Lernrate, die Anzahl der Epochen, die Batch-Größe und die Anzahl der virtuellen Tokens in der Tuning-Konfiguration an.

Warum: Eine zu hohe Lernrate destabilisiert das Training; dies sind die Stellschrauben, die das Tuning Studio für die Konvergenz zur Verfügung stellt.

Zwei Prompts oder abgestimmte Assets müssen objektiv verglichen werden.

Bewerten Sie mit Aufgabenmetriken (z. B. ROUGE/BLEU für Zusammenfassung, Exact-Match/F1 für Extraktion) plus menschlicher Überprüfung.

Warum: Die generative Qualität ist mehrdimensional; automatisierte Metriken erkennen Regressionen, aber die menschliche Überprüfung beurteilt die Treue.

Das abgestimmte Modell erfindet immer noch Fakten, die in der Quelle nicht vorhanden sind.

Verankern Sie mit RAG, senken Sie die Temperatur und weisen Sie das Modell an, nur aus dem bereitgestellten Kontext zu antworten oder zu sagen, dass es die Antwort nicht kennt.

Warum: Halluzinationen sind eher ein Verankerungs- und Dekodierungsproblem als ein Gewichtungsproblem; Abruf plus Einschränkungen beheben den größten Teil davon.

Für die Anpassung stehen nur wenige Dutzend beschrifteter Beispiele zur Verfügung.

Bleiben Sie beim Few-Shot-Prompting oder leichten Prompt-Tuning; führen Sie kein Fine-Tuning mit winzigen Daten durch.

Warum: Kleine Datensätze neigen beim vollständigen Fine-Tuning stark zu Overfitting; In-Kontext-Beispiele generalisieren in diesem Maßstab besser.

Auswahl des Basismodells für das Prompt-Tuning einer Klassifizierungsaufgabe.

Wählen Sie ein abstimmbares Granite-Basismodell, das das Tuning Studio für das Prompt-Tuning unterstützt und an die Aufgabe angepasst ist.

Warum: Nicht jedes Katalogmodell ist abstimmbar; das Tuning eines kleineren unterstützten Modells ist kostengünstiger und oft ausreichend für die Klassifizierung.

Die Qualität der generativen Ausgabe muss in der Produktion kontinuierlich verfolgt werden.

Konfigurieren Sie watsonx.governance-Evaluierungsmetriken (Qualität, Drift, Generative-AI-Metriken) für die Bereitstellung.

Warum: Governance verwandelt einmalige Evaluierungen in überwachte Schwellenwerte mit Warnungen, statt einer manuellen Stichprobenprüfung.

Derselbe abgestimmte Prompt muss viele Eingaben mit unterschiedlichen Feldern bedienen.

Parametrisieren Sie die Prompt-Vorlage mit benannten Variablen und liefern Sie Werte zur Inferenzzeit.

Warum: Variablen bewahren eine wiederverwendbare Vorlage anstelle von hartkodierten Eingaben und lassen sich sauber auf API-Parameter abbilden.

Ein Modell ignoriert die Aufgabenanweisung und setzt den Text einfach fort.

Verwenden Sie ein anweisungs-optimiertes Modell und formulieren Sie den Prompt als explizite Anweisung, nicht als zu vervollständigendes Fragment.

Warum: Basis-Completion-Modelle setzen Muster fort; Instruct-Modelle sind darauf trainiert, Anweisungen zu folgen.

Datenmanagement mit watsonx.data

Interaktive SQL-Abfragen über Objektspeicherdaten für die Vorbereitung von KI-Funktionen sind erforderlich.

Verwenden Sie die watsonx.data Presto-Engine über Iceberg-Tabellen im Objektspeicher.

Warum: Presto bietet schnelle, föderierte SQL-Abfragen auf offenen Tabellenformaten, ohne Daten in ein Warehouse kopieren zu müssen.

Analysedaten benötigen Schema-Evolution und Zeitreisen im Lakehouse.

Speichern Sie sie als Apache Iceberg-Tabellen, die von watsonx.data verwaltet werden.

Warum: Iceberg unterstützt Schema-Evolution, Snapshots und ACID-Operationen auf Objektspeichern – der Lakehouse-Standard.

Auswahl einer Engine für umfangreiche ETL-Transformationen vs. Ad-hoc-Abfragen.

Verwenden Sie Spark für große Batch-Transformationen/ETL; verwenden Sie Presto für interaktive SQL-Abfragen mit geringer Latenz.

Warum: Spark skaliert Batch-Berechnungen; Presto ist für schnelle, föderierte Abfragen optimiert – wählen Sie nach der Form der Arbeitslast.

RAG benötigt einen Vektorspeicher für Embeddings, der sich am selben Ort wie die verwalteten Daten befindet.

Stellen Sie Milvus innerhalb von watsonx.data als Vektordatenbank für die Ähnlichkeitssuche bereit.

Warum: Milvus ist der integrierte watsonx.data-Vektorspeicher; das Speichern von Embeddings im Lakehouse vereinfacht die Governance.

Entscheidung zwischen Milvus und watsonx Discovery für den Abruf.

Verwenden Sie Milvus für die von Ihnen kontrollierte reine Vektorähnlichkeit; verwenden Sie watsonx Discovery (Elasticsearch-basiert) für die verwaltete Unternehmenssuche mit hybrider Retrieval.

Warum: Milvus ist eine Vektor-Datenbank, die Sie betreiben; Discovery ist ein übergeordneter Suchdienst mit integrierter Aufnahme und Ranking.

Dokumente vorbereiten, damit ein Grundlagenmodell Antworten darauf stützen kann.

Dokumente in Blöcke aufteilen, Embeddings mit einem watsonx.ai Embedding-Modell generieren und diese in Milvus indizieren.

Warum: Die Abrufqualität hängt von einer sinnvollen Chunking und einem passenden Embedding-Modell ab; nicht übereinstimmende Dimensionen zerstören den Index.

Eine KI-Funktion benötigt Daten, die über mehrere Datenbanken und Buckets verteilt sind.

Registrieren Sie die Quellen in watsonx.data und fragen Sie sie vor Ort über die Föderation der Engine ab.

Warum: Föderation vermeidet kostspielige Datenredundanz und behält einen einzigen, verwalteten Zugriffspunkt bei.

Das Governance-Team benötigt Herkunft und Zugriffskontrolle über die Daten, die Modelle speisen.

Katalogisieren Sie Datensätze im watsonx.data-Katalog und wenden Sie IAM/richtlinienbasierten Zugriff an.

Warum: Ein verwalteter Katalog verknüpft später die Datenherkunft mit Modell-Factsheets – Ad-hoc-Bucket-Zugriffe umgehen dies.

Ein watsonx.ai-Projekt muss kuratierte Lakehouse-Tabellen für RAG lesen.

Fügen Sie eine watsonx.data-Verbindung zum Projekt hinzu und referenzieren Sie Tabellen als Daten-Assets.

Warum: Verbindungen machen verwaltete Lakehouse-Daten für das KI-Projekt zugänglich, ohne Kopien exportieren zu müssen.

Bereitstellung und Integration von GenAI-Lösungen

Ein funktionierender Prompt Lab-Prompt muss zu einem wiederverwendbaren, bereitstellbaren Asset werden.

Speichern Sie es als Prompt-Vorlagen-Asset im Projekt und befördern Sie es dann in einen Bereitstellungsbereich.

Warum: Bereitstellungsbereiche sind die Produktionsgrenze; Prompts müssen dorthin befördert werden, bevor sie bereitgestellt werden können.

Eine Anwendung benötigt einen Inferenz-Endpunkt mit geringer Latenz für einen abgestimmten Prompt.

Erstellen Sie eine Online-Bereitstellung im Bereitstellungsbereich; sie stellt einen Scoring-/Generierungs-REST-Endpunkt bereit.

Warum: Online-Bereitstellungen bieten einen synchronen Endpunkt; Batch-Bereitstellungen sind für Offline-Scoring-Jobs vorgesehen.

Aufruf eines Grundlagenmodells aus Python-Anwendungscode.

Verwenden Sie die Klasse ModelInference des watsonx.ai Python SDK und rufen Sie generate_text mit Ihren Parametern auf.

Warum: ModelInference kapselt Authentifizierung, Modell-ID, Projekt/Space und Parameter in einem Client – sauberer als rohes REST.

Ein Nicht-Python-Dienst muss watsonx.ai-Inferenz aufrufen.

Rufen Sie den watsonx.ai Textgenerierungs-REST-Endpunkt mit der Modell-ID, Eingabe und Parametern im JSON-Body auf.

Warum: Die REST-API ist sprachunabhängig; das SDK ist lediglich ein Wrapper über denselben Endpunkten.

Authentifizierung von SDK- oder API-Aufrufen an watsonx.ai.

Tauschen Sie einen IBM Cloud IAM API-Schlüssel gegen ein Bearer-Token aus und rufen Sie dann den Endpunkt mit diesem Token und Ihrer Projekt-/Space-ID auf.

Warum: watsonx verwendet IBM Cloud IAM; das Einbetten des Roh-API-Schlüssels bei jedem Aufruf oder das Hartkodieren von Tokens ist falsch und unsicher.

Entscheidung, wo ein Modell-Asset während der Entwicklung vs. der Bereitstellung lebt.

Entwickeln und experimentieren Sie in einem Projekt; befördern Sie das Asset in einen Bereitstellungsbereich, um es bereitzustellen.

Warum: Projekte sind kollaborative Entwicklungs-Sandboxes; Bereitstellungsbereiche enthalten für die Produktion freigegebene, zugriffsgesteuerte Assets.

Verknüpfung von Retrieval und Generierung zu einem Anwendungsfluss.

Betten Sie die Abfrage ein, rufen Sie die Top-K-Chunks von Milvus/Discovery ab, injizieren Sie sie in die Prompt-Vorlage und rufen Sie dann das bereitgestellte Modell auf.

Warum: Die Reihenfolge Abruf-dann-Generierung ist das, was die Antwort untermauert; das Aufrufen des Modells zuerst untergräbt RAG.

watsonx Plattform: Überblick und Architektur

Zuordnung einer GenAI-Arbeitslast zur watsonx-Produktfamilie.

Erstellen und optimieren Sie in watsonx.ai, speichern/fragen Sie Daten in watsonx.data ab, verwalten und überwachen Sie in watsonx.governance.

Warum: Die drei Komponenten ergänzen sich, sind nicht austauschbar – zu wissen, welche was leistet, ist zentrales Prüfungswissen.

Ein Unternehmen benötigt watsonx On-Premise aus Gründen der Datenresidenz.

Stellen Sie watsonx als Software auf Cloud Pak for Data (Red Hat OpenShift) bereit, anstatt das IBM Cloud SaaS-Angebot zu nutzen.

Warum: SaaS läuft in der IBM Cloud; der Software-Formfaktor läuft in Ihrem eigenen OpenShift-Cluster für Anforderungen an Datenresidenz/Air-Gap.

Organisation kollaborativer GenAI-Arbeit und ihrer Artefakte.

Verwenden Sie ein watsonx-Projekt als Arbeitsbereich, der Daten-Assets, Notebooks, Prompts und optimierte Modelle mit gemeinsamem Zugriff enthält.

Warum: Projekte sind die Einheit für Zusammenarbeit und Asset-Umfang; Bereitstellungsbereiche sind separat und produktionsorientiert.

Kontrolle, wer auf welche watsonx-Instanzen und Assets zugreifen kann.

Verwenden Sie IBM Cloud-Konten, Ressourcengruppen und IAM-Zugriffsrichtlinien/-rollen, um den Zugriff zu definieren.

Warum: Der Zugriff in watsonx erfolgt IAM-gesteuert auf Konto-/Ressourcengruppen-Ebene – nicht allein über Ad-hoc-Freigaben pro Asset.

Kostenabschätzung für die Ausführung von Inferenz mit Grundlagenmodellen.

Berücksichtigen Sie die Token-basierte Abrechnung für watsonx.ai-Inferenz plus die bereitgestellten Engines/Speicher in watsonx.data.

Warum: Die Kosten für GenAI werden hauptsächlich durch Eingabe-/Ausgabe-Tokens bestimmt; Lakehouse- und Vektorspeicher-Rechenleistung sind separate Posten.

Skizzierung einer RAG-Produktionsarchitektur auf watsonx.

Lakehouse-Daten → Embeddings in Milvus → watsonx.ai-Retrieval + -Generierung → App, mit durchgängiger watsonx.governance-Überwachung.

Warum: Dieser End-to-End-Fluss ist das kanonische watsonx-Referenzmuster, das Sie in der Prüfung erkennen sollen.

Governance, Compliance und verantwortungsbewusste KI

Prüfer fordern eine Aufzeichnung des Lebenszyklus und der Herkunft eines bereitgestellten Modells an.

Verwenden Sie watsonx.governance AI Factsheets, um Modellmetadaten, Herkunft und Genehmigungen über den gesamten Lebenszyklus hinweg zu erfassen.

Warum: Factsheets sind das Aufzeichnungssystem von watsonx für die Modellherkunft – die dokumentierte Antwort auf die Frage "woher stammt dieses Modell".

Die Ausgaben eines Produktionsmodells verschlechtern sich im Laufe der Zeit.

Konfigurieren Sie watsonx.governance-Drift- und Qualitätsmonitore mit Schwellenwerten und Warnungen für die Bereitstellung.

Warum: Kontinuierliche Überwachung erkennt Drift, bevor Benutzer es tun; eine einmalige Validierung kann den Verfall nach der Bereitstellung nicht erkennen.

Ein Modell muss auf unfaire Behandlung von geschützten Gruppen überprüft werden.

Führen Sie Fairness-/Bias-Evaluierungen in watsonx.governance durch und dokumentieren Sie die Minderung im Factsheet.

Warum: Verantwortungsbewusste KI-Verpflichtungen erfordern gemessene, dokumentierte Fairness – nicht nur eine ungemessene Annahme von Fairness.

Das Compliance-Team benötigt die Zuordnung des GenAI-Systems zu KI-Vorschriften.

Verwenden Sie watsonx.governance, um Risiken zu verfolgen, Kontrollen mit Vorschriften zu verknüpfen und prüfungsreife Nachweise zu pflegen.

Warum: Governance verknüpft Modellrisiken mit regulatorischen Kontrollen an einem Ort, was von Audits und den IBM-Prinzipien für verantwortungsvolle KI gefordert wird.