Handbuch — NCA-GENL NVIDIA-Certified Associate: Generative AI LLMs

Zuletzt überprüft: Juni 2026

Eine übersichtliche Referenz der Architekturmuster, die in der NCA-GENL-Prüfung getestet werden. Von oben nach unten lesen oder zu einem Abschnitt springen.

Grundlagen des maschinellen Lernens und der KI

Erklären Sie, was einem Transformer ermöglicht, entfernte Tokens beim Generieren des nächsten zu gewichten.

Self-attention. Jedes Token beachtet jedes andere Token über Query-/Key-/Value-Projektionen, wodurch kontextgewichtete Repräsentationen erzeugt werden.

Warum: Attention, nicht Rekurrenz, verleiht Transformern langreichweitigen Kontext und parallelisierbares Training.

Wählen Sie aus, wie neues Wissen oder Verhalten in ein LLM injiziert werden kann.

Neue Fakten, die sich oft ändern → RAG. Neues Aufgabenverhalten/-stil → Fine-tuning. Neue Grundfähigkeit/Vokabular in großem Maßstab → Fortgesetztes Pre-training.

Warum: RAG hält Daten extern und aktualisierbar; Fine-tuning integriert Verhalten in die Gewichte; Pre-training ist der teuerste Hebel.

Definieren Sie, was ein Modell zu einem Foundation Model macht.

Ein großes Modell, das auf breiten, größtenteils unbeschrifteten Daten vorab trainiert wurde und sich über Prompting, RAG oder Fine-tuning an viele nachgelagerte Aufgaben anpassen lässt.

Schätzen Sie, wie Text auf Modelleingabeeinheiten abgebildet wird und was die Kosten treibt.

Text wird von einem Tokenizer (z.B. BPE) in Sub-Word-Tokens aufgeteilt. Kosten und Kontextgrenzen werden in Tokens gemessen, nicht in Zeichen oder Wörtern.

Warum: Seltene oder nicht-englische Wörter werden in mehr Tokens aufgeteilt, was den Kontextverbrauch und die Inference-Kosten erhöht.

Ein langes Dokument passt nicht in einen einzelnen Prompt.

Die Eingabe überschreitet das Kontextfenster des Modells (maximale Tokens für Eingabe + Ausgabe). Teilen Sie das Dokument für RAG in Blöcke auf oder wählen Sie ein Modell mit längerem Kontext.

Warum: Das Kontextfenster ist eine feste Grenze; alles darüber hinaus wird abgeschnitten und geht stillschweigend verloren.

Ermöglichen Sie die semantische Suche oder RAG-Retrieval über Text.

Verwenden Sie ein embedding Modell, um Text in dichte Vektoren umzuwandeln, und rufen Sie dann mittels Kosinus-/Punktprodukt-Ähnlichkeit aus einem Vektorspeicher ab.

Warum: Embeddings platzieren semantisch ähnlichen Text nahe beieinander und ermöglichen so eine bedeutungsbasierte statt schlüsselwortbasierte Abfrage.

Wählen Sie das Ausgabeverhalten: deterministisch vs. kreativ.

Niedrige Temperatur (~0.0-0.3) → fokussiert, wiederholbar. Hohe Temperatur (~0.7-1.0) → divers, kreativ. Verwenden Sie Werte nahe 0 für Klassifizierung oder Extraktion.

Warum: Die Temperatur skaliert die Wahrscheinlichkeitsverteilung vor der Abtastung; niedrigere Werte konzentrieren die Masse auf die Top-Tokens.

Begrenzen Sie den Pool der Kandidaten-Tokens über die Temperatur hinaus.

Top-k behält die k wahrscheinlichsten Tokens bei; Top-p (nucleus) behält die kleinste Menge, deren kumulative Wahrscheinlichkeit p erreicht.

Warum: Top-p passt den Kandidatensatz an die Form der Verteilung an; Top-k hat eine feste Breite, unabhängig von der Konfidenz.

Identifizieren Sie, wie LLMs aus unbeschriftetem Text lernen.

Selbstüberwachtes Lernen — Next-Token (kausal) oder Masked-Token Prediction erzeugt Labels aus dem Text selbst, ohne menschliche Annotation.

Warum: Das ist es, was LLMs ermöglicht, auf internetgroßen Korpora ohne manuelle Beschriftung zu trainieren.

Ordnen Sie die Architektur der Aufgabengruppe zu.

Generierung → decoder-only (GPT-Stil). Verstehen/Klassifizierung → encoder-only (BERT-Stil). Seq-to-seq-Übersetzung/Zusammenfassung → encoder-decoder (T5-Stil).

Warum: Decoder-only Modelle prognostizieren von links nach rechts; Encoder sehen bidirektionalen Kontext, besser für Repräsentationsaufgaben.

Ein Basismodell dazu bringen, Anweisungen zu befolgen und hilfreiche, sichere Antworten zu bevorzugen.

Instruction Tuning gefolgt von Alignment wie RLHF — Reinforcement Learning aus menschlichen Präferenzrankings.

Warum: Ein rohes vortrainiertes Modell prognostiziert Text; Alignment lenkt es auf das beabsichtigte agent-Verhalten.

Das Modell gibt selbstbewusst, aber erfundene Fakten an.

Halluzination. Mindern Sie dies durch Verankerung mit RAG, Senkung der Temperatur, Angabe von Quellen und Hinzufügen von Guardrails sowie menschlicher Überprüfung für risikoreiche Ausgaben.

Warum: LLMs prognostizieren plausible Tokens, keine überprüften Fakten; Verankerung liefert die fehlenden Beweise.

Unterscheiden Sie Modellgröße von Trainingsdatengröße.

Parameter = gelernte Gewichte (Modellkapazität). Tokens = Volumen des Trainings Textes. Beide skalieren die Fähigkeit unter Skalierungsgesetzen.

Warum: Ein größeres Modell, das mit zu wenigen Tokens untertrainiert wurde, schneidet schlechter ab als ein kleineres, gut trainiertes (Chinchilla-Erkenntnis).

Trennung der zwei GPU-intensiven Phasen eines LLM-Lebenszyklus.

Training aktualisiert Gewichte aus Daten (einmalig, Batch). Inference führt das eingefrorene Modell aus, um Ausgaben zu generieren (laufend, latenzsensitiv).

Warum: Optimierungstools unterscheiden sich: Training verwendet Parallelisierungs-Frameworks; Inference verwendet TensorRT-LLM und Triton.

Ein feinabgestimmtes Modell merkt sich Trainingsbeispiele und versagt bei neuen Eingaben.

Overfitting. Mindern Sie dies durch mehr/diversere Daten, frühzeitiges Beenden, niedrigere Lernrate, weniger Epochen oder Regularisierung wie Dropout.

Warum: Eine große Lücke zwischen Training und Validierung bedeutet, dass das Modell Rauschen anstelle von generalisierbaren Mustern angepasst hat.

Softwareentwicklung

Stellen Sie ein optimiertes LLM schnell als Produktions-Microservice mit einer OpenAI-kompatiblen API bereit.

Verwenden Sie einen NVIDIA NIM Microservice — einen vorgefertigten, containerisierten, TensorRT-LLM-optimierten Modell-Endpunkt.

Warum: NIM paketiert das Modell, die Laufzeit und die optimierte Engine, sodass Sie das manuelle Verdrahten von TensorRT-LLM und Triton überspringen können.

Referenz

Servieren Sie mehrere Modelle mit Batching, Parallelität und mehreren Backends hinter einem Inference Server.

NVIDIA Triton Inference Server. Unterstützt dynamisches Batching, Modell-Ensembles und TensorRT/PyTorch/ONNX Backends.

Warum: Triton maximiert die GPU-Auslastung durch gleichzeitige Modellausführung und dynamisches Batching.

Referenz

Reduzieren Sie die LLM Inference-Latenz auf NVIDIA GPUs vor der Bereitstellung.

Kompilieren Sie das Modell mit TensorRT-LLM — Kernel Fusion, quantization, In-flight Batching und KV-Cache Optimierung.

Warum: TensorRT-LLM erzeugt eine optimierte Engine, die weitaus schneller ist als die Ausführung des rohen Framework-Modells.

Referenz

Trainieren, anpassen oder Fine-tuning von LLMs in großem Maßstab auf NVIDIA GPUs.

NVIDIA NeMo framework — End-to-End-Toolkit zum Erstellen, Anpassen und Bereitstellen generativer KI-Modelle.

Warum: NeMo deckt Datenkurator, Training, PEFT und Alignment in einem Stack ab, der für die Skalierung mit mehreren GPUs entwickelt ist.

Referenz

Erstellen Sie eine Anwendung, die Antworten aus privaten Dokumenten liefert, die das Basismodell nie gesehen hat.

RAG-Pipeline: Dokumente in Blöcke aufteilen + embed in einen Vektorspeicher, die Top-k nach Ähnlichkeit zur Abfragezeit abrufen und in den Prompt injizieren.

Warum: Retrieval verankert Antworten in aktuellen, eigenen Daten, ohne das Modell neu zu trainieren.

Begrenzen Sie den Ton, die Rolle und die Regeln des agent über eine gesamte Konversation hinweg.

Legen Sie einen System-Prompt/eine Systemnachricht fest, die Rolle, Einschränkungen und Format vor den Benutzerzügen definiert.

Warum: Die Systemnachricht bleibt über die Runden bestehen und steuert das Verhalten zuverlässiger als Anweisungen pro Runde.

Verbessern Sie die Genauigkeit bei einer strukturierten Aufgabe ohne Training.

Few-shot Prompting — betten Sie 2-5 Eingabe-/Ausgabebeispiele in den Prompt vor der tatsächlichen Eingabe ein.

Warum: In-context learning ermöglicht es dem Modell, Muster mit Beispielen abzugleichen, ohne die Gewichte zu aktualisieren.

Das Modell macht Fehler bei mehrstufigen Schlussfolgerungen oder mathematischen Problemen.

Chain-of-thought Prompting — weisen Sie es an, Schritt für Schritt zu folgern, bevor es die endgültige Antwort gibt.

Warum: Das Herausarbeiten von Zwischenschritten verbessert die Genauigkeit der Schlussfolgerungen bei kompositorischen Aufgaben.

Lassen Sie das LLM externe APIs, Datenbanken oder Tools zuverlässig auslösen.

Verwenden Sie Function/Tool Calling — definieren Sie Tool-Schemata; das Modell gibt strukturierte Argumente aus, die Ihr Code ausführt.

Warum: Strukturierte Tool-Aufrufe sind dem Parsen von Freitext überlegen und verankern das Modell in Live-Systemen für agent-Flows.

Nachgelagerter Code benötigt strenges JSON vom Modell.

Fordern Sie ein JSON-Schema im Prompt an und verwenden Sie eingeschränkte/geführte Dekodierung; validieren Sie die Ausgabe vor der Verwendung.

Warum: Die schemagesteuerte Dekodierung verhindert falsch formatiertes JSON, das das Parsen stören würde.

Eine Chat-UI muss Tokens anzeigen, sobald sie produziert werden, und nicht erst nach Fertigstellung.

Verwenden Sie Streaming (Token für Token) Inference vom Serving-Endpunkt.

Warum: Streaming senkt die wahrgenommene Latenz; NIM und Triton unterstützen beide gestreamte Antworten.

Fügen Sie Retrieval, Prompting und Tool-Schritte zu einer Anwendungs-Pipeline zusammen.

Verwenden Sie ein Orchestrierungs-Framework wie LangChain oder LlamaIndex, um Retriever, Prompts, Modelle und Tools zu verketten.

Warum: Diese Frameworks bieten wiederverwendbare RAG- und agent-Abstraktionen über NIM/NeMo-Endpunkte.

Entscheiden Sie sich zwischen einem paketierten Microservice und einem handgebauten Serving Stack.

Schnelle standardisierte Bereitstellung → NIM. Tiefgreifende benutzerdefinierte Backend-/Modelllogik → Triton + TensorRT-LLM direkt.

Warum: NIM tauscht Konfigurierbarkeit gegen Geschwindigkeit; reines Triton bietet volle Kontrolle über den Serving-Graph.

Referenz

Experimentieren

Ein großes Modell mit begrenztem GPU-Speicher Fine-tunen, ohne alle Gewichte zu berühren.

LoRA / PEFT — trainieren Sie kleine Low-Rank-Adaptermatrizen, während die Basisgewichte eingefroren bleiben.

Warum: LoRA reduziert trainierbare Parameter um Größenordnungen, sodass Fine-tuning auf bescheidene GPUs passt.

Referenz

Ein sehr großes Modell mit dem knappsten möglichen Speicherbudget Fine-tunen.

QLoRA — das eingefrorene Basismodell auf 4-Bit quantisieren und LoRA-Adapter darauf trainieren.

Warum: Die quantization der Basis reduziert den Speicher weiter als LoRA allein, was größere Modelle auf einer GPU ermöglicht.

Wählen Sie die günstigste Anpassung, die den Qualitätsanforderungen entspricht.

Eskalieren Sie der Reihe nach: Prompt Engineering → Few-shot → RAG → LoRA Fine-tuning → Full Fine-tuning.

Warum: Kosten und Aufwand steigen bei jedem Schritt; hören Sie beim ersten auf, der das Ziel erreicht.

Supervised Fine-tuning benötigt die richtige Trainingsdatenform.

Stellen Sie Anweisungs-/Antwort-Paare (Prompt-Completion) bereit, typischerweise in JSONL.

Warum: SFT lehrt das Modell, Eingaben den gewünschten Ausgaben zuzuordnen; die Paare definieren diese Zuordnung.

Fine-tuning-Verlust divergiert oder das Modell vergisst frühere Fähigkeiten.

Reduzieren Sie die Lernrate und/oder die Epochen; beobachten Sie den Validierungsverlust auf katastrophales Vergessen.

Warum: Eine zu hohe Lernrate destabilisiert das Training und überschreibt vortrainiertes Wissen.

Messen Sie, ob ein Fine-tuning oder eine Prompt-Änderung tatsächlich geholfen hat.

Halten Sie einen Validierungs-/Testsatz zurück, auf dem das Modell nie trainiert wurde, und vergleichen Sie Metriken vor und nach der Änderung.

Warum: Die Bewertung auf Trainingsdaten überschätzt die Qualität; nur zurückgehaltene Daten spiegeln die Generalisierung wider.

Vergleichen Sie viele Fine-tuning-Läufe mit verschiedenen Hyperparametern und Daten.

Protokollieren Sie Läufe, Konfigurationen und Metriken mit einem Experiment-Tracker (z.B. MLflow, Weights & Biases, TensorBoard).

Warum: Reproduzierbarkeit erfordert die Aufzeichnung, welche Konfiguration welches Ergebnis erzeugt hat; der Speicher skaliert nicht.

Bewerten Sie die Qualität des generierten Textes automatisch.

Zusammenfassung → ROUGE. Übersetzung → BLEU. Semantische Übereinstimmung → BERTScore. Offene Qualität → LLM-als-Richter oder menschliche Bewertung.

Warum: Lexikalisch-überlappende Metriken erfassen die Bedeutung nicht; für nuancierte Qualität ist eine menschliche oder modell-basierte Bewertung erforderlich.

RAG ruft irrelevanten oder zu wenig Kontext ab.

Passen Sie Chunk-Größe/Überlappung, Top-k und embedding Modell an und fügen Sie ein Re-Ranking hinzu; überprüfen Sie die Retrieval-Qualität separat von der Generierung.

Warum: Die meisten RAG-Fehler sind Retrieval-Fehler; beheben Sie das Retrieval, bevor Sie den Generator beschuldigen.

Entscheiden Sie, welche von zwei Prompt-Varianten besser abschneidet.

Führen Sie beide gegen einen festen Evaluationssatz aus und vergleichen Sie Metriken; iterieren Sie an Daten und Prompt, nicht nur am Modell.

Warum: Ein kontrollierter Vergleich auf denselben Eingaben isoliert den Effekt der Prompt-Änderung.

Nach dem Fine-tuning auf eine eng gefasste Aufgabe verliert das Modell die allgemeine Fähigkeit.

Katastrophales Vergessen. Mindern Sie dies mit PEFT/LoRA, niedrigerer Lernrate, weniger Epochen oder der Beimischung allgemeiner Daten zum Fine-tuning-Satz.

Warum: Adapter-basiertes Tuning bewahrt Basisgewichte und begrenzt die Abweichung von den ursprünglichen Fähigkeiten.

Datenanalyse

Kuratiere einen großen Web-/Textkorpus für das LLM-Training im GPU-Maßstab.

NVIDIA NeMo Curator — GPU-beschleunigte Bereinigung, Deduplizierung, Qualitätsfilterung und PII-Handhabung für Trainingsdaten.

Warum: Datenqualität treibt Modellqualität an; Curator skaliert Kuratierung, die auf der CPU undurchführbar wäre.

Referenz

Der Trainingskorpus enthält viele nahezu identische Dokumente.

Deduplizieren Sie (exakt und unscharf/nahezu identisch) vor dem Training.

Warum: Duplikate verschwenden Rechenleistung, verzerren das Modell zu wiederholten Inhalten und bergen das Risiko von Memorization/Leckage.

Dokumente für RAG-Retrieval aufteilen.

Teilen Sie in semantisch kohärente Passagen mit moderater Überlappung; Größe an das embedding Modell und das Kontextbudget anpassen.

Warum: Überdimensionierte Chunks verwässern die Relevanz; winzige Chunks verlieren den Kontext. Überlappung bewahrt die Bedeutung an den Grenzen.

Roher gescrapter Text ist verrauscht, mit Boilerplate, toxischem oder minderwertigem Inhalt.

Wenden Sie Qualitäts- und Toxizitätsfilter, Sprachidentifikation und Heuristiken an, um minderwertige Dokumente zu entfernen.

Warum: Müll im Input verschlechtert das Modell; Filterung verbessert die nachgelagerte Qualität mehr als das Hinzufügen von Rohdatenvolumen.

Bereiten Sie eine Dokumentensammlung für das semantische Retrieval vor.

Generieren Sie embeddings für jeden Chunk mit einem konsistenten embedding Modell und speichern Sie sie in einem Vektorindex.

Warum: Abfrage- und Dokument-embeddings müssen vom selben Modell stammen, um vergleichbar zu sein.

Überprüfen Sie, ob ein Trainingssatz Gruppen oder Themen unterrepräsentiert.

Analysieren Sie die Verteilung über Klassen, Quellen und Demografien hinweg; gleichen Sie Lücken vor dem Training neu aus oder erweitern Sie sie.

Warum: Verzerrte Trainingsdaten erzeugen verzerrtes Modellverhalten; die Korrektur gehört auf die Datenschicht.

Trainings- oder RAG-Daten können persönliche Informationen enthalten.

Erkennen und redigieren/maskieren Sie PII während der Datenvorbereitung, bevor es Modellgewichte oder den Index erreicht.

Warum: In Gewichte eingebettetes Wissen kann bei der Inference nicht zuverlässig maskiert werden; entfernen Sie PII vorgelagert.

Vertrauenswürdige KI

Eine LLM-Anwendung thematisch halten, unsichere Inhalte blockieren und Jailbreaks verhindern.

NVIDIA NeMo Guardrails — programmierbare Rails für Themenkontrolle, Sicherheitsfilterung und Dialogfluss.

Warum: Guardrails erzwingen Richtlinien für Eingaben und Ausgaben unabhängig vom zugrunde liegenden Modell.

Referenz

Reduzieren Sie selbstbewusste, aber falsche Antworten in einem bereitgestellten agent.

Verankern Sie Antworten mit RAG, fordern Sie Zitate an, fügen Sie Faktenprüfungs-Rails hinzu und halten Sie Menschen für risikoreiche Ausgaben involviert.

Warum: Verankerung liefert überprüfbare Beweise, die das Modell sonst erfinden würde.

Benutzereingaben versuchen, den System-Prompt zu überschreiben oder Daten zu exfiltrieren.

Verteidigung in der Tiefe: Guardrails, Eingabe-/Ausgabefilterung, Anweisungsisolation und Tool-Berechtigungen mit geringsten Rechten für agents.

Warum: Keine einzelne Kontrolle stoppt die Injection; kombinieren Sie Filterung mit begrenzten Fähigkeiten.

Ein bereitgestelltes Modell erzeugt verzerrte oder unfaire Ausgaben für bestimmte Gruppen.

Überprüfen Sie die Ausgaben auf Bias, gleichen/erweitern Sie Trainingsdaten neu aus und fügen Sie Fairness-Prüfungen zur Bewertung hinzu.

Warum: Bias entsteht in der Regel in den Daten; messen und korrigieren Sie ihn vor und nach der Bereitstellung.

Prompts und Antworten dürfen den Kontrollbereich der Organisation nicht verlassen.

Self-Hosting mit NIM/Triton auf eigener Infrastruktur, Daten verschlüsseln und das Senden sensibler Inhalte an Drittanbieter-APIs vermeiden.

Warum: Die On-Premise- oder VPC-Bereitstellung hält vertrauliche Daten innerhalb der Vertrauensgrenze.