Erklären Sie, was einem Transformer ermöglicht, entfernte Tokens beim Generieren des nächsten zu gewichten.
→Self-attention. Jedes Token beachtet jedes andere Token über Query-/Key-/Value-Projektionen, wodurch kontextgewichtete Repräsentationen erzeugt werden.
Warum: Attention, nicht Rekurrenz, verleiht Transformern langreichweitigen Kontext und parallelisierbares Training.
Wählen Sie aus, wie neues Wissen oder Verhalten in ein LLM injiziert werden kann.
→Neue Fakten, die sich oft ändern → RAG. Neues Aufgabenverhalten/-stil → Fine-tuning. Neue Grundfähigkeit/Vokabular in großem Maßstab → Fortgesetztes Pre-training.
Warum: RAG hält Daten extern und aktualisierbar; Fine-tuning integriert Verhalten in die Gewichte; Pre-training ist der teuerste Hebel.
Definieren Sie, was ein Modell zu einem Foundation Model macht.
→Ein großes Modell, das auf breiten, größtenteils unbeschrifteten Daten vorab trainiert wurde und sich über Prompting, RAG oder Fine-tuning an viele nachgelagerte Aufgaben anpassen lässt.
Schätzen Sie, wie Text auf Modelleingabeeinheiten abgebildet wird und was die Kosten treibt.
→Text wird von einem Tokenizer (z.B. BPE) in Sub-Word-Tokens aufgeteilt. Kosten und Kontextgrenzen werden in Tokens gemessen, nicht in Zeichen oder Wörtern.
Warum: Seltene oder nicht-englische Wörter werden in mehr Tokens aufgeteilt, was den Kontextverbrauch und die Inference-Kosten erhöht.
Ein langes Dokument passt nicht in einen einzelnen Prompt.
→Die Eingabe überschreitet das Kontextfenster des Modells (maximale Tokens für Eingabe + Ausgabe). Teilen Sie das Dokument für RAG in Blöcke auf oder wählen Sie ein Modell mit längerem Kontext.
Warum: Das Kontextfenster ist eine feste Grenze; alles darüber hinaus wird abgeschnitten und geht stillschweigend verloren.
Ermöglichen Sie die semantische Suche oder RAG-Retrieval über Text.
→Verwenden Sie ein embedding Modell, um Text in dichte Vektoren umzuwandeln, und rufen Sie dann mittels Kosinus-/Punktprodukt-Ähnlichkeit aus einem Vektorspeicher ab.
Warum: Embeddings platzieren semantisch ähnlichen Text nahe beieinander und ermöglichen so eine bedeutungsbasierte statt schlüsselwortbasierte Abfrage.
Wählen Sie das Ausgabeverhalten: deterministisch vs. kreativ.
→Niedrige Temperatur (~0.0-0.3) → fokussiert, wiederholbar. Hohe Temperatur (~0.7-1.0) → divers, kreativ. Verwenden Sie Werte nahe 0 für Klassifizierung oder Extraktion.
Warum: Die Temperatur skaliert die Wahrscheinlichkeitsverteilung vor der Abtastung; niedrigere Werte konzentrieren die Masse auf die Top-Tokens.
Begrenzen Sie den Pool der Kandidaten-Tokens über die Temperatur hinaus.
→Top-k behält die k wahrscheinlichsten Tokens bei; Top-p (nucleus) behält die kleinste Menge, deren kumulative Wahrscheinlichkeit p erreicht.
Warum: Top-p passt den Kandidatensatz an die Form der Verteilung an; Top-k hat eine feste Breite, unabhängig von der Konfidenz.
Identifizieren Sie, wie LLMs aus unbeschriftetem Text lernen.
→Selbstüberwachtes Lernen — Next-Token (kausal) oder Masked-Token Prediction erzeugt Labels aus dem Text selbst, ohne menschliche Annotation.
Warum: Das ist es, was LLMs ermöglicht, auf internetgroßen Korpora ohne manuelle Beschriftung zu trainieren.
Ordnen Sie die Architektur der Aufgabengruppe zu.
→Generierung → decoder-only (GPT-Stil). Verstehen/Klassifizierung → encoder-only (BERT-Stil). Seq-to-seq-Übersetzung/Zusammenfassung → encoder-decoder (T5-Stil).
Warum: Decoder-only Modelle prognostizieren von links nach rechts; Encoder sehen bidirektionalen Kontext, besser für Repräsentationsaufgaben.
Ein Basismodell dazu bringen, Anweisungen zu befolgen und hilfreiche, sichere Antworten zu bevorzugen.
→Instruction Tuning gefolgt von Alignment wie RLHF — Reinforcement Learning aus menschlichen Präferenzrankings.
Warum: Ein rohes vortrainiertes Modell prognostiziert Text; Alignment lenkt es auf das beabsichtigte agent-Verhalten.
Das Modell gibt selbstbewusst, aber erfundene Fakten an.
→Halluzination. Mindern Sie dies durch Verankerung mit RAG, Senkung der Temperatur, Angabe von Quellen und Hinzufügen von Guardrails sowie menschlicher Überprüfung für risikoreiche Ausgaben.
Warum: LLMs prognostizieren plausible Tokens, keine überprüften Fakten; Verankerung liefert die fehlenden Beweise.
Unterscheiden Sie Modellgröße von Trainingsdatengröße.
→Parameter = gelernte Gewichte (Modellkapazität). Tokens = Volumen des Trainings Textes. Beide skalieren die Fähigkeit unter Skalierungsgesetzen.
Warum: Ein größeres Modell, das mit zu wenigen Tokens untertrainiert wurde, schneidet schlechter ab als ein kleineres, gut trainiertes (Chinchilla-Erkenntnis).
Trennung der zwei GPU-intensiven Phasen eines LLM-Lebenszyklus.
→Training aktualisiert Gewichte aus Daten (einmalig, Batch). Inference führt das eingefrorene Modell aus, um Ausgaben zu generieren (laufend, latenzsensitiv).
Warum: Optimierungstools unterscheiden sich: Training verwendet Parallelisierungs-Frameworks; Inference verwendet TensorRT-LLM und Triton.
Ein feinabgestimmtes Modell merkt sich Trainingsbeispiele und versagt bei neuen Eingaben.
→Overfitting. Mindern Sie dies durch mehr/diversere Daten, frühzeitiges Beenden, niedrigere Lernrate, weniger Epochen oder Regularisierung wie Dropout.
Warum: Eine große Lücke zwischen Training und Validierung bedeutet, dass das Modell Rauschen anstelle von generalisierbaren Mustern angepasst hat.