Erstellen Sie eine generative KI-Anwendung auf AWS, ohne die Modellinfrastruktur zu verwalten.
→Amazon Bedrock — vollständig verwalteter Zugriff auf Foundation Models (Anthropic Claude, Meta Llama, Amazon Titan, Stability, AI21, Mistral, Cohere) über eine einzige API.
Warum: Keine GPU-Bereitstellung, kein Modell-Hosting; Zahlung pro Token. SageMaker JumpStart ist die Alternative, wenn Sie einen selbst gehosteten Endpunkt in Ihrer VPC benötigen.
Referenz↗
Definieren Sie, was ein Modell zu einem "Foundation Model" macht.
→Großes Modell, vorab auf diversen, meist ungelabelten Daten trainiert; an viele nachgelagerte Aufgaben anpassbar durch Prompting, Fine-tuning oder RAG.
Schätzen Sie ab, wie viel Input in einen Prompt passt und was die Inferenzkosten antreibt.
→Tokens sind Subwort-Einheiten. Kontextfenster = maximale Tokens pro Anfrage (Input + Output). Inferenzkosten sind ungefähr proportional zu den verarbeiteten Tokens.
Warum: Die Tokenanzahl, nicht die Anzahl der Anfragen, bestimmt die Bedrock-Preise. Wenn ein langes Dokument das Kontextfenster überschreitet, teilen Sie es in Chunks auf oder wählen Sie ein Modell mit größerem Fenster.
Wählen Sie den Ausgabestil: deterministisch vs. kreativ.
→Niedrige Temperatur (~0.0–0.3) → deterministisch, wiederholbar. Hohe Temperatur (~0.7–1.0) → kreativ, vielfältig. Verwenden Sie 0 für Klassifikation oder Sentiment, um konsistente Labels zu erhalten.
Beschränken Sie den Kandidaten-Token-Pool über die Temperatur hinaus.
→Top-K = nur die K wahrscheinlichsten Tokens berücksichtigen. Top-P (Nucleus) = Tokens berücksichtigen, bis die kumulative Wahrscheinlichkeit P erreicht.
Warum: Top-P passt die Größe des Kandidatensatzes an die Verteilungsform an; Top-K ist fest begrenzt.
Erhalten Sie LLM-Ausgabe in einem bestimmten Stil, einer bestimmten Länge oder Sprache.
→Prompt Engineering. Fügen Sie explizite Anweisungen hinzu ("Antworten Sie auf Französisch, unter 50 Wörtern, formeller Ton").
Warum: Günstiger und schneller als Fine-tuning, Retraining oder Änderung der Modellgröße für stilistische Kontrolle.
Verbessern Sie die LLM-Genauigkeit bei einer bestimmten Aufgabe ohne Retraining.
→Few-shot Prompting — betten Sie 2–5 gelabelte Input-/Output-Beispiele in den Prompt vor dem neuen Input ein.
Warum: In-context Learning ermöglicht dem Modell, Muster mit Beispielen abzugleichen, ohne Gewichte zu aktualisieren.
LLM gibt falsche Antworten bei mehrstufigen Denkaufgaben.
→Chain-of-Thought Prompting — weisen Sie das Modell an, die Denkphasen vor der endgültigen Antwort durchzugehen ("Lassen Sie uns Schritt für Schritt nachdenken").
LLM generiert Text, der plausibel klingt, aber faktisch falsch oder erfunden ist.
→Halluzination. Mildern Sie mit RAG (Basierend auf abgerufenen Fakten), Bedrock Guardrails, niedrigerer Temperatur und menschlicher Überprüfung von kritischen Ausgaben.
Unterstützen Sie semantische Suche, Clustering oder RAG-Abruf über Text- oder multimodale Daten.
→Verwenden Sie ein Embedding-Modell (z.B. Titan Embeddings, Cohere Embed), um Inhalte in dichte Vektoren umzuwandeln. Speichern und abfragen in einer Vector DB.
Warum: Embeddings erfassen semantische Bedeutung, sodass ähnliche Elemente im Vektorraum nahe beieinander liegen (Kosinus- / Skalarprodukt-Ähnlichkeit).
Referenz↗
Suchanwendung akzeptiert sowohl Text als auch Bilder als Input.
→Multimodales Embedding-Modell (z.B. Titan Multimodal Embeddings) — projiziert Text und Bilder in denselben Vektorraum.
Referenz↗
Prototypisieren Sie eine generative KI-Anwendung schnell ohne Code oder AWS-Konto-Setup.
→PartyRock (Amazon Bedrock Playground) — browserbasierter No-Code-App-Builder.
Referenz↗
Wählen Sie ein Bedrock-Preismodell.
→Variable / unvorhersehbare Last → On-Demand (pro Token). Konstantes hohes Volumen oder garantierter Durchsatz → Provisioned Throughput. Benutzerdefinierte Fine-tuned Modelle → müssen Provisioned Throughput verwenden.
Warum: On-Demand hat keine Verpflichtung; Provisioned Throughput kauft dedizierte Kapazität in Modelleinheiten.
Referenz↗
Wählen Sie die günstigste Anpassung, die die gewünschte Qualität liefert.
→Versuchen Sie es in dieser Reihenfolge: (1) Prompt Engineering, (2) RAG mit einer Wissensdatenbank, (3) Fine-tuning, (4) fortgesetztes Pre-training.
Warum: Aufwand und Kosten steigen mit jedem Schritt. Hören Sie bei dem ersten auf, das die Anforderungen erfüllt.