Construisez une application d'IA générative sur AWS sans gérer l'infrastructure du modèle.
→Amazon Bedrock — accès entièrement géré aux modèles de fondation (Anthropic Claude, Meta Llama, Amazon Titan, Stability, AI21, Mistral, Cohere) via une API unique.
Pourquoi: Pas de provisionnement GPU, pas d'hébergement de modèle ; paiement par token. SageMaker JumpStart est l'alternative lorsque vous avez besoin d'un point de terminaison auto-hébergé dans votre VPC.
Référence↗
Définissez ce qui fait d'un modèle un "modèle de fondation".
→Grand modèle pré-entraîné sur des données diverses, principalement non étiquetées ; adaptable à de nombreuses tâches en aval via le prompting, le fine-tuning ou le RAG.
Estimez la quantité d'entrée qui tient dans une seule invite et ce qui détermine le coût d'inférence.
→Les tokens sont des unités sous-verbales. Fenêtre contextuelle = nombre maximal de tokens par requête (entrée + sortie). Le coût d'inférence est approximativement proportionnel aux tokens traités.
Pourquoi: Le nombre de tokens, et non le nombre de requêtes, détermine la tarification de Bedrock. Si un document long dépasse la fenêtre contextuelle, fragmentez-le ou choisissez un modèle avec une fenêtre plus grande.
Choisissez le style de sortie : déterministe ou créatif.
→Température basse (~0,0–0,3) → déterministe, répétable. Température élevée (~0,7–1,0) → créatif, varié. Utilisez 0 pour la classification ou le sentiment afin d'obtenir des étiquettes cohérentes.
Restreignez le pool de tokens candidats au-delà de la température.
→Top-K = ne considérer que les K tokens les plus probables. Top-P (noyau) = considérer les tokens jusqu'à ce que la probabilité cumulative atteigne P.
Pourquoi: Top-P adapte la taille de l'ensemble de candidats à la forme de la distribution ; Top-K est de largeur fixe.
Obtenez une sortie de LLM dans un style, une longueur ou une langue spécifique.
→Ingénierie des invites (prompt engineering). Ajoutez des instructions explicites ("Répondez en français, moins de 50 mots, ton formel").
Pourquoi: Moins cher et plus rapide que le fine-tuning, le réentraînement ou le changement de taille de modèle pour le contrôle stylistique.
Améliorez la précision du LLM sur une tâche spécifique sans réentraînement.
→Few-shot prompting — intégrez 2 à 5 exemples étiquetés d'entrée/sortie dans l'invite avant la nouvelle entrée.
Pourquoi: L'apprentissage en contexte permet au modèle de faire correspondre des motifs avec des exemples sans mises à jour de poids.
Le LLM donne des réponses incorrectes aux problèmes de raisonnement en plusieurs étapes.
→Prompting en chaîne de pensée (chain-of-thought prompting) — demandez au modèle de passer par les étapes de raisonnement avant la réponse finale ("Pensons étape par étape").
Le LLM génère du texte qui semble plausible mais est factuellement incorrect ou fabriqué.
→Hallucination. Atténuez avec RAG (ancrage dans les faits récupérés), Bedrock Guardrails, une température plus basse et une révision humaine des sorties à enjeux élevés.
Alimentez la recherche sémantique, le clustering ou la récupération RAG sur des données textuelles ou multimodales.
→Utilisez un modèle d'embedding (par exemple, Titan Embeddings, Cohere Embed) pour convertir le contenu en vecteurs denses. Stockez et interrogez dans une base de données vectorielle.
Pourquoi: Les embeddings capturent le sens sémantique de sorte que les éléments similaires se retrouvent proches les uns des autres dans l'espace vectoriel (similitude cosinus / produit scalaire).
Référence↗
L'application de recherche accepte à la fois le texte et les images en entrée.
→Modèle d'embedding multimodal (par exemple, Titan Multimodal Embeddings) — projette le texte et les images dans le même espace vectoriel.
Référence↗
Prototypage rapide d'une application d'IA générative sans code ni configuration de compte AWS.
→PartyRock (Amazon Bedrock Playground) — constructeur d'applications sans code basé sur navigateur.
Référence↗
Choisissez un modèle de tarification Bedrock.
→Charge variable / imprévisible → À la demande (par token). Volume élevé constant ou débit garanti → Débit provisionné. Modèles personnalisés affinés → doivent utiliser le débit provisionné.
Pourquoi: L'offre à la demande n'a pas d'engagement ; le débit provisionné achète une capacité dédiée en unités de modèle.
Référence↗
Choisissez la personnalisation la moins chère qui vous apporte la qualité dont vous avez besoin.
→Essayez dans cet ordre : (1) ingénierie des invites, (2) RAG avec une base de connaissances, (3) fine-tuning, (4) pré-entraînement continu.
Pourquoi: L'effort et le coût augmentent à chaque étape. Arrêtez-vous à la première qui répond aux exigences.