Expliquez ce qui permet à un transformeur de pondérer les tokens distants lors de la génération du suivant.
→L'auto-attention. Chaque token s'intéresse à tous les autres tokens via des projections de requête/clé/valeur, produisant des représentations pondérées par le contexte.
Pourquoi: C'est l'attention, et non la récurrence, qui confère aux transformeurs un contexte à longue portée et un entraînement parallélisable.
Choisissez comment injecter de nouvelles connaissances ou un nouveau comportement dans un LLM.
→Nouveaux faits qui changent souvent → RAG. Nouveau comportement/style de tâche → fine-tuning. Nouvelle capacité/vocabulaire de base à l'échelle → pré-entraînement continu.
Pourquoi: RAG maintient les données externes et actualisables; le fine-tuning intègre le comportement dans les poids; le pré-entraînement est le levier le plus coûteux.
Définissez ce qui fait d'un modèle un modèle de fondation.
→Un grand modèle pré-entraîné sur des données larges, majoritairement non étiquetées, adaptable à de nombreuses tâches en aval via le prompting, le RAG ou le fine-tuning.
Estimez comment le texte est cartographié en unités d'entrée du modèle et ce qui détermine le coût.
→Le texte est divisé en sous-mots (tokens) par un tokenizer (par exemple, BPE). Le coût et les limites de contexte sont mesurés en tokens, et non en caractères ou en mots.
Pourquoi: Les mots rares ou non-anglais sont divisés en plus de tokens, augmentant l'utilisation du contexte et le coût de l'inférence.
Un document long ne tient pas dans une seule requête (prompt).
→L'entrée dépasse la fenêtre de contexte du modèle (nombre maximal de tokens pour l'entrée + la sortie). Divisez le document en morceaux pour le RAG ou choisissez un modèle avec un contexte plus long.
Pourquoi: La fenêtre de contexte est une limite stricte; tout ce qui la dépasse est tronqué et perdu silencieusement.
Alimentez la recherche sémantique ou la récupération RAG sur du texte.
→Utilisez un modèle d'embedding pour convertir le texte en vecteurs denses, puis récupérez par similarité cosinus/produit scalaire à partir d'un magasin de vecteurs.
Pourquoi: Les embeddings placent le texte sémantiquement similaire à proximité les uns des autres, permettant une récupération basée sur le sens plutôt que sur des mots-clés.
Choisissez le comportement de sortie: déterministe vs. créatif.
→Basse température (~0,0-0,3) → ciblé, reproductible. Haute température (~0,7-1,0) → diversifié, créatif. Utilisez une valeur proche de 0 pour la classification ou l'extraction.
Pourquoi: La température ajuste la distribution de probabilité avant l'échantillonnage; les valeurs inférieures concentrent la masse sur les tokens les plus probables.
Contraindre le pool de tokens candidats au-delà de la température.
→Le top-k conserve les k tokens les plus probables; le top-p (nucleus) conserve le plus petit ensemble dont la probabilité cumulative atteint p.
Pourquoi: Le top-p adapte l'ensemble des candidats à la forme de la distribution; le top-k a une largeur fixe, quelle que soit la confiance.
Identifiez comment les LLM apprennent à partir de texte non étiqueté.
→L'apprentissage auto-supervisé — la prédiction du token suivant (causale) ou du token masqué crée des étiquettes à partir du texte lui-même, sans annotation humaine.
Pourquoi: C'est ce qui permet aux LLM de s'entraîner sur des corpus à l'échelle d'Internet sans étiquetage manuel.
Faire correspondre l'architecture à la famille de tâches.
→Génération → décodeur-seulement (style GPT). Compréhension/classification → encodeur-seulement (style BERT). Traduction/résumé séquence-à-séquence → encodeur-décodeur (style T5).
Pourquoi: Les modèles de type décodeur-seulement prédisent de gauche à droite; les encodeurs voient un contexte bidirectionnel, ce qui est mieux pour les tâches de représentation.
Faire en sorte qu'un modèle de base suive les instructions et préfère des réponses utiles et sûres.
→Fine-tuning d'instructions suivi d'un alignement tel que le RLHF — apprentissage par renforcement à partir des classements de préférences humaines.
Pourquoi: Un modèle pré-entraîné brut prédit du texte; l'alignement l'oriente vers le comportement d'assistant souhaité.
Le modèle énonce des faits avec assurance, mais qui sont fabriqués.
→Hallucination. Atténuez en l'ancrant avec le RAG, en abaissant la température, en citant les sources, et en ajoutant des garde-fous ainsi qu'une révision humaine pour les sorties à fort enjeu.
Pourquoi: Les LLM prédisent des tokens plausibles, pas des faits vérifiés; l'ancrage fournit les preuves manquantes.
Distinguer la taille du modèle de la taille des données d'entraînement.
→Paramètres = poids appris (capacité du modèle). Tokens = volume de texte d'entraînement. Les deux ajustent la capacité selon les lois d'échelle.
Pourquoi: Un modèle plus grand, sous-entraîné avec trop peu de tokens, est moins performant qu'un modèle plus petit et bien entraîné (aperçu de Chinchilla).
Séparez les deux phases gourmandes en GPU du cycle de vie d'un LLM.
→L'entraînement met à jour les poids à partir des données (ponctuel, par lots). L'inférence exécute le modèle figé pour générer des sorties (continue, sensible à la latence).
Pourquoi: Les outils d'optimisation diffèrent: l'entraînement utilise des frameworks de parallélisation; l'inférence utilise TensorRT-LLM et Triton.
Un modèle fine-tuné mémorise les exemples d'entraînement et échoue sur de nouvelles entrées.
→Surapprentissage. Atténuez avec plus de données/données diverses, l'arrêt anticipé, un taux d'apprentissage plus faible, moins d'époques ou une régularisation comme le dropout.
Pourquoi: Un écart important entre l'entraînement et la validation signifie que le modèle a appris le bruit au lieu de motifs généralisables.