Guide — NCA-GENL NVIDIA-Certified Associate: Generative AI LLMs

Dernière révision : juin 2026

Une référence concise des modèles d'architecture évalués par l'examen NCA-GENL. Lisez de haut en bas ou sautez à une section.

Connaissances fondamentales en Machine Learning et IA

Expliquez ce qui permet à un transformeur de pondérer les tokens distants lors de la génération du suivant.

L'auto-attention. Chaque token s'intéresse à tous les autres tokens via des projections de requête/clé/valeur, produisant des représentations pondérées par le contexte.

Pourquoi: C'est l'attention, et non la récurrence, qui confère aux transformeurs un contexte à longue portée et un entraînement parallélisable.

Choisissez comment injecter de nouvelles connaissances ou un nouveau comportement dans un LLM.

Nouveaux faits qui changent souvent → RAG. Nouveau comportement/style de tâche → fine-tuning. Nouvelle capacité/vocabulaire de base à l'échelle → pré-entraînement continu.

Pourquoi: RAG maintient les données externes et actualisables; le fine-tuning intègre le comportement dans les poids; le pré-entraînement est le levier le plus coûteux.

Définissez ce qui fait d'un modèle un modèle de fondation.

Un grand modèle pré-entraîné sur des données larges, majoritairement non étiquetées, adaptable à de nombreuses tâches en aval via le prompting, le RAG ou le fine-tuning.

Estimez comment le texte est cartographié en unités d'entrée du modèle et ce qui détermine le coût.

Le texte est divisé en sous-mots (tokens) par un tokenizer (par exemple, BPE). Le coût et les limites de contexte sont mesurés en tokens, et non en caractères ou en mots.

Pourquoi: Les mots rares ou non-anglais sont divisés en plus de tokens, augmentant l'utilisation du contexte et le coût de l'inférence.

Un document long ne tient pas dans une seule requête (prompt).

L'entrée dépasse la fenêtre de contexte du modèle (nombre maximal de tokens pour l'entrée + la sortie). Divisez le document en morceaux pour le RAG ou choisissez un modèle avec un contexte plus long.

Pourquoi: La fenêtre de contexte est une limite stricte; tout ce qui la dépasse est tronqué et perdu silencieusement.

Alimentez la recherche sémantique ou la récupération RAG sur du texte.

Utilisez un modèle d'embedding pour convertir le texte en vecteurs denses, puis récupérez par similarité cosinus/produit scalaire à partir d'un magasin de vecteurs.

Pourquoi: Les embeddings placent le texte sémantiquement similaire à proximité les uns des autres, permettant une récupération basée sur le sens plutôt que sur des mots-clés.

Choisissez le comportement de sortie: déterministe vs. créatif.

Basse température (~0,0-0,3) → ciblé, reproductible. Haute température (~0,7-1,0) → diversifié, créatif. Utilisez une valeur proche de 0 pour la classification ou l'extraction.

Pourquoi: La température ajuste la distribution de probabilité avant l'échantillonnage; les valeurs inférieures concentrent la masse sur les tokens les plus probables.

Contraindre le pool de tokens candidats au-delà de la température.

Le top-k conserve les k tokens les plus probables; le top-p (nucleus) conserve le plus petit ensemble dont la probabilité cumulative atteint p.

Pourquoi: Le top-p adapte l'ensemble des candidats à la forme de la distribution; le top-k a une largeur fixe, quelle que soit la confiance.

Identifiez comment les LLM apprennent à partir de texte non étiqueté.

L'apprentissage auto-supervisé — la prédiction du token suivant (causale) ou du token masqué crée des étiquettes à partir du texte lui-même, sans annotation humaine.

Pourquoi: C'est ce qui permet aux LLM de s'entraîner sur des corpus à l'échelle d'Internet sans étiquetage manuel.

Faire correspondre l'architecture à la famille de tâches.

Génération → décodeur-seulement (style GPT). Compréhension/classification → encodeur-seulement (style BERT). Traduction/résumé séquence-à-séquence → encodeur-décodeur (style T5).

Pourquoi: Les modèles de type décodeur-seulement prédisent de gauche à droite; les encodeurs voient un contexte bidirectionnel, ce qui est mieux pour les tâches de représentation.

Faire en sorte qu'un modèle de base suive les instructions et préfère des réponses utiles et sûres.

Fine-tuning d'instructions suivi d'un alignement tel que le RLHF — apprentissage par renforcement à partir des classements de préférences humaines.

Pourquoi: Un modèle pré-entraîné brut prédit du texte; l'alignement l'oriente vers le comportement d'assistant souhaité.

Le modèle énonce des faits avec assurance, mais qui sont fabriqués.

Hallucination. Atténuez en l'ancrant avec le RAG, en abaissant la température, en citant les sources, et en ajoutant des garde-fous ainsi qu'une révision humaine pour les sorties à fort enjeu.

Pourquoi: Les LLM prédisent des tokens plausibles, pas des faits vérifiés; l'ancrage fournit les preuves manquantes.

Distinguer la taille du modèle de la taille des données d'entraînement.

Paramètres = poids appris (capacité du modèle). Tokens = volume de texte d'entraînement. Les deux ajustent la capacité selon les lois d'échelle.

Pourquoi: Un modèle plus grand, sous-entraîné avec trop peu de tokens, est moins performant qu'un modèle plus petit et bien entraîné (aperçu de Chinchilla).

Séparez les deux phases gourmandes en GPU du cycle de vie d'un LLM.

L'entraînement met à jour les poids à partir des données (ponctuel, par lots). L'inférence exécute le modèle figé pour générer des sorties (continue, sensible à la latence).

Pourquoi: Les outils d'optimisation diffèrent: l'entraînement utilise des frameworks de parallélisation; l'inférence utilise TensorRT-LLM et Triton.

Un modèle fine-tuné mémorise les exemples d'entraînement et échoue sur de nouvelles entrées.

Surapprentissage. Atténuez avec plus de données/données diverses, l'arrêt anticipé, un taux d'apprentissage plus faible, moins d'époques ou une régularisation comme le dropout.

Pourquoi: Un écart important entre l'entraînement et la validation signifie que le modèle a appris le bruit au lieu de motifs généralisables.

Développement Logiciel

Déployez rapidement un LLM optimisé en tant que microservice de production avec une API compatible OpenAI.

Utilisez un microservice NVIDIA NIM — un point d'accès de modèle pré-construit, conteneurisé et optimisé avec TensorRT-LLM.

Pourquoi: NIM regroupe le modèle, l'environnement d'exécution et le moteur optimisé, vous évitant ainsi le câblage manuel de TensorRT-LLM et Triton.

Référence

Servez plusieurs modèles avec le batching, la concurrence et plusieurs backends derrière un seul serveur d'inférence.

NVIDIA Triton Inference Server. Prend en charge le batching dynamique, les ensembles de modèles et les backends TensorRT/PyTorch/ONNX.

Pourquoi: Triton maximise l'utilisation du GPU via l'exécution concurrente de modèles et le batching dynamique.

Référence

Réduisez la latence d'inférence des LLM sur les GPU NVIDIA avant de les servir.

Compilez le modèle avec TensorRT-LLM — fusion de noyaux, quantization, batching en vol et optimisation du cache KV.

Pourquoi: TensorRT-LLM produit un moteur optimisé beaucoup plus rapide que l'exécution du modèle de framework brut.

Référence

Entraînez, personnalisez ou fine-tunez des LLM à l'échelle sur les GPU NVIDIA.

NVIDIA NeMo framework — une boîte à outils de bout en bout pour la construction, la personnalisation et le déploiement de modèles d'IA générative.

Pourquoi: NeMo couvre la curation des données, l'entraînement, le PEFT et l'alignement dans une seule pile conçue pour la mise à l'échelle multi-GPU.

Référence

Créez une application qui répond à partir de documents privés que le modèle de base n'a jamais vus.

Pipeline RAG: découpez et embarquez les documents dans un magasin de vecteurs, récupérez les top-k par similarité au moment de la requête, et injectez-les dans le prompt.

Pourquoi: La récupération ancre les réponses dans des données actuelles et propriétaires sans réentraîner le modèle.

Contraignez le ton, le rôle et les règles de l'assistant sur l'ensemble d'une conversation.

Définissez un prompt/message système définissant le rôle, les contraintes et le format avant les tours de l'utilisateur.

Pourquoi: Le message système persiste à travers les tours et guide le comportement de manière plus fiable que les instructions par tour.

Améliorez la précision sur une tâche structurée sans aucun entraînement.

Prompting few-shot — intégrez 2 à 5 exemples entrée/sortie dans le prompt avant l'entrée réelle.

Pourquoi: L'apprentissage in-context permet au modèle de faire correspondre des modèles avec des exemples sans mise à jour des poids.

Le modèle se trompe dans les problèmes de raisonnement en plusieurs étapes ou les problèmes de mathématiques.

Prompting "chain-of-thought" — demandez-lui de raisonner étape par étape avant de donner la réponse finale.

Pourquoi: L'obtention d'étapes intermédiaires améliore la précision du raisonnement sur les tâches compositionnelles.

Permettez au LLM de déclencher des API externes, des bases de données ou des outils de manière fiable.

Utilisez l'appel de fonction/outil — définissez des schémas d'outils; le modèle émet des arguments structurés que votre code exécute.

Pourquoi: Les appels d'outils structurés sont plus efficaces que l'analyse de texte libre, et ils ancrent le modèle dans des systèmes en direct pour des flux agentiques.

Le code en aval nécessite un JSON strict du modèle.

Demandez un schéma JSON dans le prompt et utilisez un décodage contraint/guidé; validez la sortie avant utilisation.

Pourquoi: Le décodage guidé par schéma empêche le JSON mal formé qui casserait l'analyse.

Une interface utilisateur de chat doit afficher les tokens au fur et à mesure de leur production plutôt qu'après la fin.

Utilisez l'inférence en streaming (token par token) à partir du point d'accès de service.

Pourquoi: Le streaming réduit la latence perçue; NIM et Triton prennent tous deux en charge les réponses en streaming.

Composez les étapes de récupération, de prompting et d'outils en un seul pipeline d'application.

Utilisez un framework d'orchestration tel que LangChain ou LlamaIndex pour enchaîner les récupérateurs, les prompts, les modèles et les outils.

Pourquoi: Ces frameworks fournissent des abstractions RAG et agent réutilisables sur les points d'accès NIM/NeMo.

Choisissez entre un microservice packagé et une pile de service construite à la main.

Déploiement rapide et standardisé → NIM. Logique de backend/modèle personnalisée approfondie → Triton + TensorRT-LLM directement.

Pourquoi: NIM échange la configurabilité contre la vitesse; Triton brut offre un contrôle total du graphe de service.

Référence

Expérimentation

Fine-tunez un grand modèle sur une mémoire GPU limitée sans toucher à tous les poids.

LoRA / PEFT — entraînez de petites matrices d'adaptateurs de rang faible tout en gelant les poids de base.

Pourquoi: LoRA réduit les paramètres entraînants par ordres de grandeur, ce qui permet au fine-tuning de s'adapter à des GPU modestes.

Référence

Fine-tunez un très grand modèle avec le budget mémoire le plus serré possible.

QLoRA — quantifiez le modèle de base gelé en 4 bits et entraînez des adaptateurs LoRA par-dessus.

Pourquoi: La quantification de la base réduit la mémoire davantage que LoRA seul, permettant des modèles plus grands sur un seul GPU.

Choisissez la personnalisation la moins chère qui répond aux exigences de qualité.

Procédez par étapes: ingénierie de prompt → few-shot → RAG → fine-tuning LoRA → fine-tuning complet.

Pourquoi: Le coût et l'effort augmentent à chaque étape; arrêtez-vous à la première qui atteint l'objectif.

Le fine-tuning supervisé nécessite la bonne forme de données d'entraînement.

Fournissez des paires instruction/réponse (prompt-complétion), généralement en JSONL.

Pourquoi: Le SFT enseigne au modèle à mapper les entrées aux sorties désirées; les paires définissent ce mappage.

La perte de fine-tuning diverge ou le modèle oublie ses capacités antérieures.

Diminuez le taux d'apprentissage et/ou réduisez le nombre d'époques; surveillez la perte de validation pour le phénomène d'oubli catastrophique.

Pourquoi: Un taux d'apprentissage trop élevé déstabilise l'entraînement et écrase les connaissances pré-entraînées.

Mesurez si un fine-tuning ou un changement de prompt a réellement été utile.

Réservez un ensemble de validation/test sur lequel le modèle n'a jamais été entraîné et comparez les métriques avant et après.

Pourquoi: L'évaluation sur les données d'entraînement surestime la qualité; seules les données réservées reflètent la généralisation.

Comparez de nombreuses exécutions de fine-tuning avec différents hyperparamètres et données.

Enregistrez les exécutions, les configurations et les métriques avec un outil de suivi d'expériences (par exemple, MLflow, Weights & Biases, TensorBoard).

Pourquoi: La reproductibilité exige d'enregistrer quelle configuration a produit quel résultat; la mémoire ne suffit pas.

Évaluez automatiquement la qualité du texte généré.

Résumé → ROUGE. Traduction → BLEU. Correspondance sémantique → BERTScore. Qualité ouverte → LLM-juge ou évaluation humaine.

Pourquoi: Les métriques de chevauchement lexical ne saisissent pas le sens; pour une qualité nuancée, une évaluation humaine ou par un modèle-juge est nécessaire.

Le RAG récupère un contexte non pertinent ou trop limité.

Ajustez la taille/le chevauchement des morceaux, le top-k, le modèle d'embedding et ajoutez un ré-classement; vérifiez la qualité de la récupération séparément de la génération.

Pourquoi: La plupart des échecs du RAG sont des échecs de récupération; corrigez la récupération avant de blâmer le générateur.

Décidez laquelle des deux variantes de prompt est la plus performante.

Exécutez les deux sur un ensemble d'évaluation fixe et comparez les métriques; itérez sur les données et le prompt, pas seulement sur le modèle.

Pourquoi: Une comparaison contrôlée sur les mêmes entrées isole l'effet du changement de prompt.

Après un fine-tuning sur une tâche étroite, le modèle perd sa capacité générale.

Oubli catastrophique. Atténuez avec PEFT/LoRA, un LR plus bas, moins d'époques, ou en mélangeant des données générales dans l'ensemble de fine-tuning.

Pourquoi: Le fine-tuning basé sur les adaptateurs préserve les poids de base, limitant la dérive par rapport aux capacités originales.

Analyse de Données

Curetez un grand corpus web/texte pour l'entraînement de LLM à l'échelle du GPU.

NVIDIA NeMo Curator — nettoyage, déduplication, filtrage de qualité et gestion des PII accélérés par GPU pour les données d'entraînement.

Pourquoi: La qualité des données détermine la qualité du modèle; Curator met à l'échelle la curation qui serait infaisable sur CPU.

Référence

Le corpus d'entraînement contient de nombreux documents quasi-dupliqués.

Dédupliquez (exacte et floue/quasi-dupliquée) avant l'entraînement.

Pourquoi: Les doublons gaspillent les ressources de calcul, biaisent le modèle vers le contenu répété et risquent la mémorisation/fuite.

Divisez les documents pour la récupération RAG.

Divisez en passages sémantiquement cohérents avec un chevauchement modeste; adaptez la taille au modèle d'embedding et au budget de contexte.

Pourquoi: Les morceaux surdimensionnés diluent la pertinence; les petits morceaux perdent le contexte. Le chevauchement préserve le sens des limites.

Le texte brut récupéré est bruyant, avec du contenu passe-partout, toxique ou de faible qualité.

Appliquez des filtres de qualité et de toxicité, l'identification de la langue et des heuristiques pour supprimer les documents de faible valeur.

Pourquoi: Des données de mauvaise qualité dégradent le modèle; le filtrage améliore la qualité en aval plus que l'ajout de volume brut.

Préparez une collection de documents pour la récupération sémantique.

Générez des embeddings pour chaque morceau avec un modèle d'embedding cohérent et stockez-les dans un index vectoriel.

Pourquoi: Les embeddings des requêtes et des documents doivent provenir du même modèle pour être comparables.

Vérifiez si un ensemble d'entraînement sous-représente certains groupes ou sujets.

Analysez la distribution par classes, sources et données démographiques; rééquilibrez ou comblez les lacunes avant l'entraînement.

Pourquoi: Des données d'entraînement biaisées produisent un comportement de modèle biaisé; la correction doit être effectuée au niveau de la couche de données.

Les données d'entraînement ou de RAG peuvent contenir des informations personnelles.

Détectez et masquez/redactez les PII lors de la préparation des données avant qu'elles n'atteignent les poids du modèle ou l'index.

Pourquoi: Les connaissances intégrées dans les poids ne peuvent pas être masquées de manière fiable lors de l'inférence; supprimez les PII en amont.

IA de Confiance

Maintenez une application LLM sur le sujet, bloquez le contenu dangereux et prévenez les jailbreaks.

NVIDIA NeMo Guardrails — rails programmables pour le contrôle des sujets, le filtrage de sécurité et le flux de dialogue.

Pourquoi: Les garde-fous appliquent la politique sur les entrées et les sorties indépendamment du modèle sous-jacent.

Référence

Réduisez les réponses erronées mais données avec assurance dans un assistant déployé.

Ancrez les réponses avec le RAG, exigez des citations, ajoutez des garde-fous de vérification des faits et maintenez des humains dans la boucle pour les sorties à fort enjeu.

Pourquoi: L'ancrage fournit des preuves vérifiables que le modèle inventerait autrement.

L'entrée utilisateur tente de remplacer le prompt système ou d'exfiltrer des données.

Défense en profondeur: garde-fous, filtrage d'entrée/sortie, isolation des instructions et permissions d'outils à privilège minimum pour les agents.

Pourquoi: Aucun contrôle unique n'arrête l'injection; combinez le filtrage avec des capacités limitées.

Un modèle déployé produit des sorties biaisées ou injustes pour certains groupes.

Auditez les sorties pour détecter les biais, rééquilibrez/augmentez les données d'entraînement et ajoutez des vérifications d'équité à l'évaluation.

Pourquoi: Le biais provient généralement des données; mesurez-le et corrigez-le avant et après le déploiement.

Les prompts et les réponses ne doivent pas quitter le contrôle de l'organisation.

Hébergez vous-même avec NIM/Triton sur votre propre infrastructure, chiffrez les données et évitez d'envoyer du contenu sensible à des API tierces.

Pourquoi: Le déploiement sur site ou en VPC maintient les données confidentielles à l'intérieur de la frontière de confiance.