Guide

AWS Certified AI Practitioner

Dernière révision : avril 2026

Une référence concise des modèles d'architecture évalués par l'examen AIF-C01. Lisez de haut en bas ou sautez à une section.

Fondamentaux de l'IA et du ML

Choisissez un paradigme d'apprentissage : données étiquetées, données non étiquetées, ou essais et erreurs interactifs.

Étiquetées → supervisé. Clustering/segmentation non étiquetée → non supervisé. L'agent apprend par récompense → par renforcement.

Pourquoi: Le choix est dicté par les données existantes. RLHF est un apprentissage par renforcement dirigé par des évaluations humaines, utilisé pour aligner les LLM.

Référence

Adaptez un modèle pré-entraîné à une nouvelle tâche connexe au lieu de l'entraîner à partir de zéro.

Utilisez le transfert d'apprentissage. Affinez le modèle existant sur le nouvel ensemble de données du domaine.

Pourquoi: Réutilise les représentations apprises, réduit le temps d'entraînement et les besoins en données par rapport à la construction d'un modèle à partir de zéro.

Choisissez un mode d'inférence SageMaker adapté à la forme de la charge de travail.

Faible latence constante → temps réel. Trafic fluctuant/inactif → serverless. Grande charge utile (≤1 Go) ou tâche longue (≤1 h) avec quasi temps réel → asynchrone. Traitement de masse hors ligne → transformation par lots.

Pourquoi: Le temps réel a des limites de charge utile/délai d'attente ; l'asynchrone met en file d'attente les tâches volumineuses ; le traitement par lots est destiné à la notation hors ligne périodique.

Référence

Plusieurs équipes ML doivent partager et réutiliser des caractéristiques conçues.

Amazon SageMaker Feature Store comme dépôt central pour les caractéristiques en ligne et hors ligne.

Pourquoi: Évite la duplication de l'ingénierie des caractéristiques et maintient la cohérence d'entraînement/déploiement entre les équipes.

Référence

Construisez des modèles ML sans codage ni expertise ML (par exemple, prévision de la demande pour les analystes).

Amazon SageMaker Canvas — interface visuelle sans code pour l'entraînement et l'inférence.

Référence

Déployez rapidement un modèle de fondation à l'intérieur d'un VPC.

Amazon SageMaker JumpStart — les modèles pré-entraînés se déploient en tant que points de terminaison SageMaker dans votre VPC.

Pourquoi: JumpStart regroupe les artefacts de modèle et les notebooks pour un déploiement en un clic lié au VPC.

Référence

Automatisez l'ajustement des hyperparamètres et la sélection de modèles.

Amazon SageMaker Autopilot — explore les algorithmes et ajuste automatiquement les hyperparamètres.

Référence

Choisissez la bonne métrique d'évaluation pour un modèle de classification.

Correction de la classification image/binaire → précision (accuracy). Répartition des classes → matrice de confusion. Classes déséquilibrées → F1, précision, rappel (recall). Indépendante du seuil → AUC.

Pourquoi: L'accuracy est trompeuse sur des données déséquilibrées ; la matrice de confusion montre les comptes TP/FP/TN/FN ; le F1 équilibre la précision et le rappel.

Le coût de l'omission d'un positif (faux négatif) est bien plus élevé que celui d'un faux positif — par exemple, détection de fraude, dépistage de maladies.

Optimisez le rappel (sensibilité). Acceptez une précision plus faible.

Pourquoi: Rappel = TP / (TP + FN). Le maximiser minimise les positifs manqués au prix de plus de fausses alertes.

Le modèle obtient de bons scores sur les données d'entraînement mais de mauvais scores sur les données de test/production ; ou la précision s'améliore d'abord puis se dégrade à mesure que les époques augmentent.

Surapprentissage. Atténuez avec plus de données, la régularisation, l'arrêt anticipé, le dropout ou un modèle plus simple.

Pourquoi: Un grand écart entre l'entraînement et le test signifie que le modèle a mémorisé le bruit au lieu d'apprendre des motifs.

Choisissez le service d'IA géré pour une tâche à usage unique.

NLP/sentiment/entités → Comprehend. Parole-texte → Transcribe. Texte-parole → Polly. Traduction → Translate. Chatbot/UI vocale → Lex. Image/vidéo → Rekognition. Extraction de texte doc/PDF → Textract. Recommandations → Personalize. Prévisions → Forecast.

Pourquoi: Les services d'IA gérés surpassent les modèles personnalisés lorsque la tâche est bien définie et répertoriée.

Référence

Fondamentaux de l'IA Générative

Construisez une application d'IA générative sur AWS sans gérer l'infrastructure du modèle.

Amazon Bedrock — accès entièrement géré aux modèles de fondation (Anthropic Claude, Meta Llama, Amazon Titan, Stability, AI21, Mistral, Cohere) via une API unique.

Pourquoi: Pas de provisionnement GPU, pas d'hébergement de modèle ; paiement par token. SageMaker JumpStart est l'alternative lorsque vous avez besoin d'un point de terminaison auto-hébergé dans votre VPC.

Référence

Définissez ce qui fait d'un modèle un "modèle de fondation".

Grand modèle pré-entraîné sur des données diverses, principalement non étiquetées ; adaptable à de nombreuses tâches en aval via le prompting, le fine-tuning ou le RAG.

Estimez la quantité d'entrée qui tient dans une seule invite et ce qui détermine le coût d'inférence.

Les tokens sont des unités sous-verbales. Fenêtre contextuelle = nombre maximal de tokens par requête (entrée + sortie). Le coût d'inférence est approximativement proportionnel aux tokens traités.

Pourquoi: Le nombre de tokens, et non le nombre de requêtes, détermine la tarification de Bedrock. Si un document long dépasse la fenêtre contextuelle, fragmentez-le ou choisissez un modèle avec une fenêtre plus grande.

Choisissez le style de sortie : déterministe ou créatif.

Température basse (~0,0–0,3) → déterministe, répétable. Température élevée (~0,7–1,0) → créatif, varié. Utilisez 0 pour la classification ou le sentiment afin d'obtenir des étiquettes cohérentes.

Restreignez le pool de tokens candidats au-delà de la température.

Top-K = ne considérer que les K tokens les plus probables. Top-P (noyau) = considérer les tokens jusqu'à ce que la probabilité cumulative atteigne P.

Pourquoi: Top-P adapte la taille de l'ensemble de candidats à la forme de la distribution ; Top-K est de largeur fixe.

Obtenez une sortie de LLM dans un style, une longueur ou une langue spécifique.

Ingénierie des invites (prompt engineering). Ajoutez des instructions explicites ("Répondez en français, moins de 50 mots, ton formel").

Pourquoi: Moins cher et plus rapide que le fine-tuning, le réentraînement ou le changement de taille de modèle pour le contrôle stylistique.

Améliorez la précision du LLM sur une tâche spécifique sans réentraînement.

Few-shot prompting — intégrez 2 à 5 exemples étiquetés d'entrée/sortie dans l'invite avant la nouvelle entrée.

Pourquoi: L'apprentissage en contexte permet au modèle de faire correspondre des motifs avec des exemples sans mises à jour de poids.

Le LLM donne des réponses incorrectes aux problèmes de raisonnement en plusieurs étapes.

Prompting en chaîne de pensée (chain-of-thought prompting) — demandez au modèle de passer par les étapes de raisonnement avant la réponse finale ("Pensons étape par étape").

Le LLM génère du texte qui semble plausible mais est factuellement incorrect ou fabriqué.

Hallucination. Atténuez avec RAG (ancrage dans les faits récupérés), Bedrock Guardrails, une température plus basse et une révision humaine des sorties à enjeux élevés.

Alimentez la recherche sémantique, le clustering ou la récupération RAG sur des données textuelles ou multimodales.

Utilisez un modèle d'embedding (par exemple, Titan Embeddings, Cohere Embed) pour convertir le contenu en vecteurs denses. Stockez et interrogez dans une base de données vectorielle.

Pourquoi: Les embeddings capturent le sens sémantique de sorte que les éléments similaires se retrouvent proches les uns des autres dans l'espace vectoriel (similitude cosinus / produit scalaire).

Référence

L'application de recherche accepte à la fois le texte et les images en entrée.

Modèle d'embedding multimodal (par exemple, Titan Multimodal Embeddings) — projette le texte et les images dans le même espace vectoriel.

Référence

Prototypage rapide d'une application d'IA générative sans code ni configuration de compte AWS.

PartyRock (Amazon Bedrock Playground) — constructeur d'applications sans code basé sur navigateur.

Référence

Choisissez un modèle de tarification Bedrock.

Charge variable / imprévisible → À la demande (par token). Volume élevé constant ou débit garanti → Débit provisionné. Modèles personnalisés affinés → doivent utiliser le débit provisionné.

Pourquoi: L'offre à la demande n'a pas d'engagement ; le débit provisionné achète une capacité dédiée en unités de modèle.

Référence

Choisissez la personnalisation la moins chère qui vous apporte la qualité dont vous avez besoin.

Essayez dans cet ordre : (1) ingénierie des invites, (2) RAG avec une base de connaissances, (3) fine-tuning, (4) pré-entraînement continu.

Pourquoi: L'effort et le coût augmentent à chaque étape. Arrêtez-vous à la première qui répond aux exigences.

Applications des Modèles de Fondation

Augmentez un modèle de fondation avec des données d'entreprise privées (PDF, documents, contenu S3) sans fine-tuning.

Créez une base de connaissances Amazon Bedrock. Bedrock gère l'ingestion, le découpage (chunking), l'embedding et la récupération (RAG) au moment de l'inférence.

Pourquoi: Moins cher et plus rapide à mettre à jour que le fine-tuning. Changements de données sources → resynchronisez la KB ; pas de réentraînement.

Référence

Les données changent fréquemment (inventaire, prix, actualités) et le modèle doit refléter l'état actuel.

RAG avec une base de connaissances. Évitez le fine-tuning — les cycles de réentraînement ne peuvent pas suivre.

Pourquoi: RAG sépare le modèle des données ; la KB se met à jour indépendamment du modèle.

Affiner un modèle de fondation avec des exemples étiquetés pour une tâche spécifique.

Fournissez des paires invite-complétion (instruction-réponse). Le format JSONL est standard.

Pourquoi: Le fine-tuning par instruction apprend au modèle à mapper les entrées utilisateur aux sorties souhaitées dans la tâche cible.

Référence

Enseignez à un modèle de fondation un vocabulaire spécialisé (médical, juridique, scientifique) en utilisant de nombreux textes de domaine non étiquetés.

Pré-entraînement continu sur le corpus de domaine non étiqueté.

Pourquoi: Le pré-entraînement continu met à jour la compréhension du vocabulaire et des concepts par le modèle ; le fine-tuning par instruction enseigne le comportement de la tâche. Objectif différent, forme de données différente.

Référence

Flux de travail multi-étapes combinant le raisonnement LLM avec des appels à des API externes, des bases de données ou des services AWS.

Agents Amazon Bedrock — orchestre le raisonnement LLM, l'invocation d'outils/API et la synthèse des résultats dans un environnement d'exécution géré unique.

Pourquoi: Les agents planifient les étapes, appellent les outils et recombinent les résultats dans une réponse finale sans que vous n'ayez à écrire la boucle d'orchestration.

Référence

Choisissez une base de données vectorielle pour les embeddings.

RAG géré → Bases de connaissances Bedrock (gère automatiquement le magasin de vecteurs). Base de données vectorielle personnalisée → OpenSearch Service (k-NN), Aurora PostgreSQL avec pgvector, Neptune Analytics, ou RDS pour PostgreSQL avec pgvector.

Pourquoi: OpenSearch est la valeur par défaut pour le k-NN à grande échelle ; pgvector réutilise une base de données relationnelle existante.

Référence

Déployez un modèle affiné depuis Bedrock pour un service en production.

Achetez du débit provisionné pour le modèle Bedrock personnalisé. Les modèles personnalisés ne peuvent pas être invoqués via la tarification à la demande.

Pourquoi: La capacité du modèle personnalisé est dédiée, facturée en unités de modèle et requise pour l'invocation.

Référence

Estimez ou réduisez le coût d'inférence de Bedrock.

Coût ≈ tokens traités × tarif par token. Réduisez en raccourcissant les invites, en élaguant les exemples few-shot, en choisissant des modèles plus petits ou en utilisant le cache d'invites lorsque cela est pris en charge.

Référence

Générez des données étiquetées de haute précision avec examen humain (human-in-the-loop) (par exemple, images spécialisées, dossiers médicaux).

Amazon SageMaker Ground Truth Plus — main-d'œuvre d'étiquetage HITL gérée.

Pourquoi: Pour l'audit périodique des prédictions de modèle à faible confiance, associez-le à Amazon A2I (Augmented AI).

Référence

La reconnaissance vocale interprète mal les termes spécifiques au domaine (médical, juridique, noms de marque).

Amazon Transcribe avec un modèle linguistique personnalisé ou un vocabulaire personnalisé entraîné sur du texte de domaine.

Référence

Le modèle fonctionne bien à l'entraînement mais mal en production (surapprentissage) — augmentez la généralisation sans changer l'architecture.

Augmentez le volume et la diversité des données d'entraînement. Ne réduisez pas les données et n'ajoutez pas seulement des hyperparamètres.

Pourquoi: Des données plus représentatives sont la solution la plus efficace ; la régularisation et l'arrêt anticipé aident, mais les données dominent.

Évaluez la qualité de la sortie générative.

Qualité de la traduction → BLEU. Qualité de la summarisation → ROUGE. Similitude sémantique à la référence → BERTScore. Préférence stylistique → évaluation humaine avec des ensembles d'invites personnalisés.

Choisissez un modèle de fondation Bedrock pour un cas d'utilisation où le style de sortie est important.

Effectuez une évaluation humaine sur un ensemble de données d'invites personnalisées parmi les modèles candidats. Ne vous fiez pas uniquement aux classements publics ou aux métriques de latence.

Pourquoi: L'adéquation style/ton est subjective ; les benchmarks la manquent.

Référence

Générez des graphiques et des tableaux de bord à partir de questions en langage naturel sur des données métier.

Amazon Q dans QuickSight — BI en langage naturel sur les ensembles de données QuickSight.

Référence

Directives pour une IA Responsable

Détectez les biais dans les données d'entraînement ou les prédictions du modèle ; produisez des rapports d'explicabilité.

Amazon SageMaker Clarify. Exécute des métriques de biais sur les attributs protégés avant et après l'entraînement, ainsi que l'attribution de caractéristiques basée sur SHAP.

Pourquoi: Requis pour les domaines réglementés (prêts, recrutement, santé) où vous devez démontrer l'équité et l'explicabilité.

Référence

Le modèle fonctionne moins bien pour un groupe démographique, ethnique ou géographique (par exemple, signale certains groupes de manière disproportionnée).

Biais d'échantillonnage. Rééquilibrez l'ensemble de données : augmentation des données pour les classes sous-représentées ; assurez des sources diverses et représentatives.

Pourquoi: Les données d'entraînement qui sous-représentent des groupes produisent des modèles qui les desservent mal. Corrigez au niveau de la couche de données, pas au niveau de la couche de modèle.

Documentez l'utilisation prévue d'un modèle, les données d'entraînement, les performances, les limitations et les risques pour la gouvernance et l'audit.

Amazon SageMaker Model Cards — documentation structurée et versionnée liée au modèle.

Référence

Restreignez les sujets des LLM, filtrez les contenus nuisibles, masquez les PII, ou bloquez les motifs d'injection d'invites.

Amazon Bedrock Guardrails. Configurez les sujets refusés, les filtres de contenu (haine, violence, sexe, insultes), les filtres de mots, les filtres d'informations sensibles et les vérifications d'ancrage contextuel.

Pourquoi: Appliqué aux entrées et aux sorties ; fonctionne avec n'importe quel modèle Bedrock et vos propres modèles personnalisés.

Référence

Déterminez la part de responsabilité de l'entreprise en matière de sécurité pour un déploiement d'IA générative.

Matrice d'étendue de sécurité de l'IA générative AWS. Portée 1 (application consommateur, responsabilité la plus faible) → Portée 5 (modèle auto-entraîné, responsabilité la plus élevée).

Pourquoi: La construction et l'entraînement d'un modèle à partir de zéro sur des données privées place la responsabilité maximale en matière de sécurité sur l'entreprise.

Référence

Les parties prenantes ou les régulateurs exigent une explication de la manière dont le modèle parvient à ses prédictions.

Utilisez des modèles interprétables lorsque cela est possible (arbres de décision, régression linéaire/logistique). Pour les modèles complexes, utilisez les Partial Dependence Plots, l'importance des caractéristiques SHAP via SageMaker Clarify, ou les SageMaker Model Cards.

Pourquoi: Les PDPs montrent l'effet marginal de chaque caractéristique ; SHAP attribue la contribution par prédiction ; les cartes de modèle capturent l'histoire complète pour l'audit.

La sortie de l'IA générative peut reproduire du matériel protégé par le droit d'auteur ou être présentée comme une œuvre d'auteur humain.

Risque de plagiat / violation de propriété intellectuelle. Atténuez avec des exigences de citation, le suivi de la provenance du contenu, le filigrane (watermarking) là où c'est pris en charge, la révision humaine et des politiques claires de divulgation du contenu IA.

Sécurité, Conformité et Gouvernance pour les Solutions d'IA

L'application de modèle de fondation doit conserver les invites et les réponses sur le réseau AWS — pas de sortie Internet publique.

Bedrock avec des points de terminaison VPC (PrivateLink) pour l'API d'exécution. Bloquez les points de terminaison publics de Bedrock avec des SCP au niveau de l'organisation.

Pourquoi: PrivateLink maintient les requêtes privées et évite que les données ne quittent le VPC ; les SCP appliquent la règle à tous les comptes.

Référence

Plusieurs équipes appellent Bedrock sur des données S3 partagées ; chaque équipe ne doit accéder qu'à ses propres données client.

Créez un rôle de service IAM par équipe qui accorde à Bedrock l'accès uniquement au préfixe S3 ou à la clé KMS de cette équipe.

Pourquoi: Les rôles de service personnalisés appliquent le principe du moindre privilège au niveau des ressources. Ne donnez pas à Bedrock un accès S3 large et ne vous fiez pas au filtrage de la couche applicative.

Bedrock ne parvient pas à lire les données S3 chiffrées avec SSE-KMS.

Accordez au rôle de service Bedrock `kms:Decrypt` sur la CMK pertinente et `s3:GetObject` sur le bucket/préfixe.

Pourquoi: Bedrock assume son rôle de service pour lire les données ; le rôle a besoin des autorisations S3 et KMS.

Référence

Capturez l'activité Bedrock pour la surveillance, le débogage, l'audit et la conformité.

Deux services complémentaires. CloudTrail = qui/quand/d'où pour chaque appel d'API (identité, horodatage, IP source). Journalisation des invocations de modèle Bedrock = la charge utile réelle de l'invite/réponse, écrite dans CloudWatch Logs ou S3. Activez les deux.

Pourquoi: CloudTrail capture uniquement les métadonnées ; la journalisation des invocations capture le contenu. La conformité exige souvent les deux.

Référence

L'auditeur demande les rapports de conformité AWS (SOC, ISO, PCI, HIPAA) pour la charge de travail d'IA.

AWS Artifact — portail en libre-service pour les rapports de conformité et les accords AWS à la demande.

Pourquoi: AWS Audit Manager audite continuellement votre utilisation ; AWS Artifact fournit les propres attestations d'AWS.

Référence

Découvrez et classifiez les PII ou d'autres données sensibles se trouvant dans S3 (corpus d'entraînement, journaux de modèle).

Amazon Macie — découverte de données sensibles basée sur le ML pour S3.

Pourquoi: Utilisez Macie pour trouver les données qui nécessitent un masquage, une suppression ou un chiffrement KMS avant qu'elles ne se retrouvent dans un modèle ou ses sorties.

Référence

Une entrée utilisateur malveillante tente de contourner l'invite système, d'exfiltrer des données ou de déclencher des actions involontaires.

Défense en profondeur : Bedrock Guardrails pour le filtrage de contenu, des modèles d'invites qui détectent/ignorent les motifs de contournement, des limites de longueur d'entrée, la validation de sortie et des permissions d'outils à moindre privilège pour les agents.

Pourquoi: Aucune mesure d'atténuation unique n'est suffisante ; combinez le filtrage des entrées, le filtrage des sorties et les limites de capacité.

Un modèle personnalisé a été entraîné sur des données confidentielles qui ne devraient pas fuir dans les réponses.

Supprimez le modèle, nettoyez les enregistrements confidentiels de l'ensemble d'entraînement et réentraînez. Le filtrage de sortie n'est pas suffisant.

Pourquoi: Les connaissances intégrées dans les poids du modèle ne peuvent pas être masquées de manière fiable lors de l'inférence ; seul le réentraînement sans ces données les supprime.

Décidez ce qu'AWS sécurise par rapport à ce que le client sécurise pour une charge de travail d'IA.

Modèle de responsabilité partagée AWS : AWS = sécurité DU cloud (matériel, hyperviseur, régions). Client = sécurité DANS le cloud (données, IAM, clés KMS, réseau, configuration de l'application).