Choisir entre un agent unique et un essaim multi-agents pour un workflow complexe.
→Commencez avec un agent unique + outils. Ne divisez en plusieurs agents que lorsque les limites des tâches sont claires, que les fenêtres de contexte débordent, ou que différents niveaux de modèle sont nécessaires par sous-tâche.
Pourquoi: Le multi-agent ajoute de la latence, une surface d'erreur et des coûts d'orchestration. La plupart des charges de travail de production réussissent avec un agent bien outillé.
L'agent doit raisonner sur les observations avant d'agir à nouveau.
→Implémentez une boucle ReAct (Raisonner + Agir) : le modèle génère une pensée, sélectionne un outil, reçoit le résultat et répète jusqu'à ce qu'une condition d'arrêt soit remplie.
Pourquoi: ReAct rend le raisonnement intermédiaire visible, améliorant la débogabilité et vous permettant d'auditer la chaîne de pensée.
L'agent doit interagir avec des systèmes externes (API, bases de données, systèmes de fichiers).
→Définissez des outils via l'API tool_use. Le modèle émet un bloc tool_use ; votre code l'exécute et renvoie un tool_result. Le modèle continue ensuite.
Référence↗
L'orchestrateur doit distribuer des sous-tâches hétérogènes (revue de code, recherche web, analyse de données).
→Utilisez un agent superviseur qui décompose l'objectif, délègue à des sous-agents spécialistes et agrège les résultats. Chaque sous-agent a son propre prompt système et son propre ensemble d'outils.
Plusieurs sous-agents doivent se coordonner sans communication directe de pair à pair.
→Acheminez tous les messages inter-agents via un superviseur. Le superviseur décide quel sous-agent s'exécute ensuite, transmet le contexte et applique les contraintes d'ordonnancement.
Pourquoi: La messagerie directe entre pairs crée des cycles et rend l'état difficile à suivre. Un superviseur central maintient le DAG d'exécution explicite.
L'agent doit se souvenir du contexte tout au long d'une session multi-tours.
→Passez l'historique complet de la conversation (système + tours utilisateur/assistant précédents) dans le tableau de messages. Pour les sessions longues, résumez les tours plus anciens pour rester dans la fenêtre de contexte.
L'agent a besoin de persistance entre les sessions ou entre les utilisateurs.
→Stockez les faits dans une couche de mémoire externe (base de données vectorielle, magasin clé-valeur, fichier). Récupérez les souvenirs pertinents via RAG et injectez-les dans le prompt système à chaque tour.
L'équipe utilise par défaut l'architecture agentique pour chaque fonctionnalité LLM.
→N'utilisez pas d'agents lorsqu'un seul prompt + une sortie structurée suffisent. Les agents ajoutent de la latence, des coûts et des modes de défaillance. Réservez les boucles agentiques pour les tâches nécessitant une itération ou l'utilisation d'outils.
Une tâche de raisonnement complexe nécessite plus de délibération interne avant la réponse.
→Activez la réflexion étendue avec un paramètre budget_tokens. Le modèle utilise un bloc de pensée avant de répondre, améliorant la précision sur les problèmes à plusieurs étapes.
Pourquoi: La réflexion étendue échange la latence contre la qualité. Définissez budget_tokens proportionnellement à la complexité de la tâche ; plafonnez-le pour contrôler les coûts.
Référence↗
L'appel d'outil renvoie une erreur ; l'agent doit se récupérer gracieusement.
→Renvoie l'erreur en tant que tool_result avec is_error: true. Le modèle voit l'échec et peut réessayer avec des paramètres corrigés, essayer un outil alternatif ou expliquer l'échec à l'utilisateur.
Référence↗
Défaillances transitoires de l'API (429, 529) pendant une boucle agentique.
→Implémentez une attente exponentielle avec jitter. Pour les 429 (limite de débit), respectez l'en-tête retry-after. Pour les 529 (surchargé), attendez plus longtemps. Ne réessayez jamais les erreurs de classe 400 aveuglément.
Mesurer si un système agentique s'améliore réellement au fil du temps.
→Construisez une suite d'évaluation : définissez des paires entrée-sortie, exécutez l'agent, notez les sorties (correspondance exacte, LLM en tant que juge, révision humaine). Suivez le taux de réussite par version.
Pourquoi: Sans évaluations, les ajustements de prompt sont des suppositions. La détection de régression nécessite une notation automatisée et reproductible.
L'agent produit une sortie de mauvaise qualité au premier passage.
→Ajoutez une étape de réflexion : après avoir généré une réponse, invitez le modèle à critiquer sa propre sortie et à la réviser. Utilisez un tour de message séparé ou une réflexion étendue.
Le workflow agentique effectue des actions irréversibles (suppression de ressources, envoi d'e-mails).
→Insérez un point de contrôle avant les opérations destructrices. Présentez l'action prévue à l'utilisateur, attendez l'approbation, puis exécutez. Enregistrez la décision pour l'audit.