Elegir entre un agente o un enjambre multiagente para un flujo de trabajo complejo.
→Comience con un solo agente + herramientas. Divida en múltiples agentes solo cuando los límites de las tareas sean claros, las ventanas de contexto se desborden o se necesiten diferentes niveles de modelo por subtarea.
Por qué: Los multiagentes añaden latencia, superficie de error y costo de orquestación. La mayoría de las cargas de trabajo de producción tienen éxito con un agente bien equipado.
El agente debe razonar sobre las observaciones antes de actuar de nuevo.
→Implemente un bucle ReAct (Razonar + Actuar): el modelo genera un pensamiento, selecciona una herramienta, recibe el resultado y se repite hasta que se cumple una condición de parada.
Por qué: ReAct hace visible el razonamiento intermedio, mejorando la depurabilidad y permitiendo auditar la cadena de pensamiento.
El agente necesita interactuar con sistemas externos (APIs, bases de datos, sistemas de archivos).
→Defina herramientas a través de la API tool_use. El modelo emite un bloque tool_use; su código lo ejecuta y devuelve un tool_result. El modelo luego continúa.
Referencia↗
El orquestador debe despachar subtareas heterogéneas (revisión de código, búsqueda web, análisis de datos).
→Utilice un agente supervisor que descomponga el objetivo, delegue en subagentes especialistas y agregue los resultados. Cada subagente tiene su propio system prompt y conjunto de herramientas.
Múltiples subagentes deben coordinarse sin comunicación directa entre pares.
→Dirija todos los mensajes entre agentes a través de un supervisor. El supervisor decide qué subagente se ejecuta a continuación, pasa el contexto y aplica las restricciones de ordenación.
Por qué: La mensajería directa entre pares crea ciclos y dificulta el seguimiento del estado. Un supervisor central mantiene explícito el DAG de ejecución.
El agente debe recordar el contexto a lo largo de una sesión de varias interacciones.
→Pase el historial completo de la conversación (system + turnos anteriores de usuario/asistente) en el array de mensajes. Para sesiones largas, resuma los turnos antiguos para mantenerse dentro de la ventana de contexto.
El agente necesita persistencia entre sesiones o entre usuarios.
→Almacene hechos en una capa de memoria externa (vector DB, key-value store, archivo). Recupere las memorias relevantes a través de RAG e inyéctelas en el system prompt en cada turno.
El equipo recurre a la arquitectura agéntica por defecto para cada característica de LLM.
→No use agentes cuando un solo prompt + salida estructurada sea suficiente. Los agentes añaden latencia, costo y modos de fallo. Reserve los bucles agénticos para tareas que requieran iteración o uso de herramientas.
Una tarea de razonamiento compleja necesita más deliberación interna antes de la respuesta.
→Habilite el pensamiento extendido con un parámetro budget_tokens. El modelo utiliza un bloque de pensamiento antes de responder, mejorando la precisión en problemas de varios pasos.
Por qué: El pensamiento extendido sacrifica latencia por calidad. Establezca budget_tokens proporcionalmente a la complejidad de la tarea; póngale un límite para controlar el costo.
Referencia↗
Una llamada a una herramienta devuelve un error; el agente debe recuperarse elegantemente.
→Devuelva el error como un tool_result con is_error: true. El modelo ve el fallo y puede reintentarlo con parámetros corregidos, intentar una herramienta alternativa o explicar el fallo al usuario.
Referencia↗
Fallos transitorios de API (429, 529) durante un bucle agéntico.
→Implemente un exponential backoff con jitter. En 429 (límite de tasa), respete el encabezado retry-after. En 529 (sobrecargado), espere más tiempo. Nunca reintente errores de clase 400 ciegamente.
Medir si un sistema agéntico realmente mejora con el tiempo.
→Construya un paquete de evaluación: defina pares entrada-salida, ejecute el agente, puntúe las salidas (coincidencia exacta, LLM-as-judge, revisión humana). Rastree la tasa de aprobación por versión.
Por qué: Sin evaluaciones, los ajustes de prompts son conjeturas. La detección de regresiones requiere una puntuación automatizada y repetible.
El agente produce una salida de baja calidad en la primera pasada.
→Añada un paso de reflexión: después de generar una respuesta, pida al modelo que critique su propia salida y la revise. Utilice un turno de mensaje separado o el pensamiento extendido.
El flujo de trabajo agéntico realiza acciones irreversibles (eliminar recursos, enviar correos electrónicos).
→Inserte un punto de control antes de las operaciones destructivas. Presente la acción planificada al usuario, espere la aprobación y luego ejecute. Registre la decisión para auditoría.