Un chatbot de Azure OpenAI necesita proporcionar respuestas consistentes, enfocadas y no creativas para un escenario de servicio al cliente.
→Establecer el parámetro `temperature` en un valor bajo, como 0.1 o 0.2. Evitar establecerlo exactamente en 0 para la mayoría de los modelos.
Por qué: La temperatura controla la aleatoriedad de la salida. Reducirla hace que el modelo sea más determinista y más propenso a elegir los tokens de mayor probabilidad.
En una solución RAG, asegurar que el modelo generativo solo sintetice respuestas de documentos a los que el usuario específico tiene permiso para acceder.
→Implementar el recorte de seguridad en la etapa de recuperación. En Azure AI Search, aplicar filtros de seguridad a la consulta de búsqueda basados en la identidad AAD del usuario y sus membresías de grupo.
Por qué: El control de acceso debe aplicarse antes de que el LLM vea los datos. Filtrar en la capa de búsqueda (recuperación) es la única forma segura de implementar esto.
Extraer consistentemente datos estructurados de texto no estructurado en un objeto JSON válido usando Azure OpenAI.
→Usar un prompt que incluya: 1) Un rol claro. 2) Instrucción explícita para devolver SOLO JSON. 3) El esquema JSON deseado con nombres de campo y tipos. 4) Ejemplos "few-shot" si es posible.
Por qué: Los prompts altamente estructurados y explícitos aumentan significativamente la confiabilidad de obtener una salida estructurada y bien formada de los LLM.
Una aplicación de misión crítica requiere un rendimiento garantizado y consistente de Azure OpenAI, sin estrangulamiento durante la carga máxima.
→Comprar e implementar el modelo utilizando Provisioned Throughput Units (PTU).
Por qué: Las PTU proporcionan capacidad de procesamiento de modelo dedicada y reservada, a diferencia de las implementaciones estándar de pago por uso que operan en un modelo de capacidad compartida y están sujetas a estrangulamiento.
Referencia↗
Mantener el contexto en una conversación de chatbot de larga duración sin exceder el límite de tokens del modelo.
→Implementar una estrategia de resumen de conversación. Periódicamente, usar una llamada LLM separada para resumir partes antiguas de la conversación e incluir este resumen más los turnos más recientes en el prompt.
Por qué: Este patrón de "resumir y deslizar" conserva el contexto a largo plazo de manera mucho más efectiva y económica que la truncación simple o el envío de todo el historial (y eventualmente demasiado largo).
Habilitar un modelo de Azure OpenAI para llamar a una API externa para obtener información meteorológica actual.
→Definir la API como una herramienta para el modelo utilizando un formato JSON Schema preciso. Incluir una `description` clara de la función y descripciones detalladas de los `parameter` para que el modelo sepa cuándo y cómo usarla.
Por qué: El modelo se basa completamente en el esquema y las descripciones para tomar una decisión informada sobre la llamada a una función. Una función bien descrita es fundamental para la confiabilidad.
Usar Azure OpenAI para resumir un documento que es mucho más largo que la ventana de contexto del modelo.
→Implementar una estrategia de "map-reduce" o "refine". Dividir el documento en fragmentos, generar un resumen para cada fragmento (map) y luego generar un resumen final a partir de la colección de resúmenes de fragmentos (reduce).
Por qué: Este es el patrón estándar para aplicar modelos de contexto fijo a entradas arbitrariamente largas, asegurando que se considere todo el contenido del documento.
Mejorar la capacidad de respuesta percibida de una aplicación de chat mostrando la respuesta de la IA a medida que se genera.
→Al llamar a la API de Chat Completions, establecer el parámetro `stream` en `true`. Procesar los eventos enviados por el servidor a medida que llegan para construir la respuesta token por token.
Por qué: El streaming proporciona una experiencia de usuario mucho mejor para aplicaciones en tiempo real que esperar a que se genere la respuesta completa, lo que puede llevar varios segundos.
Un agente de IA debe decidir dinámicamente cuál de varias herramientas (por ejemplo, consulta de base de datos, búsqueda web, envío de correo electrónico) usar para satisfacer una solicitud de usuario.
→Usar un framework como Semantic Kernel o Azure AI Agent Service. Definir cada capacidad como una herramienta/plugin distinto y dejar que el planificador o el bucle ReAct del agente orquesten las llamadas a las herramientas.
Por qué: Los frameworks agentic proporcionan la capa de orquestación (planificador/bucle de razonamiento) que permite a un LLM ir más allá de las simples preguntas y respuestas para convertirse en un actor autónomo que utiliza herramientas.
Evitar que un agente de IA autónomo realice acciones de alto riesgo (por ejemplo, eliminar datos, gastar dinero) sin supervisión.
→Implementar un patrón de "human-in-the-loop". Cuando el agente planea una acción de alto riesgo, el sistema debe pausar y requerir una confirmación explícita de un operador humano antes de ejecutarla.
Por qué: Este es un patrón crítico de IA responsable para sistemas agentic, que equilibra la autonomía con la seguridad al restringir acciones irreversibles o de alto impacto.