Guía

Microsoft Azure AI Engineer Associate

Última revisión: mayo de 2026

Una referencia escaneable de patrones arquitectónicos que evalúa el examen AI-102. Lee de arriba a abajo o salta a una sección.

Planificar, gestionar y proteger una solución de Azure AI

Automatizar la rotación de claves API para un servicio de IA sin tiempo de inactividad de la aplicación.

Almacenar tanto las claves primarias como las secundarias en Azure Key Vault con rotación automática. Configurar la aplicación para que pruebe la clave secundaria si la primaria falla.

Por qué: Key Vault gestiona el ciclo de vida de la rotación. El patrón de doble clave asegura que una clave siempre sea válida durante la ventana de rotación.

Asegurarse de que el tráfico del servicio de IA nunca salga de la VNet y que Microsoft no pueda usar los datos del cliente para mejorar el servicio.

Implementar el servicio de IA con un Private Endpoint y deshabilitar el acceso a la red pública. Por separado, habilitar la configuración de exclusión voluntaria del procesamiento de datos en el recurso.

Por qué: Private Endpoint proporciona aislamiento de red. La exclusión de datos es una configuración distinta para la privacidad de los datos. Una no implica la otra.

Proporcionar a una aplicación en Azure Kubernetes Service (AKS) acceso seguro y sin credenciales a un servicio de IA.

Asignar una identidad administrada asignada por el usuario a los pods de AKS. Conceder a esta identidad el rol RBAC de "Cognitive Services User" en el recurso del servicio de IA.

Por qué: La Managed Identity es el patrón de autenticación sin contraseña estándar para los recursos de Azure, eliminando la necesidad de almacenar secretos en las configuraciones de los pods.

Referencia

Realizar un seguimiento de los costos del servicio de IA y aplicar límites de gasto por departamento sin usar suscripciones separadas.

Crear recursos de servicio de IA separados por departamento. Aplicar una etiqueta de recurso de "departamento" a cada uno. Configurar presupuestos de Azure Cost Management con umbrales de alerta basados en el valor de la etiqueta.

Por qué: Las etiquetas son el estándar para la asignación de costos. Los presupuestos de Azure se pueden delimitar a las etiquetas para aplicar límites de gasto a través de alertas o acciones.

Alertar a las operaciones cuando las tasas de error de la API del servicio de IA superen el 5% o la latencia supere los 2 segundos.

Configurar alertas de métricas de Azure Monitor en el recurso del servicio de IA. Usar las métricas de "Failed Requests" y "Latency" con un período de agregación apropiado.

Por qué: Azure Monitor proporciona métricas directas a nivel de plataforma para el rendimiento y la confiabilidad, lo que permite alertas en tiempo real sin demoras en las consultas de logs.

Diseñar un plan de recuperación ante desastres para modelos de IA personalizados (por ejemplo, Custom Vision, LUIS) con un RTO/RPO bajo.

Implementar recursos en regiones emparejadas. Automatizar la exportación diaria de modelos a almacenamiento geo-redundante (GRS). Usar Azure Traffic Manager para la conmutación por error automática basada en sondas de salud.

Por qué: Los servicios PaaS de IA no están cubiertos por Azure Site Recovery. La recuperación ante desastres requiere una exportación/importación de modelos explícita y programada, y un servicio de enrutamiento de tráfico a nivel de DNS.

Registrar cargas útiles completas de solicitud y respuesta para todas las llamadas al servicio de IA para una retención de auditoría a largo plazo.

Colocar Azure API Management (APIM) delante del servicio de IA. Configurar políticas de APIM para registrar cuerpos completos de solicitud/respuesta. Enviar logs a Azure Storage con una política de inmutabilidad.

Por qué: Los diagnósticos nativos del servicio de IA no registran cargas útiles completas. APIM es el patrón estándar para una fachada de registro y políticas. El almacenamiento inmutable asegura la integridad del rastro de auditoría.

Implementar una solución de IA para el cuidado de la salud que procesa datos de pacientes y debe cumplir con HIPAA.

Implementar el recurso de IA en una región de Azure de EE. UU. que admita HIPAA. Firmar un Business Associate Agreement (BAA) con Microsoft para la suscripción.

Por qué: El cumplimiento de HIPAA requiere tanto controles técnicos (selección de región) como acuerdos legales (BAA). Ambos son obligatorios.

Implementar un sistema de moderación de contenido que marque contenido dañino pero que permita la revisión humana antes de bloquearlo.

Usar la API de Azure AI Content Safety. Bloquear automáticamente el contenido marcado con severidad "alta". Poner en cola el contenido marcado como "media" o "baja" para un flujo de trabajo de revisión humana.

Por qué: Este patrón de "human-in-the-loop" equilibra la seguridad automatizada con el matiz requerido para la moderación, evitando el bloqueo excesivo de contenido legítimo.

Implementar soluciones de procesamiento de imágenes y video

Detectar y contar productos específicos y de marca en estantes de tiendas minoristas, manejando oclusiones y orientaciones variables.

Entrenar un modelo de detección de objetos de Custom Vision. Usar un conjunto de datos de imágenes etiquetadas que representen los productos en entornos de estantes realistas.

Por qué: La detección de objetos proporciona tanto clasificación como ubicación (para el conteo). Se requiere un modelo personalizado para reconocer SKU de productos específicos.

Referencia

Realizar análisis de imágenes para control de calidad en tiempo real en una fábrica con conectividad a Internet poco confiable.

Implementar el contenedor de Azure AI Vision para Image Analysis en un dispositivo edge (por ejemplo, Azure IoT Edge).

Por qué: Los contenedores empaquetan modelos de IA en la nube para ejecución local, proporcionando baja latencia y capacidad offline, al tiempo que permiten actualizaciones de modelos cuando están conectados.

Extraer texto de documentos históricos escaneados que contienen texto impreso, manuscrito y múltiples idiomas.

Usar la API de Azure AI Vision Read (parte de Image Analysis). Especificar la última versión del modelo para asegurar el mejor rendimiento en contenido mixto.

Por qué: La API Read es el motor OCR más avanzado de Azure, específicamente optimizado para escenarios centrados en documentos y contenido mixto, superando a las API OCR más antiguas.

Analizar transmisiones de video para monitorear la ocupación de la tienda, rastrear patrones de movimiento de clientes y medir la longitud de las colas.

Implementar el contenedor Azure AI Vision Spatial Analysis en un dispositivo edge conectado a las cámaras de la tienda.

Por qué: Spatial Analysis es una solución en contenedores diseñada específicamente para análisis espacial en tiempo real a partir de video, proporcionando operaciones como `personcount`, `persondistance` y `personcrossingline`.

Un modelo de detección de objetos de Custom Vision tiene alta precisión pero baja recuperación (omite muchos objetos).

Aumentar el conjunto de datos de entrenamiento con ejemplos más diversos de los objetos omitidos, particularmente imágenes con diferente iluminación, ángulos, tamaños y oclusión parcial.

Por qué: La baja recuperación es un problema de cantidad/diversidad de datos. El modelo no ha visto suficientes variaciones para generalizar de manera efectiva. Añadir ejemplos variados es la solución principal.

Implementar soluciones de procesamiento de lenguaje natural

Analizar opiniones de clientes para identificar el sentimiento hacia características específicas del producto (por ejemplo, positivo para "duración de la batería", negativo para "pantalla").

Usar la API de Azure AI Language Sentiment Analysis con el parámetro `opinionMining` habilitado.

Por qué: Opinion Mining (también llamado Aspect-Based Sentiment Analysis) es la característica específica diseñada para extraer el sentimiento asociado con objetivos individuales (aspectos) dentro del texto.

Referencia

Crear un bot de preguntas frecuentes que soporte muchos idiomas pero que use una única base de conocimiento escrita en inglés.

Usar la función Custom Question Answering de Azure AI Language. Tiene traducción de consultas incorporada para hacer coincidir las preguntas con la base de conocimiento en inglés.

Por qué: La capacidad de traducción incorporada elimina la necesidad de mantener bases de conocimiento separadas para cada idioma, simplificando drásticamente la gestión de contenido.

Un modelo de Conversational Language Understanding (CLU) confunde dos intenciones similares (por ejemplo, "PedirPizza" vs. "ModificarPedido").

Añadir más enunciados de entrenamiento diversos a ambas intenciones, centrándose en ejemplos que resalten las palabras clave y frases distintivas. Revisar y eliminar ejemplos ambiguos o superpuestos.

Por qué: La precisión del modelo es impulsada principalmente por la calidad y claridad de los datos de entrenamiento. El objetivo es crear un "límite de decisión" claro entre las intenciones.

Extraer entidades específicas del dominio como "ContractValue" o "TerminationClause" de documentos legales.

Entrenar un modelo de Custom Named Entity Recognition (NER) usando Azure AI Language. Proporcionar ejemplos etiquetados de sus documentos.

Por qué: Los modelos NER preconstruidos solo reconocen entidades generales (Persona, Ubicación, etc.). Se requiere Custom NER para cualquier tarea de extracción de entidades específicas del dominio.

Encontrar y redactar automáticamente información de identificación personal (PII) como nombres y números de teléfono del texto.

Usar la API de Azure AI Language PII detection. Configurar las categorías de entidades a detectar y establecer el modo de redacción.

Por qué: Esta es una API creada específicamente para PII, más confiable y completa que regex o NER genérico para esta tarea de cumplimiento específica.

Extraer entidades médicas, relaciones y afirmaciones (por ejemplo, negación) de notas clínicas.

Usar Azure AI Health Insights, específicamente el servicio Text Analytics for Health.

Por qué: Este es un servicio especializado y compatible con HIPAA, entrenado en ontologías médicas (por ejemplo, UMLS), que proporciona una comprensión profunda del texto clínico que carecen los modelos generales de NLP.

Traducir documentos técnicos, asegurando que la terminología específica de la industria y los nombres de marca se traduzcan correctamente.

Usar Azure Custom Translator. Entrenar un modelo personalizado usando un corpus de sus documentos traducidos existentes (documentos paralelos).

Por qué: Custom Translator se adapta al vocabulario y estilo de su dominio específico, proporcionando mayor fidelidad que el modelo de traducción de propósito general, que puede traducir erróneamente términos de nicho.

Transcribir una reunión de múltiples participantes en tiempo real y atribuir el texto a cada orador.

Usar el servicio Azure AI Speech to Text con transcripción de conversación y diarización habilitadas.

Por qué: La diarización es la característica específica que segmenta el audio por orador, proporcionando información de "quién dijo qué" junto con la transcripción.

Mejorar la precisión del reconocimiento de voz a texto para audio que contiene acrónimos, jerga o nombres propios específicos del dominio.

Entrenar un modelo de voz personalizado. Proporcionar un conjunto de datos de muestras de audio con transcripciones etiquetadas por humanos coincidentes y un archivo de pronunciación para términos personalizados.

Por qué: Los modelos personalizados adaptan los modelos acústicos y de lenguaje base a su entorno de audio específico, estilos de habla y vocabulario para una precisión significativamente mayor.

Controlar el énfasis, el tono, la velocidad y las pausas de la narración de texto a voz para un módulo de e-learning.

Usar Speech Synthesis Markup Language (SSML) en la solicitud de la API de Text-to-Speech.

Por qué: SSML es el estándar W3C para proporcionar instrucciones detalladas a un sintetizador de voz, permitiendo un control de grano fino más allá de la entrada de texto plano.

Implementar soluciones de minería de conocimiento e inteligencia de documentos

Diseñar una solución de búsqueda para más de 10 millones de documentos que requiera baja latencia para un alto volumen de consultas concurrentes.

Usar Azure AI Search en un nivel Standard o superior. Escalar horizontalmente con réplicas para manejar la carga de consultas y con particiones para manejar el volumen de datos.

Por qué: Las réplicas son para el rendimiento de consultas (QPS). Las particiones son para el tamaño del índice y la E/S. Ambos son necesarios para escenarios de alto volumen y alto rendimiento.

Permitir a los usuarios hacer preguntas en lenguaje natural (por ejemplo, "¿Cuál es la política de devolución?") y obtener respuestas directas de una colección de documentos.

Usar Azure AI Search con la búsqueda semántica habilitada. Utilizar las características de respuestas semánticas y subtítulos.

Por qué: La búsqueda semántica va más allá de la coincidencia de palabras clave para comprender la intención del usuario y puede extraer y devolver respuestas directas y concisas del texto fuente.

Referencia

Implementar una búsqueda de productos que encuentre coincidencias exactas para números de modelo (palabra clave) y elementos conceptualmente similares (semántico).

Configurar un índice de Azure AI Search con campos de texto buscables y campos vectoriales. Emitir consultas híbridas que combinen parámetros de palabra clave (`search`) y vectoriales (`vectorQueries`).

Por qué: La búsqueda híbrida combina la precisión de la clasificación de palabras clave BM25 con la relevancia conceptual de la similitud vectorial, proporcionando lo mejor de ambos mundos.

Extraer entidades con formato personalizado, como códigos de producto (XX-####), durante la pipeline de indexación de Azure AI Search.

Crear un skillset personalizado que llama a una Azure Function. La función contiene la regex u otra lógica personalizada para encontrar y extraer las entidades.

Por qué: Las habilidades personalizadas proporcionan un punto de extensibilidad en la pipeline de enriquecimiento para cualquier lógica no cubierta por las habilidades cognitivas integradas.

Asegurarse de que las búsquedas de "laptop", "notebook" y "ultrabook" devuelvan el mismo conjunto de documentos relevantes.

Crear un mapa de sinónimos en Azure AI Search que defina los términos equivalentes. Asociar el mapa de sinónimos con los campos buscables relevantes en la definición del índice.

Por qué: Los mapas de sinónimos son la característica dedicada para expandir consultas e incluir términos equivalentes definidos por el usuario, mejorando directamente la recuperación de la búsqueda.

Al actualizar un skillset de Azure AI Search, reprocesar solo los documentos afectados por los cambios para ahorrar tiempo y costos.

Habilitar el almacenamiento en caché de enriquecimiento en la configuración del indexador. El indexador usará los resultados en caché para habilidades sin cambios y solo volverá a ejecutar las habilidades nuevas o modificadas.

Por qué: El almacenamiento en caché de las salidas intermedias de las habilidades es clave para permitir un enriquecimiento incremental eficiente, evitando un costoso reprocesamiento completo de todo el conjunto de datos.

Orquestar una pipeline para extraer datos de varios documentos (por ejemplo, facturas), validarlos según reglas de negocio y almacenar la salida estructurada.

Usar un modelo compuesto en Azure AI Document Intelligence para la extracción, una Azure Function para la lógica de validación personalizada y Azure Cosmos DB para el almacenamiento. Orquestar con Azure Logic Apps.

Por qué: Esta arquitectura serverless separa correctamente las preocupaciones: Document Intelligence para la extracción especializada, Functions para la lógica de negocio a medida y Logic Apps para la orquestación del flujo de trabajo.

Procesar un paquete de documentos que contiene múltiples tipos de formularios (por ejemplo, un formulario de reclamo, recibos y fotos) en una sola transacción.

Usar un modelo compuesto de Azure AI Document Intelligence. Entrenar un modelo de clasificación para identificar el tipo de documento y enviarlo al modelo de extracción personalizado o preconstruido apropiado.

Por qué: Los modelos compuestos actúan como un enrutador, permitiendo que un único endpoint maneje inteligentemente una mezcla de tipos de documentos, cada uno procesado por su modelo óptimo.

Redactar PII de los documentos antes de que sean indexados por Azure AI Search, para que los datos sensibles nunca se almacenen en el índice de búsqueda.

Agregar la habilidad cognitiva de PII Detection al skillset del indexador. Configurar la habilidad para enmascarar PII y mapear el campo de texto redactado al índice.

Por qué: Esto realiza la redacción "en tránsito" durante la indexación, asegurando que el contenido buscable esté limpio desde el principio, lo cual es un patrón crítico de seguridad y cumplimiento.

Impulsar los resultados de búsqueda basados en la antigüedad de un documento (fecha de publicación) y la popularidad (recuento de vistas).

Definir un perfil de puntuación personalizado en Azure AI Search. Usar una función `freshness` en el campo de fecha y una función `magnitude` en el campo de recuento de vistas.

Por qué: Los perfiles de puntuación le permiten modificar la puntuación de relevancia base BM25 incorporando señales específicas del negocio a partir de los metadatos del documento.

Implementar soluciones de IA generativa

Un chatbot de Azure OpenAI necesita proporcionar respuestas consistentes, enfocadas y no creativas para un escenario de servicio al cliente.

Establecer el parámetro `temperature` en un valor bajo, como 0.1 o 0.2. Evitar establecerlo exactamente en 0 para la mayoría de los modelos.

Por qué: La temperatura controla la aleatoriedad de la salida. Reducirla hace que el modelo sea más determinista y más propenso a elegir los tokens de mayor probabilidad.

En una solución RAG, asegurar que el modelo generativo solo sintetice respuestas de documentos a los que el usuario específico tiene permiso para acceder.

Implementar el recorte de seguridad en la etapa de recuperación. En Azure AI Search, aplicar filtros de seguridad a la consulta de búsqueda basados en la identidad AAD del usuario y sus membresías de grupo.

Por qué: El control de acceso debe aplicarse antes de que el LLM vea los datos. Filtrar en la capa de búsqueda (recuperación) es la única forma segura de implementar esto.

Extraer consistentemente datos estructurados de texto no estructurado en un objeto JSON válido usando Azure OpenAI.

Usar un prompt que incluya: 1) Un rol claro. 2) Instrucción explícita para devolver SOLO JSON. 3) El esquema JSON deseado con nombres de campo y tipos. 4) Ejemplos "few-shot" si es posible.

Por qué: Los prompts altamente estructurados y explícitos aumentan significativamente la confiabilidad de obtener una salida estructurada y bien formada de los LLM.

Una aplicación de misión crítica requiere un rendimiento garantizado y consistente de Azure OpenAI, sin estrangulamiento durante la carga máxima.

Comprar e implementar el modelo utilizando Provisioned Throughput Units (PTU).

Por qué: Las PTU proporcionan capacidad de procesamiento de modelo dedicada y reservada, a diferencia de las implementaciones estándar de pago por uso que operan en un modelo de capacidad compartida y están sujetas a estrangulamiento.

Referencia

Mantener el contexto en una conversación de chatbot de larga duración sin exceder el límite de tokens del modelo.

Implementar una estrategia de resumen de conversación. Periódicamente, usar una llamada LLM separada para resumir partes antiguas de la conversación e incluir este resumen más los turnos más recientes en el prompt.

Por qué: Este patrón de "resumir y deslizar" conserva el contexto a largo plazo de manera mucho más efectiva y económica que la truncación simple o el envío de todo el historial (y eventualmente demasiado largo).

Habilitar un modelo de Azure OpenAI para llamar a una API externa para obtener información meteorológica actual.

Definir la API como una herramienta para el modelo utilizando un formato JSON Schema preciso. Incluir una `description` clara de la función y descripciones detalladas de los `parameter` para que el modelo sepa cuándo y cómo usarla.

Por qué: El modelo se basa completamente en el esquema y las descripciones para tomar una decisión informada sobre la llamada a una función. Una función bien descrita es fundamental para la confiabilidad.

Usar Azure OpenAI para resumir un documento que es mucho más largo que la ventana de contexto del modelo.

Implementar una estrategia de "map-reduce" o "refine". Dividir el documento en fragmentos, generar un resumen para cada fragmento (map) y luego generar un resumen final a partir de la colección de resúmenes de fragmentos (reduce).

Por qué: Este es el patrón estándar para aplicar modelos de contexto fijo a entradas arbitrariamente largas, asegurando que se considere todo el contenido del documento.

Mejorar la capacidad de respuesta percibida de una aplicación de chat mostrando la respuesta de la IA a medida que se genera.

Al llamar a la API de Chat Completions, establecer el parámetro `stream` en `true`. Procesar los eventos enviados por el servidor a medida que llegan para construir la respuesta token por token.

Por qué: El streaming proporciona una experiencia de usuario mucho mejor para aplicaciones en tiempo real que esperar a que se genere la respuesta completa, lo que puede llevar varios segundos.

Un agente de IA debe decidir dinámicamente cuál de varias herramientas (por ejemplo, consulta de base de datos, búsqueda web, envío de correo electrónico) usar para satisfacer una solicitud de usuario.

Usar un framework como Semantic Kernel o Azure AI Agent Service. Definir cada capacidad como una herramienta/plugin distinto y dejar que el planificador o el bucle ReAct del agente orquesten las llamadas a las herramientas.

Por qué: Los frameworks agentic proporcionan la capa de orquestación (planificador/bucle de razonamiento) que permite a un LLM ir más allá de las simples preguntas y respuestas para convertirse en un actor autónomo que utiliza herramientas.

Evitar que un agente de IA autónomo realice acciones de alto riesgo (por ejemplo, eliminar datos, gastar dinero) sin supervisión.

Implementar un patrón de "human-in-the-loop". Cuando el agente planea una acción de alto riesgo, el sistema debe pausar y requerir una confirmación explícita de un operador humano antes de ejecutarla.

Por qué: Este es un patrón crítico de IA responsable para sistemas agentic, que equilibra la autonomía con la seguridad al restringir acciones irreversibles o de alto impacto.