Azure DP-100: un plan de estudio de 6 semanas para el Asociado en Científico de Datos
Un plan realista de 6 semanas para el DP-100 que cubre Azure ML SDK v2, MLflow, designer y despliegue, además de las trampas que hacen fallar a candidatos bien preparados.
DP-100 es el examen de Diseño e Implementación de una Solución de Ciencia de Datos en Azure. Cuesta $165 USD, consta de 40 a 60 preguntas en 100 minutos (el número varía debido a los estudios de caso), incluye una o dos secciones de estudio de caso, y la puntuación de aprobación escalada es de 700/1000. Es la certificación de asociado basada en roles para científicos de datos que trabajan con Azure Machine Learning.
Seis semanas dedicando 8 a 10 horas a la semana son suficientes si ya conoces Python, scikit-learn y conceptos básicos de ML. Si estás aprendiendo ML desde cero, el DP-100 aún no es el examen adecuado; primero toma un curso de entrenamiento de modelos. El examen evalúa Azure ML, no si entiendes una matriz de confusión.
Qué evalúa realmente el DP-100
La guía del examen actual (actualizada en 2024 para eliminar el SDK v1 y centrarse completamente en la v2) se desglosa aproximadamente de la siguiente manera:
- Administrar recursos de Azure ML (espacios de trabajo, computación, almacenes de datos, entornos) — aproximadamente 25%
- Ejecutar experimentos y entrenar modelos (jobs, seguimiento de MLflow, AutoML, hyperdrive) — aproximadamente 25%
- Desplegar y operacionalizar soluciones de ML (managed online endpoints, batch endpoints, monitoreo) — aproximadamente 25%
- Implementar ML responsable (equidad, interpretabilidad, privacidad diferencial) — aproximadamente 25%
Lo que eso significa en la práctica: necesitas dominar el SDK de Python v2 de Azure ML, sentirte cómodo en Azure ML Studio (designer más notebooks), y tener claras las diferencias entre el seguimiento de MLflow en Azure ML, AutoML para datos tabulares / imágenes / PNL, y trabajos de HyperDrive / sweep para la optimización de hiperparámetros. La parte de despliegue requiere que conozcas los managed online endpoints (en tiempo real, con división de tráfico y blue-green) frente a los batch endpoints (puntuación a escala).
Prerrequisitos que realmente necesitas
Antes de la semana 1, deberías tener:
- Python, cómodamente. Leer y escribir funciones, clases, decoradores, entornos virtuales.
- pandas + numpy a nivel de trabajo.
- scikit-learn, incluyendo
Pipeline,train_test_split, regresores y clasificadores básicos, yColumnTransformer. - ML Conceptual: división de train/validation/test, validación cruzada, overfitting, regularización, la diferencia entre métricas de regresión y clasificación.
- Algo de exposición a Azure — como mínimo, vocabulario de AZ-900. Grupos de recursos, RBAC, cuentas de almacenamiento y Key Vault no se volverán a explicar en el examen.
Si esos puntos te parecen inestables, dedica dos semanas a reforzarlos antes de comenzar el plan a continuación.
Semana 1: espacio de trabajo y computación
Familiarízate primero con la plataforma. Aún no leas la guía del examen de principio a fin.
- Abre una cuenta gratuita de Azure si no tienes una. Crea un espacio de trabajo de Azure ML a través del portal. Ten en cuenta lo que se crea junto a él: cuenta de almacenamiento, Key Vault, registro de contenedores, Application Insights. El examen pregunta sobre esto.
- Aprovisiona una instancia de computación (una pequeña — D2s_v3 está bien) y un clúster de computación con nodos mínimos = 0. Ten en cuenta que las instancias de computación se facturan incluso cuando están inactivas, pero los nodos del clúster escalan a cero. Esto se pregunta en el examen.
- Recorre la interfaz de usuario de Azure ML Studio. Haz clic en Datastores, Datasets / Data assets, Environments, Models, Endpoints. Aún no estás construyendo, solo estás familiarizándote con el diseño.
- Adjunta un notebook en la instancia de computación. Instala
azure-ai-ml(el paquete SDK v2 — noazureml-core, que es v1 y está obsoleto). Autentícate conDefaultAzureCredentialy crea unMLClient. Imprime el nombre del espacio de trabajo. Ese es tu "hola mundo."
Punto de control de fin de semana: puedes conectarte a tu espacio de trabajo desde un notebook en menos de 60 segundos sin consultar nada.
Semana 2: datos, entornos, trabajos
Ahora construirás cosas reales.
- Registra un CSV como un activo
Data(archivo URI o MLTable). Léelo desde un notebook usandoml_client.data.get(...). El examen valora la distinción entre los tipos de activos de datosuri_file,uri_folderymltable— memoriza el caso de uso para cada uno. - Construye un entorno personalizado. Puedes crear un
conda.yamlo usar un entorno curado más una dependencia pip adicional. Envía un trabajocommandque ejecute un script de entrenamiento (un clasificador scikit-learn de 30 líneas sobre el conjunto de datos que acabas de registrar). - Utiliza el autologging de MLflow en tu script (
mlflow.sklearn.autolog()y luego fit). Observa cómo aparecen las métricas y los artefactos en el trabajo. Compáralo con el registro manual conmlflow.log_metric(). - Envía el trabajo a tu clúster de computación en lugar de a una instancia de computación. Observa cómo el clúster se inicia desde 0 y luego se apaga.
Trampa a internalizar: en el SDK v2, los trabajos se envían a través de la función command de azure.ai.ml, no a través de ScriptRunConfig (eso era v1). El examen te presentará código estilo v1 en las opciones de respuesta incorrectas. Entrena tu ojo para detectarlo.
Semana 3: AutoML, HyperDrive, pipelines
Semana de ML más intensa.
- Ejecuta un trabajo de clasificación de AutoML desde el SDK contra el mismo conjunto de datos. Limítalo a 30 minutos y
max_trials=10para no gastar créditos. Revisa la tabla de clasificación. - Ejecuta un trabajo de sweep / HyperDrive sobre un script de entrenamiento personalizado. Prueba primero el muestreo
random, luegobayesian(que no admite la terminación temprana — esa es una pregunta de examen). - Investiga las políticas de terminación temprana: bandit, median stopping, truncation selection. Conoce la interfaz para cada una — en particular el alternador
slack_factoryslack_amountde bandit. - Construye un trabajo de pipeline con al menos dos componentes — un componente de preparación de datos y un componente de entrenamiento — conectados entre sí. Los pipelines no son un tema enorme en el examen, pero aparecen lo suficiente como para que no quieras estar adivinando el YAML el día del examen.
Punto de control de fin de semana: puedes describir en voz alta qué hacen los muestreos Random, Grid y Bayesian, cuándo usar cada uno y por qué Bayesian no se combina con bandit.
Semana 4: despliegue
Aquí es donde la mayoría de los candidatos pierden puntos.
- Registra un modelo a partir de la salida de un trabajo. Practica de ambas maneras: desde el SDK con
ml_client.models.create_or_update, y desde la interfaz de usuario de Studio. - Despliega el modelo en un managed online endpoint. Configura al menos dos despliegues detrás del mismo endpoint y divide el tráfico 90/10 entre ellos. Este es el patrón blue/green que Microsoft evalúa directamente.
- Despliega el mismo modelo en un batch endpoint. Puntúa una carpeta de archivos de entrada. Ten en cuenta que los batch endpoints no mantienen la computación inactiva; inician clústeres por invocación.
- Configura la monitorización de la deriva de datos en el despliegue. Configura una alerta de Application Insights. El examen preguntará sobre Model Monitor (el nuevo nombre de lo que antes se llamaba Data Drift Monitor en SDK v1) en al menos una pregunta.
Trampa: los managed online endpoints se facturan por la VM subyacente, independientemente de si envías tráfico o no. El examen establecerá un escenario en el que la respuesta más económica es un batch endpoint y las respuestas incorrectas predeterminan los online endpoints. Lee la pregunta buscando "las predicciones no necesitan ser en tiempo real" antes de elegir.
Semana 5: ML responsable y estudios de caso
Menos código, más lectura.
- Recorre el panel de IA Responsable de Microsoft para un modelo entrenado. Genera métricas de equidad, análisis de errores, valores de interpretabilidad del modelo (SHAP). El examen evalúa vocabulario, no profundidad de implementación.
- Lee sobre la privacidad diferencial en Azure ML —
azureml-opendp-smartnoiseexiste, pero el examen lo mantiene conceptual. - Realiza tu primer examen de práctica completo en condiciones de tiempo limitado. Dos estudios de caso seguidos te consumirán más de 30 minutos. Acostúmbrate al ritmo.
- Identifica las áreas débiles a partir de la puntuación de la práctica. Para la mayoría de los candidatos, estas son los detalles internos del despliegue o las políticas de optimización de hiperparámetros — regresa a las semanas 3 o 4.
Semana 6: repaso y envío
Realiza exámenes de práctica cada dos días. Después de cada uno, anota los servicios o conceptos en los que te equivocaste. Surgirán patrones, generalmente relacionados con los entornos (curados vs. personalizados vs. registrados), los tipos de activos de datos y cuál herramienta de monitoreo es la respuesta correcta (Application Insights vs. Azure Monitor vs. Log Analytics workspace).
Programa el examen para el final de la semana. Si obtienes más del 80% en dos exámenes de práctica consecutivos en condiciones de tiempo limitado, estás listo. Menos del 70% significa posponerlo otra semana — la repetición de $165 más el período de espera de 24 horas cuesta más que otros siete días.
Cómo encaja el DP-100 con el AI-102 y el DP-900
El DP-100 es la trayectoria para científicos de datos; el AI-102 es la trayectoria para ingenieros de IA. La superposición es pequeña. El DP-100 busca que entrenes y despliegues modelos personalizados en Azure ML; el AI-102 busca que conectes los servicios de Azure AI (Vision, Language, OpenAI) en aplicaciones. Si eres un científico de datos, el DP-100 por sí solo es suficiente. Si eres un ingeniero de software que construye características estilo Copilot, el AI-102 es más adecuado y el DP-100 es excesivo.
El DP-900 es un calentamiento amigable — útil si eres nuevo en los servicios de datos de Azure en general, redundante si ya has trabajado con Azure ML.
Cuando estés listo para practicar preguntas, explora el banco de preguntas del DP-100 en CertLabPro o inicia una simulación cronometrada. Las preguntas de estudio de caso son donde la presión del tiempo se hace sentir — practícalas contra el reloj, no en una lectura tranquila en una cafetería.