Azure DP-100: um plano de estudo de 6 semanas para o Data Scientist Associate
Um plano realista de 6 semanas para o DP-100, cobrindo Azure ML SDK v2, MLflow, designer e implantação — além das armadilhas que reprovam candidatos de outra forma preparados.
DP-100 é o exame Designing and Implementing a Data Science Solution on Azure. US$ 165, 40-60 questões em 100 minutos (a contagem varia devido aos estudos de caso), uma ou duas seções de estudo de caso, pontuação de aprovação escalonada de 700/1000. É a certificação associada baseada em função para cientistas de dados que trabalham com Azure Machine Learning.
Seis semanas com 8 a 10 horas por semana são suficientes se você já conhece Python, scikit-learn e conceitos básicos de ML. Se você está aprendendo ML do zero, o DP-100 ainda não é o exame certo — faça um curso de treinamento de modelos primeiro. O exame testa o Azure ML, não se você entende uma matriz de confusão.
O que o DP-100 realmente testa
O guia de exame atual (atualizado em 2024 para remover o SDK v1 e focar totalmente no v2) se divide aproximadamente em:
- Gerenciar recursos do Azure ML (workspaces, compute, datastores, environments) — cerca de 25%
- Executar experimentos e treinar modelos (jobs, rastreamento MLflow, AutoML, hyperdrive) — cerca de 25%
- Implantar e operacionalizar soluções de ML (managed online endpoints, batch endpoints, monitoring) — cerca de 25%
- Implementar ML responsável (fairness, interpretability, differential privacy) — cerca de 25%
O que isso significa na prática: você precisa ser fluente com o Azure ML Python SDK v2, sentir-se confortável no Azure ML Studio (designer mais notebooks) e ter clareza sobre as diferenças entre rastreamento MLflow no Azure ML, AutoML para dados tabulares / imagem / PNL, e trabalhos HyperDrive / sweep para ajuste de hiperparâmetros. A parte de implantação exige que você conheça os managed online endpoints (em tempo real, com divisão de tráfego e blue-green) versus batch endpoints (pontuação em escala).
Pré-requisitos que você realmente precisa
Antes da semana 1, você deve estar apto em:
- Python, confortavelmente. Leitura e escrita de funções, classes, decorators, ambientes virtuais.
- pandas + numpy em um nível funcional.
- scikit-learn, incluindo
Pipeline,train_test_split, regressores e classificadores básicos, eColumnTransformer. - ML Conceitual: divisão train/validation/test, validação cruzada, overfitting, regularização, a diferença entre métricas de regressão e classificação.
- Alguma exposição ao Azure — no mínimo, vocabulário do AZ-900. Grupos de recursos, RBAC, contas de armazenamento e Key Vault não serão reexplicados no exame.
Se esses pontos parecerem fracos, gaste duas semanas para reforçá-los antes de iniciar o plano abaixo.
Semana 1: workspace e compute
Coloque as mãos na plataforma primeiro. Não leia o guia do exame de ponta a ponta ainda.
- Crie uma conta gratuita do Azure se ainda não tiver uma. Crie um workspace do Azure ML através do portal. Observe o que é criado junto: storage account, Key Vault, container registry, Application Insights. O exame pergunta sobre isso.
- Provisione uma compute instance (uma pequena — D2s_v3 está ok) e um compute cluster com min nodes = 0. Observe que as compute instances são cobradas mesmo quando ociosas, mas os nós do cluster escalam para zero. Isso está no exame.
- Explore a UI do Azure ML Studio. Clique em Datastores, Datasets / Data assets, Environments, Models, Endpoints. Você ainda não está construindo — está apenas se familiarizando com o layout.
- Anexe um notebook na compute instance. Instale
azure-ai-ml(o pacote SDK v2 — nãoazureml-core, que é v1 e obsoleto). Autentique comDefaultAzureCredentiale crie umMLClient. Imprima o nome do workspace. Esse é o seu "hello world."
Check-point de fim de semana: você consegue se conectar ao seu workspace de um notebook em menos de 60 segundos sem precisar consultar nada.
Semana 2: dados, environments, jobs
Agora você constrói coisas reais.
- Registre um CSV como um asset
Data(URI file ou MLTable). Leia-o de um notebook usandoml_client.data.get(...). O exame adora a distinção entre os tipos de asset de dadosuri_file,uri_folderemltable— memorize o caso de uso para cada um. - Crie um environment personalizado. Ou crie um
conda.yamlou use um environment curado mais uma dependência pip extra. Envie umcommandjob que executa um script de treinamento (um classificador scikit-learn de 30 linhas no dataset que você acabou de registrar). - Use o autologging do MLflow em seu script (
mlflow.sklearn.autolog()e depois fit). Observe as métricas e artefatos aparecerem no job. Compare com o log manual usandomlflow.log_metric(). - Envie o job para o seu compute cluster em vez de uma compute instance. Observe o cluster iniciar do 0 e depois desligar.
Armadilha para internalizar: no SDK v2, os jobs são enviados através da função command de azure.ai.ml, não via ScriptRunConfig (isso era v1). O exame apresentará código no estilo v1 nas opções de resposta erradas. Treine seus olhos para identificá-lo.
Semana 3: AutoML, HyperDrive, pipelines
Semana de ML mais intensa.
- Execute um job de classificação AutoML a partir do SDK no mesmo dataset. Limite-o a 30 minutos e
max_trials=10para não gastar créditos. Olhe para o leaderboard. - Execute um job de sweep / HyperDrive sobre um script de treinamento personalizado. Tente a amostragem
randomprimeiro, depois abayesian(que não suporta early termination — isso é uma pergunta de exame). - Leia sobre as políticas de early termination: bandit, median stopping, truncation selection. Conheça a interface para cada uma — em particular, o toggle
slack_factoreslack_amountdo bandit. - Crie um pipeline job com pelo menos dois componentes — um componente de preparação de dados e um componente de treinamento — conectados. Pipelines não são um tópico enorme no exame, mas aparecem o suficiente para que você não queira estar adivinhando o YAML no dia da prova.
Check-point de fim de semana: você consegue descrever em voz alta o que as amostragens Random, Grid e Bayesian fazem, quando usar cada uma e por que a Bayesian não se combina com o bandit.
Semana 4: deployment
É aqui que a maioria dos candidatos perde pontos.
- Registre um modelo a partir da saída de um job. Pratique de ambas as maneiras: a partir do SDK com
ml_client.models.create_or_update, e a partir da UI do estúdio. - Implante o modelo em um managed online endpoint. Configure pelo menos duas implantações por trás do mesmo endpoint e divida o tráfego 90/10 entre elas. Este é o padrão blue/green que a Microsoft testa diretamente.
- Implante o mesmo modelo em um batch endpoint. Pontue uma pasta de arquivos de entrada. Observe que os batch endpoints não mantêm o compute ocioso; eles inicializam clusters a cada invocação.
- Configure o monitoramento de data drift na implantação. Configure um alerta do Application Insights. O exame perguntará sobre o Model Monitor (o novo nome para o que costumava ser chamado de Data Drift Monitor no SDK v1) em pelo menos uma questão.
Armadilha: os managed online endpoints são cobrados pela VM subjacente, independentemente de você estar enviando tráfego ou não. O exame apresentará um cenário em que a resposta mais barata é um batch endpoint e as respostas erradas sempre apontarão para online endpoints. Leia a pergunta para "as previsões não precisam ser em tempo real" antes de escolher.
Semana 5: ML responsável e estudos de caso
Menos código, mais leitura.
- Analise o dashboard de Responsible AI da Microsoft para um modelo treinado. Gere métricas de fairness, análise de erros, valores de interpretabilidade do modelo (SHAP). O exame testa vocabulário, não a profundidade da implementação.
- Leia sobre privacidade diferencial no Azure ML —
azureml-opendp-smartnoiseexiste, mas o exame o mantém conceitual. - Faça seu primeiro exame prático completo sob condições de tempo. Dois estudos de caso seguidos consumirãomais de 30 minutos. Acostume-se ao ritmo.
- Identifique domínios fracos a partir da pontuação da prática. Para a maioria dos candidatos, isso são os detalhes de deployment ou as políticas de ajuste de hiperparâmetros — volte para as semanas 3 ou 4.
Semana 6: prática e aprovação
Faça exames práticos dia sim, dia não. Após cada um, anote os serviços ou conceitos que você errou. Padrões surgirão — geralmente em torno de environments (curados vs. personalizados vs. registrados), tipos de data assets e qual ferramenta de monitoramento é a resposta certa (Application Insights vs. Azure Monitor vs. Log Analytics workspace).
Agende o exame para o final da semana. Se você estiver pontuando acima de 80% em dois exames práticos consecutivos sob condições de tempo, você está pronto. Abaixo de 70% significa empurrar por mais uma semana — a nova tentativa de US$ 165 mais o período de espera de 24 horas custa mais do que outros sete dias.
Como o DP-100 se encaixa com o AI-102 e o DP-900
O DP-100 é a trilha para cientistas de dados; o AI-102 é a trilha para engenheiros de IA. A sobreposição é pequena. O DP-100 quer que você treine e implante modelos personalizados no Azure ML; o AI-102 quer que você conecte serviços de IA do Azure (Vision, Language, OpenAI) em aplicações. Se você é um cientista de dados, o DP-100 sozinho é suficiente. Se você é um engenheiro de software construindo recursos no estilo Copilot, o AI-102 é a melhor opção e o DP-100 é um exagero.
O DP-900 é um aquecimento amigável — útil se você é novo em serviços de dados do Azure em geral, redundante se você já trabalhou com Azure ML.
Quando estiver pronto para praticar questões, explore o banco de questões DP-100 no CertLabPro ou inicie uma simulação cronometrada. As questões de estudo de caso são onde a pressão do tempo aperta — pratique-as sob o relógio, não em uma leitura casual à tarde em uma cafeteria.