Azure DP-100: um plano de estudo de 6 semanas para o Data Scientist Associate

Um plano realista de 6 semanas para o DP-100, cobrindo Azure ML SDK v2, MLflow, designer e implantação — além das armadilhas que reprovam candidatos de outra forma preparados.

Por CertLabPro TeamMarch 25, 20268 min read

DP-100 é o exame Designing and Implementing a Data Science Solution on Azure. US$ 165, 40-60 questões em 100 minutos (a contagem varia devido aos estudos de caso), uma ou duas seções de estudo de caso, pontuação de aprovação escalonada de 700/1000. É a certificação associada baseada em função para cientistas de dados que trabalham com Azure Machine Learning.

Seis semanas com 8 a 10 horas por semana são suficientes se você já conhece Python, scikit-learn e conceitos básicos de ML. Se você está aprendendo ML do zero, o DP-100 ainda não é o exame certo — faça um curso de treinamento de modelos primeiro. O exame testa o Azure ML, não se você entende uma matriz de confusão.

O que o DP-100 realmente testa

O guia de exame atual (atualizado em 2024 para remover o SDK v1 e focar totalmente no v2) se divide aproximadamente em:

Gerenciar recursos do Azure ML (workspaces, compute, datastores, environments) — cerca de 25%
Executar experimentos e treinar modelos (jobs, rastreamento MLflow, AutoML, hyperdrive) — cerca de 25%
Implantar e operacionalizar soluções de ML (managed online endpoints, batch endpoints, monitoring) — cerca de 25%
Implementar ML responsável (fairness, interpretability, differential privacy) — cerca de 25%

O que isso significa na prática: você precisa ser fluente com o Azure ML Python SDK v2, sentir-se confortável no Azure ML Studio (designer mais notebooks) e ter clareza sobre as diferenças entre rastreamento MLflow no Azure ML, AutoML para dados tabulares / imagem / PNL, e trabalhos HyperDrive / sweep para ajuste de hiperparâmetros. A parte de implantação exige que você conheça os managed online endpoints (em tempo real, com divisão de tráfego e blue-green) versus batch endpoints (pontuação em escala).

Pré-requisitos que você realmente precisa

Antes da semana 1, você deve estar apto em:

Python, confortavelmente. Leitura e escrita de funções, classes, decorators, ambientes virtuais.
pandas + numpy em um nível funcional.
scikit-learn, incluindo Pipeline, train_test_split, regressores e classificadores básicos, e ColumnTransformer.
ML Conceitual: divisão train/validation/test, validação cruzada, overfitting, regularização, a diferença entre métricas de regressão e classificação.
Alguma exposição ao Azure — no mínimo, vocabulário do AZ-900. Grupos de recursos, RBAC, contas de armazenamento e Key Vault não serão reexplicados no exame.

Se esses pontos parecerem fracos, gaste duas semanas para reforçá-los antes de iniciar o plano abaixo.

Semana 1: workspace e compute

Coloque as mãos na plataforma primeiro. Não leia o guia do exame de ponta a ponta ainda.

Crie uma conta gratuita do Azure se ainda não tiver uma. Crie um workspace do Azure ML através do portal. Observe o que é criado junto: storage account, Key Vault, container registry, Application Insights. O exame pergunta sobre isso.
Provisione uma compute instance (uma pequena — D2s_v3 está ok) e um compute cluster com min nodes = 0. Observe que as compute instances são cobradas mesmo quando ociosas, mas os nós do cluster escalam para zero. Isso está no exame.
Explore a UI do Azure ML Studio. Clique em Datastores, Datasets / Data assets, Environments, Models, Endpoints. Você ainda não está construindo — está apenas se familiarizando com o layout.
Anexe um notebook na compute instance. Instale azure-ai-ml (o pacote SDK v2 — não azureml-core, que é v1 e obsoleto). Autentique com DefaultAzureCredential e crie um MLClient. Imprima o nome do workspace. Esse é o seu "hello world."

Check-point de fim de semana: você consegue se conectar ao seu workspace de um notebook em menos de 60 segundos sem precisar consultar nada.

Semana 2: dados, environments, jobs

Agora você constrói coisas reais.

Registre um CSV como um asset Data (URI file ou MLTable). Leia-o de um notebook usando ml_client.data.get(...). O exame adora a distinção entre os tipos de asset de dados uri_file, uri_folder e mltable — memorize o caso de uso para cada um.
Crie um environment personalizado. Ou crie um conda.yaml ou use um environment curado mais uma dependência pip extra. Envie um command job que executa um script de treinamento (um classificador scikit-learn de 30 linhas no dataset que você acabou de registrar).
Use o autologging do MLflow em seu script (mlflow.sklearn.autolog() e depois fit). Observe as métricas e artefatos aparecerem no job. Compare com o log manual usando mlflow.log_metric().
Envie o job para o seu compute cluster em vez de uma compute instance. Observe o cluster iniciar do 0 e depois desligar.

Armadilha para internalizar: no SDK v2, os jobs são enviados através da função command de azure.ai.ml, não via ScriptRunConfig (isso era v1). O exame apresentará código no estilo v1 nas opções de resposta erradas. Treine seus olhos para identificá-lo.

Semana 3: AutoML, HyperDrive, pipelines

Semana de ML mais intensa.

Execute um job de classificação AutoML a partir do SDK no mesmo dataset. Limite-o a 30 minutos e max_trials=10 para não gastar créditos. Olhe para o leaderboard.
Execute um job de sweep / HyperDrive sobre um script de treinamento personalizado. Tente a amostragem random primeiro, depois a bayesian (que não suporta early termination — isso é uma pergunta de exame).
Leia sobre as políticas de early termination: bandit, median stopping, truncation selection. Conheça a interface para cada uma — em particular, o toggle slack_factor e slack_amount do bandit.
Crie um pipeline job com pelo menos dois componentes — um componente de preparação de dados e um componente de treinamento — conectados. Pipelines não são um tópico enorme no exame, mas aparecem o suficiente para que você não queira estar adivinhando o YAML no dia da prova.

Check-point de fim de semana: você consegue descrever em voz alta o que as amostragens Random, Grid e Bayesian fazem, quando usar cada uma e por que a Bayesian não se combina com o bandit.

Semana 4: deployment

É aqui que a maioria dos candidatos perde pontos.

Registre um modelo a partir da saída de um job. Pratique de ambas as maneiras: a partir do SDK com ml_client.models.create_or_update, e a partir da UI do estúdio.
Implante o modelo em um managed online endpoint. Configure pelo menos duas implantações por trás do mesmo endpoint e divida o tráfego 90/10 entre elas. Este é o padrão blue/green que a Microsoft testa diretamente.
Implante o mesmo modelo em um batch endpoint. Pontue uma pasta de arquivos de entrada. Observe que os batch endpoints não mantêm o compute ocioso; eles inicializam clusters a cada invocação.
Configure o monitoramento de data drift na implantação. Configure um alerta do Application Insights. O exame perguntará sobre o Model Monitor (o novo nome para o que costumava ser chamado de Data Drift Monitor no SDK v1) em pelo menos uma questão.

Armadilha: os managed online endpoints são cobrados pela VM subjacente, independentemente de você estar enviando tráfego ou não. O exame apresentará um cenário em que a resposta mais barata é um batch endpoint e as respostas erradas sempre apontarão para online endpoints. Leia a pergunta para "as previsões não precisam ser em tempo real" antes de escolher.

Semana 5: ML responsável e estudos de caso

Menos código, mais leitura.

Analise o dashboard de Responsible AI da Microsoft para um modelo treinado. Gere métricas de fairness, análise de erros, valores de interpretabilidade do modelo (SHAP). O exame testa vocabulário, não a profundidade da implementação.
Leia sobre privacidade diferencial no Azure ML — azureml-opendp-smartnoise existe, mas o exame o mantém conceitual.
Faça seu primeiro exame prático completo sob condições de tempo. Dois estudos de caso seguidos consumirãomais de 30 minutos. Acostume-se ao ritmo.
Identifique domínios fracos a partir da pontuação da prática. Para a maioria dos candidatos, isso são os detalhes de deployment ou as políticas de ajuste de hiperparâmetros — volte para as semanas 3 ou 4.

Semana 6: prática e aprovação

Faça exames práticos dia sim, dia não. Após cada um, anote os serviços ou conceitos que você errou. Padrões surgirão — geralmente em torno de environments (curados vs. personalizados vs. registrados), tipos de data assets e qual ferramenta de monitoramento é a resposta certa (Application Insights vs. Azure Monitor vs. Log Analytics workspace).

Agende o exame para o final da semana. Se você estiver pontuando acima de 80% em dois exames práticos consecutivos sob condições de tempo, você está pronto. Abaixo de 70% significa empurrar por mais uma semana — a nova tentativa de US$ 165 mais o período de espera de 24 horas custa mais do que outros sete dias.

Como o DP-100 se encaixa com o AI-102 e o DP-900

O DP-100 é a trilha para cientistas de dados; o AI-102 é a trilha para engenheiros de IA. A sobreposição é pequena. O DP-100 quer que você treine e implante modelos personalizados no Azure ML; o AI-102 quer que você conecte serviços de IA do Azure (Vision, Language, OpenAI) em aplicações. Se você é um cientista de dados, o DP-100 sozinho é suficiente. Se você é um engenheiro de software construindo recursos no estilo Copilot, o AI-102 é a melhor opção e o DP-100 é um exagero.

O DP-900 é um aquecimento amigável — útil se você é novo em serviços de dados do Azure em geral, redundante se você já trabalhou com Azure ML.

Quando estiver pronto para praticar questões, explore o banco de questões DP-100 no CertLabPro ou inicie uma simulação cronometrada. As questões de estudo de caso são onde a pressão do tempo aperta — pratique-as sob o relógio, não em uma leitura casual à tarde em uma cafeteria.

Certificações relacionadas