Guia — C1000-177 IBM Certified watsonx Data Scientist - Associate

Última revisão: junho de 2026

Uma referência rápida dos padrões arquiteturais que o exame C1000-177 avalia. Leia de cima a baixo ou pule para uma seção.

Avaliar o Problema de Negócio

Um stakeholder pede para "encontrar padrões em clientes" sem um resultado rotulado.

Enquadrar como não supervisionado (clustering / segmentação). Reservar a aprendizagem supervisionada para quando uma variável alvo rotulada existir.

Por quê: Nenhuma coluna alvo significa que não há nada para prever; forçar uma configuração supervisionada inventa um rótulo e vicia o resultado.

Decidir entre prever o churn (sim/não) e prever o gasto ($).

Churn é classificação binária; gasto é regressão. O tipo de dado do alvo impulsiona a tarefa e a família de métricas.

Por quê: Não corresponder a tarefa ao alvo produz métricas sem sentido — por exemplo, RMSE em um rótulo sim/não.

O negócio quer "reduzir fraude", mas nenhuma flag de fraude existe nos dados.

Definir o alvo antes de modelar — concordar com uma definição operacional de fraude e rotular registros históricos, ou tratá-lo como detecção de anomalias.

Por quê: Um objetivo vago sem um alvo mensurável não pode ser modelado; a definição do alvo é uma decisão de negócio, não técnica.

Escolher uma métrica de sucesso para um modelo de resposta de marketing.

Vincular a métrica ao valor de negócio — por exemplo, precisão/recall no orçamento da campanha, ou aumento esperado na receita — não apenas a acurácia bruta.

Por quê: A acurácia pode parecer alta enquanto o modelo perde os respondedores raros com os quais o negócio realmente se importa.

Solicitado para sequenciar um projeto de ciência de dados de ponta a ponta.

Seguir CRISP-DM: compreensão do negócio → compreensão dos dados → preparação dos dados → modelagem → avaliação → implantação.

Por quê: CRISP-DM é a metodologia à qual a IBM se alinha; a preparação de dados é iterativa e geralmente o maior esforço.

A solicitação é "relatar as vendas totais do último trimestre por região".

Resolver com agregação / relatórios de BI, não com um modelo. Nenhuma previsão é necessária.

Por quê: Pesquisas e agregações determinísticas exigem consultas, não machine learning; reconhecer isso evita o superdimensionamento.

O objetivo exige um atributo que a organização não coleta.

Avaliar a viabilidade com base nos dados disponíveis primeiro; reduzir o escopo do objetivo ou iniciar a coleta de dados antes de prometer um modelo.

Por quê: A disponibilidade dos dados limita o que é alcançável; assumir dados ideais leva a projetos inviáveis.

Realizar Análise Exploratória de Dados

Novo conjunto de dados tabular acabou de ser carregado em um notebook.

Começar com pandas `df.describe()`, `df.info()` e `df.head()` para ler contagens, dtypes, intervalos e nulos óbvios.

Por quê: Estatísticas resumidas revelam valores ausentes, dtypes incorretos e diferenças de escala antes de qualquer plotagem ou modelagem.

Precisa entender a forma de um único atributo numérico.

Usar um histograma ou plot KDE para a forma e um box plot para a dispersão/outliers.

Por quê: A forma da distribuição (assimetria, modalidade) impulsiona as escolhas posteriores de transformação e escala.

O atributo de renda tem uma longa cauda direita.

Sinalizá-lo como assimétrico à direita (média ≫ mediana); planejar uma transformação logarítmica ou de potência durante o pré-processamento.

Por quê: Entradas assimétricas distorcem modelos baseados em distância e variância; identificar a assimetria na EDA informa a correção.

Verificando relações entre muitos atributos numéricos.

Calcular uma matriz de correlação e visualizar como um mapa de calor; inspecionar pares com |r| acima de ~0.8.

Por quê: Alta correlação por pares sinaliza redundância e potencial multicolinearidade a serem abordadas antes dos modelos lineares.

O box plot mostra pontos muito além dos "whiskers".

Quantificar com a regra IQR (abaixo de Q1−1.5·IQR ou acima de Q3+1.5·IQR) ou z-score; investigar antes de deletar.

Por quê: Outliers podem ser erros ou eventos raros genuínos — a EDA os distingue para que você não descarte sinais reais.

Explorando se dois atributos numéricos se movem juntos.

Usar um scatter plot; adicionar uma linha de tendência ou colorir por classe para revelar direção, força e agrupamentos.

Por quê: Scatter plots expõem relações não-lineares que um único coeficiente de correlação esconde.

Criando o perfil de uma coluna categórica com cardinalidade desconhecida.

Usar `value_counts()` e um gráfico de barras para ver as frequências dos níveis e as categorias raras.

Por quê: Alta cardinalidade e níveis raros alteram a estratégia de codificação e alertam para o risco de overfitting.

Alvo binário com balanço de classe desconhecido.

Plotar a distribuição do alvo cedo; observar a proporção da classe positiva (por exemplo, 3% de fraude).

Por quê: O desequilíbrio descoberto na EDA dita a reamostragem e a escolha da métrica (não a acurácia) a jusante.

Nulos espalhados por várias colunas.

Quantificar nulos por coluna (`df.isnull().sum()`) e inspecionar se a ausência é aleatória ou sistemática.

Por quê: Padrões de "ausência não aleatória" podem conter sinal; o mecanismo impulsiona a decisão de imputação.

O gerente pergunta "o que a EDA nos disse?" antes de modelar.

Resumir problemas de qualidade de dados, atributos preditivos candidatos e hipóteses a serem testadas — não apenas gráficos.

Por quê: O propósito da EDA é formar hipóteses e guiar as escolhas de pré-processamento/atributos, não produzir decoração.

Ferramentas e Técnicas de Desenvolvimento

Organizando um esforço de ciência de dados dentro do watsonx.

Criar um projeto no Watson Studio; adicionar dados, notebooks e modelos como ativos compartilhando um armazenamento e tempo de execução comuns.

Por quê: Projetos são a unidade de colaboração, controle de acesso e linhagem de ativos no watsonx.

Referência

Escolher onde o código Python é executado no Watson Studio.

Anexar o notebook a um ambiente/runtime dimensionado para a carga de trabalho; liberá-lo quando ocioso para controlar o custo de computação.

Por quê: Tempos de execução consomem unidades de capacidade; o dimensionamento correto equilibra desempenho e gastos.

Precisa de um modelo de linha de base robusto rapidamente com tempo limitado.

Executar um experimento AutoAI; ele seleciona algoritmos automaticamente, gera pipelines e os classifica em um leaderboard.

Por quê: O AutoAI acelera a definição da linha de base e a engenharia de atributos; você ainda valida e refina o melhor pipeline.

Referência

Stakeholders preferem um pipeline visual e de baixo código em vez de notebooks.

Construir um fluxo no SPSS Modeler — nós de arrastar e soltar para importação, preparação, modelagem e pontuação.

Por quê: O Modeler é adequado para equipes que precisam de pipelines transparentes e com pouco código; notebooks são adequados para personalização "code-first".

Escolhendo bibliotecas para uma análise "code-first".

Usar pandas/NumPy para dados, scikit-learn para modelagem, matplotlib/seaborn para plots — a pilha padrão do watsonx.

Por quê: Estas bibliotecas são pré-instaladas nos tempos de execução do Watson Studio e são assumidas pelo exame.

Um colega de equipe deve reexecutar sua análise no próximo trimestre.

Versionar notebooks e dados como ativos do projeto, fixar versões de bibliotecas e documentar o tempo de execução.

Por quê: A reprodutibilidade depende do código, dados e ambiente capturados — não de uma sessão local única.

Pré-processamento e Engenharia de Atributos

Escalonar atributos antes de dividir em treino/teste.

Dividir primeiro, depois ajustar transformadores apenas no conjunto de treino e aplicar (`transform`) no conjunto de teste. Envolver as etapas em um scikit-learn Pipeline.

Por quê: Ajustar no conjunto de dados completo vaza estatísticas do conjunto de teste para o treinamento e inflaciona as pontuações de avaliação.

Uma coluna numérica tem 8% de valores ausentes.

Imputar com a mediana (robusta à assimetria) via `SimpleImputer`; considerar uma flag de indicador de ausência.

Por quê: A mediana resiste a outliers; um indicador preserva o sinal quando a própria ausência é informativa.

Uma coluna categórica tem lacunas.

Imputar com a moda ou uma categoria explícita "Desconhecido" / "Ausente".

Por quê: Uma categoria explícita mantém o padrão de ausência como um sinal utilizável, em vez de descartar linhas.

Atributo nominal de baixa cardinalidade (por exemplo, região com 5 valores).

Aplicar one-hot encoding (`OneHotEncoder`); descartar uma coluna se o modelo não precisar de colinearidade.

Por quê: One-hot evita impor uma ordem falsa em categorias nominais; descartar um nível evita a armadilha das dummies.

Atributo tem uma ordem natural (baixo / médio / alto).

Usar codificação ordinal que preserva a ordem.

Por quê: One-hot descartaria a ordenação; a codificação ciente da ordem permite que o modelo a explore.

Categórico com milhares de níveis (por exemplo, código postal).

Usar codificação de alvo/frequência ou agrupamento em vez de one-hot.

Por quê: One-hot explode a dimensionalidade; a codificação de alvo é compacta, mas deve ser ajustada dentro do CV para evitar vazamento.

Atributos abrangem escalas muito diferentes antes de um modelo baseado em distância.

StandardScaler (média zero, variância unitária) para atributos aproximadamente Gaussianos; MinMaxScaler para limitar a [0,1].

Por quê: KNN, SVM, PCA e gradiente descendente são sensíveis à escala; modelos de árvore não são.

Um atributo positivo assimétrico à direita prejudica um modelo linear.

Aplicar uma transformação logarítmica ou de potência Box-Cox/Yeo-Johnson para comprimir a cauda.

Por quê: Reduzir a assimetria estabiliza a variância e lineariza as relações para modelos lineares e baseados em distância.

Deseja capturar um efeito de idade não-linear em um modelo linear.

Agrupar o atributo contínuo em faixas (largura igual ou quantil) e tratar como categórico.

Por quê: O agrupamento permite que modelos lineares capturem mudanças de passo, ao custo de alguma perda de informação.

Valores extremos genuínos desestabilizam o treinamento do modelo.

Limitar/winsorizar em um percentil ou usar um escalonador robusto; deletar apenas erros confirmados.

Por quê: Limitar o valor de extremos mantém os registros; a exclusão perde o sinal real de eventos raros.

A classe positiva é apenas 3% das linhas de treinamento.

Reamostrar — SMOTE/superamostrar a minoria ou subamostrar a maioria — ajustando apenas na dobra de treinamento; ou definir pesos de classe.

Por quê: Balancear o conjunto de teste daria uma leitura falsa; a reamostragem pertence ao pipeline de treinamento.

Timestamps e valores brutos têm desempenho inferior.

Engenhar atributos — dia da semana, tempo desde o último evento, proporções, agregados por cliente.

Por quê: Atributos derivados informados pelo domínio frequentemente adicionam mais valor do que trocar o algoritmo.

Centenas de atributos, muitos redundantes ou ruidosos.

Selecionar via métodos de filtro (correlação/informação mútua), wrapper (RFE) ou embutidos (importâncias L1/de árvore).

Por quê: Menos atributos e mais relevantes reduzem o overfitting, o custo de treinamento e melhoram a interpretabilidade.

Muitos atributos numéricos correlacionados atrasam o treinamento e causam overfitting.

Aplicar PCA para projetar nos principais componentes que capturam a maior parte da variância; escalar primeiro.

Por quê: PCA remove a multicolinearidade e comprime a dimensionalidade, trocando alguma interpretabilidade por estabilidade.

Várias etapas de pré-processamento devem ser aplicadas identicamente no treinamento e na produção.

Encadear imputadores, codificadores e escalonadores em um `Pipeline` / `ColumnTransformer` ajustado apenas nos dados de treinamento.

Por quê: Um único pipeline ajustado garante transformações consistentes e previne vazamento entre as dobras.

Referência

Uma coluna de data bruta adiciona pouco valor preditivo.

Decompor em ano, mês, dia da semana, é-fim-de-semana e codificações cíclicas sin/cos.

Por quê: Modelos não conseguem ler a semântica do calendário de um timestamp bruto; partes explícitas expõem a sazonalidade.

Seleção, Treinamento e Avaliação de Modelos

Precisa de uma estimativa honesta da generalização.

Dividir em treino / validação / teste; ajustar na validação, relatar os números finais no conjunto de teste intocado.

Por quê: Reutilizar o conjunto de teste para ajuste vaza informações e superestima o desempenho no mundo real.

Conjunto de dados pequeno torna uma única divisão não confiável.

Usar validação cruzada k-fold (estratificada para classificação) para calcular a média do desempenho entre as dobras.

Por quê: CV fornece uma estimativa de menor variância e usa todos os dados para treinamento e validação.

Acurácia de treino alta, acurácia de teste baixa.

Diagnosticar overfitting (alta variância); adicionar regularização, simplificar o modelo ou obter mais dados.

Por quê: O oposto — ambos os scores baixos — é underfitting (alto viés), necessitando de um modelo ou atributos mais ricos.

Modelo de fraude relata 97% de acurácia, mas perde a maioria das fraudes.

Usar precisão, recall, F1 e ROC-AUC / PR-AUC em vez de acurácia.

Por quê: Em alvos desbalanceados, uma previsão constante da maioria pontua alta acurácia enquanto é inútil.

Precisa ver onde um classificador comete erros.

Ler a matriz de confusão; derivar precisão (custo de FP) e recall (custo de FN) a partir dela.

Por quê: O limiar correto depende se os falsos positivos ou falsos negativos são mais custosos.

Avaliando um modelo de alvo contínuo.

Relatar RMSE/MAE para magnitude do erro e R² para variância explicada; escolher RMSE quando erros grandes importam mais.

Por quê: RMSE penaliza erros grandes mais do que MAE; R² sozinho pode enganar em ajustes não lineares.

Parâmetros de modelo padrão deixam o desempenho aquém.

Ajustar com busca em grade ou busca aleatória sob validação cruzada; preferir a busca aleatória para espaços de busca grandes.

Por quê: A busca aleatória encontra boas regiões mais rapidamente do que as grades exaustivas quando muitos parâmetros interagem.

Comparando vários pipelines candidatos do AutoAI.

Classificar no leaderboard do AutoAI pela métrica escolhida, depois validar o melhor pipeline em dados reservados antes da implantação.

Por quê: O leaderboard acelera a seleção, mas a escolha final deve ser consistente em dados intocados.