Guía — C1000-177 IBM Certified watsonx Data Scientist - Associate

Última revisión: junio de 2026

Una referencia escaneable de patrones arquitectónicos que evalúa el examen C1000-177. Lee de arriba a abajo o salta a una sección.

Evaluar el Problema de Negocio

Un interesado pide "encontrar patrones en los clientes" sin un resultado etiquetado.

Enfóquelo como no supervisado (agrupamiento / segmentación). Reserve el aprendizaje supervisado para cuando exista una variable objetivo etiquetada.

Por qué: Ninguna columna objetivo significa que no hay nada que predecir; forzar una configuración supervisada inventa una etiqueta y sesga el resultado.

Decidir entre predecir la deserción (sí/no) y predecir el gasto ($).

La deserción es clasificación binaria; el gasto es regresión. El tipo de datos del objetivo impulsa la tarea y la familia de métricas.

Por qué: No hacer coincidir la tarea con el objetivo produce métricas sin sentido — p. ej. RMSE en una etiqueta sí/no.

La empresa quiere "reducir el fraude" pero no existe una bandera de fraude en los datos.

Defina el objetivo antes del modelado — acuerde una definición operativa de fraude y etiquete los registros históricos, o trátelo como detección de anomalías.

Por qué: Un objetivo vago sin una meta medible no puede ser modelado; la definición del objetivo es una decisión de negocio, no técnica.

Elegir una métrica de éxito para un modelo de respuesta de marketing.

Vincule la métrica al valor de negocio — p. ej. precisión/exhaustividad en el presupuesto de la campaña, o el aumento esperado de los ingresos — no solo la precisión bruta.

Por qué: La precisión puede parecer alta mientras que el modelo pasa por alto a los respondedores raros que realmente le importan al negocio.

Se pide secuenciar un proyecto de ciencia de datos de principio a fin.

Siga CRISP-DM: comprensión del negocio → comprensión de los datos → preparación de los datos → modelado → evaluación → despliegue.

Por qué: CRISP-DM es la metodología a la que se alinea IBM; la preparación de datos es iterativa y típicamente el mayor esfuerzo.

La solicitud es "reportar las ventas totales del último trimestre por región".

Resuelva con agregación / informes de BI, no con un modelo. No se requiere predicción.

Por qué: Las búsquedas y agregaciones determinísticas necesitan consultas, no aprendizaje automático; reconocer esto evita la sobreingeniería.

El objetivo necesita una característica que la organización no recopila.

Evalúe la viabilidad con los datos disponibles primero; reduzca el alcance del objetivo o inicie la recopilación de datos antes de prometer un modelo.

Por qué: La disponibilidad de datos limita lo que es alcanzable; asumir datos ideales lleva a proyectos inviables.

Realizar Análisis Exploratorio de Datos

Nuevo conjunto de datos tabular recién cargado en un notebook.

Comience con pandas `df.describe()`, `df.info()` y `df.head()` para leer recuentos, tipos de datos, rangos y nulos obvios.

Por qué: Las estadísticas resumidas revelan valores faltantes, tipos de datos incorrectos y diferencias de escala antes de cualquier trazado o modelado.

Necesidad de comprender la forma de una sola característica numérica.

Utilice un histograma o un gráfico KDE para la forma y un diagrama de caja para la dispersión/valores atípicos.

Por qué: La forma de la distribución (asimetría, modalidad) impulsa las decisiones posteriores de transformación y escalado.

La característica de ingresos tiene una larga cola derecha.

Marque como asimétrica a la derecha (media ≫ mediana); planifique una transformación logarítmica o de potencia durante el preprocesamiento.

Por qué: Las entradas asimétricas distorsionan los modelos basados en distancia y varianza; identificar la asimetría en el EDA informa la solución.

Comprobación de relaciones entre muchas características numéricas.

Calcule una matriz de correlación y visualícela como un mapa de calor; inspeccione pares con |r| por encima de ~0.8.

Por qué: Una alta correlación por pares señala redundancia y posible multicolinealidad a abordar antes de los modelos lineales.

El diagrama de caja muestra puntos mucho más allá de los bigotes.

Cuantifique con la regla del IQR (por debajo de Q1−1.5·IQR o por encima de Q3+1.5·IQR) o la puntuación z; investigue antes de eliminar.

Por qué: Los valores atípicos pueden ser errores o eventos raros genuinos — EDA los distingue para que no deseche una señal real.

Explorando si dos características numéricas se mueven juntas.

Utilice un diagrama de dispersión; añada una línea de tendencia o matiz por clase para revelar dirección, fuerza y agrupaciones.

Por qué: Los diagramas de dispersión exponen relaciones no lineales que un solo coeficiente de correlación oculta.

Perfilando una columna categórica con cardinalidad desconocida.

Utilice `value_counts()` y un gráfico de barras para ver las frecuencias de los niveles y las categorías raras.

Por qué: La alta cardinalidad y los niveles raros cambian la estrategia de codificación y advierten del riesgo de sobreajuste.

Objetivo binario con equilibrio de clases desconocido.

Trace la distribución del objetivo tempranamente; anote la proporción de la clase positiva (p. ej. 3% de fraude).

Por qué: El desequilibrio descubierto en el EDA dicta el remuestreo y la elección de métricas (no la precisión) en etapas posteriores.

Nulos dispersos en varias columnas.

Cuantifique los nulos por columna (`df.isnull().sum()`) e inspeccione si la falta de datos es aleatoria o sistemática.

Por qué: Los patrones de "ausencia no aleatoria" pueden contener señal; el mecanismo impulsa la decisión de imputación.

El gerente pregunta "¿qué nos dijo el EDA?" antes de modelar.

Resuma los problemas de calidad de los datos, las características predictivas candidatas y las hipótesis a probar — no solo gráficos.

Por qué: El propósito del EDA es formar hipótesis y guiar las elecciones de preprocesamiento/características, no producir decoración.

Herramientas y Técnicas de Desarrollo

Organizar un esfuerzo de ciencia de datos dentro de watsonx.

Cree un proyecto de Watson Studio; añada datos, notebooks y modelos como activos que comparten un almacenamiento y tiempo de ejecución comunes.

Por qué: Los proyectos son la unidad de colaboración, control de acceso y linaje de activos en watsonx.

Referencia

Elegir dónde se ejecuta el código Python en Watson Studio.

Adjunte el notebook a un entorno/tiempo de ejecución dimensionado para la carga de trabajo; libérelo cuando esté inactivo para controlar el costo de computación.

Por qué: Los tiempos de ejecución consumen unidades de capacidad; el dimensionamiento adecuado equilibra el rendimiento y el gasto.

Necesita un modelo de línea base robusto rápidamente con tiempo limitado.

Ejecute un experimento de AutoAI; selecciona automáticamente algoritmos, genera pipelines y los clasifica en una tabla de clasificación.

Por qué: AutoAI acelera la definición de la línea base y la ingeniería de características; usted aún valida y refina el mejor pipeline.

Referencia

Los interesados prefieren un pipeline visual de bajo código a los notebooks.

Construya un flujo de SPSS Modeler — nodos de arrastrar y soltar para importación, preparación, modelado y puntuación.

Por qué: Modeler se adapta a equipos que necesitan pipelines transparentes y con poco código; los notebooks se adaptan a la personalización basada en código.

Elegir bibliotecas para un análisis "code-first".

Utilice pandas/NumPy para datos, scikit-learn para modelado, matplotlib/seaborn para gráficos — el stack predeterminado de watsonx.

Por qué: Estas bibliotecas están preinstaladas en los tiempos de ejecución de Watson Studio y se asumen para el examen.

Un compañero de equipo debe volver a ejecutar su análisis el próximo trimestre.

Versionar notebooks y datos como activos del proyecto, fijar versiones de bibliotecas y documentar el tiempo de ejecución.

Por qué: La reproducibilidad depende del código, los datos y el entorno capturados — no de una sesión local única.

Preprocesamiento e Ingeniería de Características

Escalar características antes de dividirlas en conjuntos de entrenamiento/prueba.

Divida primero, luego ajuste los transformadores solo en el conjunto de entrenamiento y aplíquelos (`transform`) al conjunto de prueba. Envuelva los pasos en un Pipeline de scikit-learn.

Por qué: Ajustar en el conjunto de datos completo filtra estadísticas de prueba al entrenamiento e infla las puntuaciones de evaluación.

Una columna numérica tiene un 8% de valores faltantes.

Impute con la mediana (robusta a la asimetría) a través de `SimpleImputer`; considere una bandera indicadora de valores faltantes.

Por qué: La mediana resiste los valores atípicos; un indicador preserva la señal cuando la propia ausencia de datos es informativa.

Una columna categórica tiene huecos.

Impute con la moda o una categoría explícita "Desconocido" / "Faltante".

Por qué: Una categoría explícita mantiene el patrón de valores faltantes como una señal utilizable en lugar de descartar filas.

Característica nominal de baja cardinalidad (p. ej. región con 5 valores).

Aplique codificación "one-hot" (`OneHotEncoder`); elimine una columna si el modelo no necesita colinealidad.

Por qué: La codificación "one-hot" evita imponer un orden falso a las categorías nominales; eliminar un nivel previene la trampa de las variables ficticias.

La característica tiene un orden natural (bajo / medio / alto).

Utilice codificación ordinal que preserve el rango.

Por qué: La codificación "one-hot" descartaría el orden; la codificación consciente del rango permite al modelo explotarlo.

Categórica con miles de niveles (p. ej. código postal).

Utilice codificación por objetivo/frecuencia o agrupamiento en lugar de "one-hot".

Por qué: La codificación "one-hot" explota la dimensionalidad; la codificación por objetivo es compacta pero debe ajustarse dentro de la CV para evitar fugas de datos.

Las características abarcan escalas muy diferentes antes de un modelo basado en la distancia.

StandardScaler (media cero, varianza unitaria) para características aproximadamente gaussianas; MinMaxScaler para limitar a [0,1].

Por qué: KNN, SVM, PCA y el descenso de gradiente son sensibles a la escala; los modelos de árbol no lo son.

Una característica positiva con asimetría a la derecha perjudica a un modelo lineal.

Aplique una transformación logarítmica o de potencia Box-Cox/Yeo-Johnson para comprimir la cola.

Por qué: Reducir la asimetría estabiliza la varianza y linealiza las relaciones para modelos lineales y basados en distancia.

Quiere capturar un efecto de edad no lineal en un modelo lineal.

Agrupe la característica continua en rangos (de ancho igual o por cuantil) y trátela como categórica.

Por qué: La agrupación permite a los modelos lineales capturar cambios escalonados, a costa de cierta pérdida de información.

Valores extremos genuinos desestabilizan el entrenamiento del modelo.

Limite/winsorice en un percentil o use un escalador robusto; elimine solo errores confirmados.

Por qué: La limitación reduce el apalancamiento de los extremos manteniendo los registros; la eliminación pierde la señal real de eventos raros.

La clase positiva es solo el 3% de las filas de entrenamiento.

Remuestre — SMOTE/sobremuestreo de la minoría o submuestreo de la mayoría — ajustando solo en el pliegue de entrenamiento; o establezca pesos de clase.

Por qué: Equilibrar el conjunto de prueba daría una lectura falsa; el remuestreo pertenece al pipeline de entrenamiento.

Las marcas de tiempo y cantidades en bruto tienen un rendimiento inferior.

Diseñe características — día de la semana, tiempo desde el último evento, ratios, agregados por cliente.

Por qué: Las características derivadas informadas por el dominio a menudo añaden más mejora que el cambio de algoritmo.

Cientos de características, muchas redundantes o ruidosas.

Seleccione mediante métodos de filtro (correlación/información mutua), wrapper (RFE) o incrustados (importancias L1/árbol).

Por qué: Menos características relevantes reducen el sobreajuste, el costo de entrenamiento y mejoran la interpretabilidad.

Muchas características numéricas correlacionadas ralentizan el entrenamiento y sobreajustan.

Aplique PCA para proyectar sobre los componentes principales que capturan la mayor parte de la varianza; escale primero.

Por qué: PCA elimina la multicolinealidad y comprime la dimensionalidad, intercambiando cierta interpretabilidad por estabilidad.

Múltiples pasos de preprocesamiento deben aplicarse de forma idéntica en el entrenamiento y el servicio.

Encadene imputadores, codificadores y escaladores en un `Pipeline` / `ColumnTransformer` ajustado solo con datos de entrenamiento.

Por qué: Un único pipeline ajustado garantiza transformaciones consistentes y previene la fuga de datos entre los pliegues.

Referencia

Una columna de fecha en bruto añade poco valor predictivo.

Descomponga en año, mes, día de la semana, si es fin de semana, y codificaciones cíclicas de seno/coseno.

Por qué: Los modelos no pueden leer la semántica del calendario a partir de una marca de tiempo en bruto; las partes explícitas exponen la estacionalidad.

Selección, Entrenamiento y Evaluación del Modelo

Necesidad de una estimación honesta de la generalización.

Divida en entrenamiento / validación / prueba; ajuste en validación, reporte los números finales en el conjunto de prueba intocado.

Por qué: Reutilizar el conjunto de prueba para el ajuste filtra información y sobreestima el rendimiento en el mundo real.

Un conjunto de datos pequeño hace que una única división sea poco fiable.

Utilice la validación cruzada k-fold (estratificada para clasificación) para promediar el rendimiento entre los pliegues.

Por qué: La CV proporciona una estimación de menor varianza y utiliza todos los datos tanto para el entrenamiento como para la validación.

Precisión de entrenamiento alta, precisión de prueba baja.

Diagnostique el sobreajuste (alta varianza); añada regularización, simplifique el modelo u obtenga más datos.

Por qué: Lo opuesto — ambas puntuaciones bajas — es subajuste (alto sesgo), necesitando un modelo o características más ricos.

El modelo de fraude reporta 97% de precisión pero falla en la mayoría de los fraudes.

Utilice precisión, exhaustividad, F1 y ROC-AUC / PR-AUC en lugar de la precisión.

Por qué: En objetivos desequilibrados, una predicción constante de la mayoría obtiene una alta precisión siendo inútil.

Necesidad de ver dónde un clasificador comete errores.

Lea la matriz de confusión; derive la precisión (costo de FP) y la exhaustividad (costo de FN) a partir de ella.

Por qué: El umbral correcto depende de si los falsos positivos o los falsos negativos son más costosos.

Evaluación de un modelo con objetivo continuo.

Reporte RMSE/MAE para la magnitud del error y R² para la varianza explicada; elija RMSE cuando los errores grandes importen más.

Por qué: RMSE penaliza los errores grandes más que MAE; R² por sí solo puede engañar en ajustes no lineales.

Los parámetros predeterminados del modelo dejan el rendimiento sin explotar.

Ajuste con búsqueda en cuadrícula o aleatoria bajo validación cruzada; prefiera la aleatoria para espacios de búsqueda grandes.

Por qué: La búsqueda aleatoria encuentra buenas regiones más rápido que las cuadrículas exhaustivas cuando muchos parámetros interactúan.

Comparando varios pipelines candidatos de AutoAI.

Clasifique en la tabla de clasificación de AutoAI por la métrica elegida, luego valide el mejor pipeline con datos no vistos antes del despliegue.

Por qué: La tabla de clasificación acelera la selección, pero la elección final debe mantenerse con datos no tocados.