Справочник — C1000-177 IBM Certified watsonx Data Scientist - Associate

Последняя проверка: июнь 2026 г.

Сжатый справочник архитектурных шаблонов, проверяемых на экзамене C1000-177. Читайте сверху вниз или переходите к нужному разделу.

Оценка бизнес-проблемы

Заинтересованное лицо просит «найти закономерности в клиентах» без помеченного результата.

Сформулируйте как обучение без учителя (кластеризация / сегментация). Отложите обучение с учителем на тот случай, когда существует помеченная целевая переменная.

Почему: Отсутствие целевого столбца означает отсутствие чего-либо для прогнозирования; принудительная настройка с учителем изобретает метку и искажает результат.

Выбор между прогнозированием оттока (да/нет) и прогнозированием расходов ($).

Отток — это бинарная классификация; расходы — это регрессия. Тип данных цели определяет задачу и семейство метрик.

Почему: Несоответствие задачи цели приводит к бессмысленным метрикам — например, RMSE для метки да/нет.

Бизнес хочет «сократить мошенничество», но в данных нет флага мошенничества.

Определите цель перед моделированием — согласуйте операционное определение мошенничества и пометьте исторические записи, или рассмотрите это как обнаружение аномалий.

Почему: Расплывчатая цель без измеримого результата не может быть смоделирована; определение цели — это бизнес-решение, а не техническое.

Выбор метрики успеха для модели отклика на маркетинг.

Свяжите метрику с бизнес-ценностью — например, точность/полнота при бюджете кампании или ожидаемый прирост дохода — а не просто с исходной точностью.

Почему: Точность может выглядеть высокой, в то время как модель упускает редких респондентов, которые действительно важны для бизнеса.

Попросили упорядочить проект по обработке данных от начала до конца.

Следуйте CRISP-DM: понимание бизнеса → понимание данных → подготовка данных → моделирование → оценка → развертывание.

Почему: CRISP-DM — это методология, которой придерживается IBM; подготовка данных является итеративной и обычно требует наибольших усилий.

Запрос: «сообщить об общих продажах за последний квартал по регионам».

Решите с помощью агрегации / BI-отчетности, а не модели. Прогнозирование не требуется.

Почему: Детерминированные поиски и агрегации требуют запросов, а не машинного обучения; распознавание этого позволяет избежать избыточной инженерии.

Цель требует признака, который организация не собирает.

Сначала оцените реализуемость на основе доступных данных; измените объем цели или начните сбор данных, прежде чем обещать модель.

Почему: Наличие данных ограничивает достижимое; предположение об идеальных данных приводит к невыполнимым проектам.

Выполнение разведочного анализа данных

Новый табличный набор данных только что загружен в Jupyter-ноутбук.

Начните с pandas `df.describe()`, `df.info()` и `df.head()`, чтобы прочитать количество, типы данных, диапазоны и очевидные пропуски.

Почему: Сводная статистика выявляет пропущенные значения, неверные типы данных и различия в масштабах до любого построения графиков или моделирования.

Необходимо понять форму одного числового признака.

Используйте гистограмму или график KDE для формы и ящичную диаграмму для разброса/выбросов.

Почему: Форма распределения (асимметрия, модальность) определяет дальнейший выбор преобразований и масштабирования.

Признак дохода имеет длинный правый хвост.

Отметьте его как скошенный вправо (среднее ≫ медиана); запланируйте логарифмическое или степенное преобразование во время предварительной обработки.

Почему: Скошенные входные данные искажают модели, основанные на расстоянии и дисперсии; выявление асимметрии в EDA информирует об исправлении.

Проверка взаимосвязей между многими числовыми признаками.

Вычислите матрицу корреляции и визуализируйте ее в виде тепловой карты; исследуйте пары с |r| выше ~0.8.

Почему: Высокая попарная корреляция указывает на избыточность и потенциальную мультиколлинеарность, которую необходимо устранить перед использованием линейных моделей.

Ящичная диаграмма показывает точки далеко за пределами «усов».

Квантифицируйте с помощью правила IQR (ниже Q1−1.5·IQR или выше Q3+1.5·IQR) или z-оценки; исследуйте перед удалением.

Почему: Выбросы могут быть ошибками или подлинными редкими событиями — EDA различает их, чтобы вы не отбрасывали реальный сигнал.

Изучение того, движутся ли два числовых признака вместе.

Используйте диаграмму рассеяния; добавьте линию тренда или оттенок по классу, чтобы выявить направление, силу и группировки.

Почему: Диаграммы рассеяния выявляют нелинейные зависимости, которые скрывает один коэффициент корреляции.

Профилирование категориального столбца с неизвестной мощностью.

Используйте `value_counts()` и столбчатую диаграмму, чтобы увидеть частоты уровней и редкие категории.

Почему: Высокая мощность и редкие уровни изменяют стратегию кодирования и предупреждают о риске переобучения.

Бинарная цель с неизвестным балансом классов.

Рано постройте распределение цели; обратите внимание на соотношение положительного класса (например, 3% мошенничества).

Почему: Дисбаланс, обнаруженный в EDA, диктует выбор передискретизации и метрики (не точности) на последующих этапах.

Нулевые значения разбросаны по нескольким столбцам.

Оцените количество нулевых значений на столбец (`df.isnull().sum()`) и проверьте, является ли отсутствие случайным или систематическим.

Почему: Схемы отсутствия неслучайным образом могут нести сигнал; механизм определяет решение об импутации.

Менеджер спрашивает: «Что нам сказал EDA?» перед моделированием.

Резюмируйте проблемы качества данных, потенциальные предиктивные признаки и гипотезы для тестирования — а не просто графики.

Почему: Цель EDA — формировать гипотезы и направлять предварительную обработку/выбор признаков, а не создавать украшения.

Инструменты и методы разработки

Организация проекта по обработке данных в watsonx.

Создайте проект Watson Studio; добавьте данные, ноутбуки и модели как активы, использующие общее хранилище и среду выполнения.

Почему: Проекты являются единицей совместной работы, контроля доступа и отслеживания активов в watsonx.

Источник

Выбор места выполнения кода Python в Watson Studio.

Прикрепите ноутбук к среде/среде выполнения, соответствующей рабочей нагрузке; отпустите его, когда он простаивает, чтобы контролировать стоимость вычислений.

Почему: Среды выполнения потребляют единицы мощности; правильный размер балансирует производительность и затраты.

Быстро нужна сильная базовая модель при ограниченном времени.

Запустите эксперимент AutoAI; он автоматически выбирает алгоритмы, генерирует конвейеры и ранжирует их в таблице лидеров.

Почему: AutoAI ускоряет создание базовых моделей и конструирование признаков; вы все равно проверяете и уточняете лучший конвейер.

Источник

Заинтересованные стороны предпочитают визуальный конвейер с низким объемом кода вместо ноутбуков.

Создайте поток SPSS Modeler — перетащите узлы для импорта, подготовки, моделирования и оценки.

Почему: Modeler подходит командам, которым нужны прозрачные, малокодовые конвейеры; ноутбуки подходят для настройки с использованием кода.

Выбор библиотек для анализа с приоритетом кода.

Используйте pandas/NumPy для данных, scikit-learn для моделирования, matplotlib/seaborn для графиков — стандартный стек watsonx.

Почему: Эти библиотеки предустановлены в средах выполнения Watson Studio и предполагаются для экзамена.

Коллега должен повторно запустить ваш анализ в следующем квартале.

Версионируйте ноутбуки и данные как активы проекта, фиксируйте версии библиотек и документируйте среду выполнения.

Почему: Воспроизводимость зависит от захваченного кода, данных и среды — а не от одноразовой локальной сессии.

Предварительная обработка и конструирование признаков

Масштабирование признаков перед разделением на обучающую/тестовую выборки.

Сначала разделите, затем подгоните преобразователи только к обучающей выборке и примените (`transform`) к тестовой. Оберните шаги в scikit-learn Pipeline.

Почему: Подгонка к полному набору данных приводит к утечке тестовой статистики в обучение и завышает оценочные баллы.

Числовой столбец имеет 8% пропущенных значений.

Импутируйте медианой (устойчивой к асимметрии) через `SimpleImputer`; рассмотрите флаг индикатора пропусков.

Почему: Медиана устойчива к выбросам; индикатор сохраняет сигнал, когда само отсутствие является информативным.

Категориальный столбец имеет пробелы.

Импутируйте модой или явной категорией «Неизвестно» / «Отсутствует».

Почему: Явная категория сохраняет схему отсутствия как полезный сигнал, а не отбрасывает строки.

Номинальный признак с низкой мощностью (например, регион с 5 значениями).

Примените однократное кодирование (`OneHotEncoder`); отбросьте один столбец, если модель не нуждается в коллинеарности.

Почему: Однократное кодирование позволяет избежать наложения ложного порядка на номинальные категории; отбрасывание уровня предотвращает ловушку фиктивных переменных.

Признак имеет естественный порядок (низкий / средний / высокий).

Используйте порядковое кодирование, которое сохраняет ранг.

Почему: Однократное кодирование отбросило бы порядок; кодирование с учетом ранга позволяет модели использовать его.

Категориальный признак с тысячами уровней (например, почтовый индекс).

Используйте целевое/частотное кодирование или группировку, а не однократное кодирование.

Почему: Однократное кодирование взрывает размерность; целевое кодирование компактно, но должно быть подогнано внутри CV, чтобы избежать утечки.

Признаки охватывают очень разные масштабы перед моделью, основанной на расстоянии.

StandardScaler (нулевое среднее, единичная дисперсия) для примерно гауссовых признаков; MinMaxScaler для ограничения [0,1].

Почему: KNN, SVM, PCA и градиентный спуск чувствительны к масштабу; древовидные модели — нет.

Положительный признак с правым скосом вредит линейной модели.

Примените логарифмическое или степенное преобразование Box-Cox/Yeo-Johnson для сжатия хвоста.

Почему: Уменьшение асимметрии стабилизирует дисперсию и линеаризует отношения для линейных и дистанционных моделей.

Хотите зафиксировать нелинейный эффект возраста в линейной модели.

Разделите непрерывный признак на диапазоны (равной ширины или квантильные) и трактуйте как категориальный.

Почему: Биннинг позволяет линейным моделям фиксировать ступенчатые изменения, ценой некоторой потери информации.

Истинные экстремальные значения дестабилизируют обучение модели.

Ограничьте/винсоризуйте по процентилю или используйте робастный масштабировщик; удаляйте только подтвержденные ошибки.

Почему: Ограничение уменьшает влияние экстремальных значений, сохраняя записи; удаление теряет реальный сигнал редких событий.

Положительный класс составляет всего 3% обучающих строк.

Передискретизация — SMOTE/передискретизация меньшинства или недодискретизация большинства — подгонка только на обучающем фолде; или установка весов классов.

Почему: Балансировка тестовой выборки даст ложный результат; передискретизация должна быть внутри конвейера обучения.

Исходные временные метки и суммы показывают низкую производительность.

Создавайте признаки — день недели, время с последнего события, соотношения, агрегаты по клиенту.

Почему: Производные признаки, основанные на предметной области, часто дают больший прирост, чем замена алгоритма.

Сотни признаков, многие из которых избыточны или зашумлены.

Выбирайте с помощью методов фильтрации (корреляция/взаимная информация), обертки (RFE) или встроенных (L1/важность деревьев).

Почему: Меньшее количество релевантных признаков снижает переобучение, стоимость обучения и улучшает интерпретируемость.

Множество коррелированных числовых признаков замедляют обучение и приводят к переобучению.

Примените PCA для проецирования на главные компоненты, захватывающие большую часть дисперсии; сначала масштабируйте.

Почему: PCA устраняет мультиколлинеарность и сжимает размерность, обменивая некоторую интерпретируемость на стабильность.

Несколько шагов предварительной обработки должны применяться идентично при обучении и обслуживании.

Свяжите импутаторы, кодировщики и масштабировщики в `Pipeline` / `ColumnTransformer`, подогнанные только на обучающих данных.

Почему: Единый подогнанный конвейер гарантирует согласованные преобразования и предотвращает утечку между фолдами.

Источник

Столбец с исходной датой имеет небольшую предсказательную ценность.

Разложите на год, месяц, день недели, признак выходного дня и циклические sin/cos кодировки.

Почему: Модели не могут считывать календарную семантику из исходной временной метки; явные части выявляют сезонность.

Выбор модели, обучение и оценка

Требуется честная оценка обобщающей способности.

Разделите на обучающую / валидационную / тестовую выборки; настраивайте на валидационной, сообщайте окончательные цифры на нетронутой тестовой выборке.

Почему: Повторное использование тестовой выборки для настройки приводит к утечке информации и завышает реальную производительность.

Малый набор данных делает одиночное разделение ненадежным.

Используйте k-кратную cross-validation (стратифицированную для классификации) для усреднения производительности по фолдам.

Почему: CV дает оценку с меньшей дисперсией и использует все данные как для обучения, так и для валидации.

Точность на обучающей выборке высокая, на тестовой — низкая.

Диагностируйте переобучение (высокая дисперсия); добавьте регуляризацию, упростите модель или получите больше данных.

Почему: Противоположное — низкие баллы по обеим выборкам — это недообучение (высокое смещение), требующее более богатой модели или признаков.

Модель обнаружения мошенничества сообщает о 97% точности, но пропускает большую часть мошенничества.

Используйте precision, recall, F1 и ROC-AUC / PR-AUC вместо accuracy.

Почему: На несбалансированных целевых показателях постоянное прогнозирование большинства дает высокую точность, будучи бесполезным.

Необходимо увидеть, где классификатор допускает ошибки.

Прочитайте матрицу ошибок; выведите из нее precision (стоимость FP) и recall (стоимость FN).

Почему: Правильный порог зависит от того, что дороже — ложные срабатывания или ложные пропуски.

Оценка модели с непрерывной целевой переменной.

Сообщите RMSE/MAE для величины ошибки и R² для объясненной дисперсии; выберите RMSE, когда большие ошибки наиболее важны.

Почему: RMSE наказывает большие ошибки сильнее, чем MAE; один R² может ввести в заблуждение при нелинейных подгонках.

Параметры модели по умолчанию оставляют неиспользованный потенциал производительности.

Настройте с помощью решеточного или случайного поиска при cross-validation; предпочтительнее случайный поиск для больших пространств поиска.

Почему: Случайный поиск находит хорошие области быстрее, чем исчерпывающие сетки, когда взаимодействует много параметров.

Сравнение нескольких потенциальных конвейеров из AutoAI.

Ранжируйте в таблице лидеров AutoAI по выбранной метрике, затем проверьте лучший конвейер на отложенных данных перед развертыванием.

Почему: Таблица лидеров ускоряет выбор, но окончательный выбор должен выдерживать проверку на нетронутых данных.