Справочник — NCA-ADS NVIDIA-Certified Associate: Accelerated Data Science

Последняя проверка: июнь 2026 г.

Сжатый справочник архитектурных шаблонов, проверяемых на экзамене NCA-ADS. Читайте сверху вниз или переходите к нужному разделу.

Манипуляция и подготовка данных

Существующий конвейер pandas для CSV-файла размером 40 ГБ слишком медленно работает на CPU.

Замените pandas на cuDF; большинство вызовов read/filter/groupby/join сохраняют тот же API и выполняются на GPU.

Почему: cuDF по замыслу повторяет API pandas, поэтому миграция в основном сводится к изменению импорта, а не к переписыванию кода.

Источник

Команда хочет ускорения на GPU без изменения существующего кода pandas.

Загрузите ускоритель cudf.pandas (%load_ext cudf.pandas или python -m cudf.pandas); он выполняет операции на GPU и автоматически переключается на CPU.

Почему: Ускорение без изменения кода с прозрачным переключением на CPU обеспечивает работу неподдерживаемых операций.

Источник

Требуется самая быстрая загрузка большого аналитического набора данных в столбцовом формате на GPU.

Сохраните в формате Parquet и прочитайте с помощью cudf.read_parquet; обрезка столбцов и предикатная фильтрация минимизируют передачу данных на устройство.

Почему: Столбцовый Parquet хорошо сопоставляется с cuDF на основе Arrow и читается намного быстрее, чем построчный CSV.

cuDF работает медленнее, чем pandas, для файла размером 50 МБ.

Храните небольшие данные на CPU; накладные расходы на передачу данных между хостом и устройством и запуск ядер доминируют для объемов менее ~1–2 ГБ.

Почему: Ускорение GPU окупается в масштабе; для крошечных данных стоимость копирования превышает выигрыш в вычислениях.

Агрегировать миллиарды строк по ключу с использованием нескольких статистик.

Используйте df.groupby(key).agg({...}) в cuDF; агрегации выполняются как параллельные ядра GPU.

Очистить и нормализовать текстовый столбец с высокой кардинальностью в масштабе GPU.

Используйте аксессор .str в cuDF's (lower, strip, replace, contains, split); строковые операции ускоряются на GPU через libcudf.

Почему: cuDF имеет выделенный строковый уровень GPU, поэтому очистка текста не требует возврата к CPU.

Объединить два больших DataFrame на устройстве по общему ключу.

Используйте cudf.merge / df.merge с ключом объединения; хеш-объединения выполняются на GPU.

Почему: Оба фрейма должны уже находиться на устройстве, чтобы избежать кругового обращения; смешивание pandas и cuDF приводит к копированию на хост.

Набор данных содержит пропущенные значения, которые нарушают последующее обучение cuML.

Используйте cuDF fillna/dropna и явные приведения типов данных перед обучением; cuML ожидает чистые числовые массивы на устройстве.

Смешанные типы данных/типы object вызывают ошибки или раздувание памяти в cuDF.

Рано приводите к компактным числовым или категориальным типам данных (int32/float32, category), чтобы уменьшить использование памяти GPU.

Почему: Преобразование к меньшему типу снижает нагрузку на память устройства, что является самым частым узким местом на одном GPU.

Требуется кодирование меток/one-hot кодирование для категориальных признаков перед обучением.

Используйте категориальный тип данных cuDF с .cat.codes или препроцессорные кодировщики cuML, чтобы сохранить данные на устройстве.

Требуются математические операции с сырыми числовыми массивами, не предоставляемые API cuDF DataFrame.

Преобразуйте через df.values или to_cupy() и работайте с CuPy (массивами GPU, совместимыми с NumPy), затем верните результаты.

Почему: cuDF и CuPy совместно используют память устройства через __cuda_array_interface__, поэтому преобразование выполняется без копирования.

Машинное обучение с RAPIDS

Перенести сценарий обучения scikit-learn на GPU.

Используйте оценщики cuML (LinearRegression, LogisticRegression, KMeans, RandomForest); fit/predict повторяют API sklearn.

Почему: cuML ориентирован на совместимость с API sklearn, поэтому обычно достаточно заменить импорт.

Источник

Градиентный бустинг деревьев на большом табличном наборе данных, обучение слишком медленное на CPU.

Обучайте XGBoost с device="cuda" (tree_method="hist"); он напрямую использует данные cuDF/CuPy.

Почему: Встроенный метод гистограмм XGBoost на GPU значительно ускоряет работу и тесно интегрируется с RAPIDS.

Быстро кластеризовать миллионы точек для сегментации.

Используйте cuML KMeans (или DBSCAN для кластеризации на основе плотности); оба полностью работают на GPU.

Уменьшить размерность многомерных данных до 2D для визуализации в масштабе.

Используйте cuML UMAP или t-SNE; реализации на GPU обрабатывают наборы данных, которые непрактичны на CPU.

Почему: UMAP/t-SNE требуют больших вычислений; версии для GPU делают возможными интерактивные встраивания в масштабе.

Требуется точный ансамблевый классификатор с важностью признаков.

Используйте cuML RandomForestClassifier; обучайте на массивах устройства и экспортируйте в FIL для быстрого вывода.

Развернуть древовидную модель для высокопроизводительной пакетной оценки.

Загрузите модель в библиотеку Forest Inference Library (FIL) для выполнения прогнозов, ускоренных на GPU, на больших пакетах.

Почему: FIL ускоряет вывод для XGBoost/LightGBM/cuML forests значительно больше, чем оценка каждого дерева на CPU.

Необходимый вам алгоритм не имеет реализации cuML на GPU.

Проверьте покрытие в документации cuML; если отсутствует, оставьте этот шаг на scikit-learn и ускорьте остальное.

Почему: Не каждый оценщик поддерживается GPU — знайте поддерживаемый набор, а не предполагайте полную эквивалентность.

Избегать неявных копирований на хост во время обучения cuML.

Передавайте данные устройства cuDF/CuPy напрямую в fit(); смешивание NumPy/pandas вызывает передачу данных с хоста на устройство.

Конвейеры обработки данных и автоматизация рабочих процессов

Набор данных превышает объем памяти одного GPU's.

Используйте dask-cuDF для разделения данных между несколькими GPU/узлами и параллельной обработки разделов.

Почему: Dask обрабатывает распределение данных за пределами оперативной памяти и на нескольких GPU, что один кадр cuDF не может.

Источник

Хочу использовать все GPU на одном компьютере с несколькими GPU.

Запустите LocalCUDACluster из dask-cuda и подключите Client; один worker привязывается к каждому GPU.

Почему: LocalCUDACluster привязывает каждого worker Dask к отдельному GPU, чтобы планировщик мог сбалансировать нагрузку.

Создание многошагового конвейера Dask, который слишком часто пересчитывается.

Составляйте лениво и вызывайте .compute() один раз в конце; используйте persist() для кэширования повторно используемых промежуточных данных в памяти GPU.

Почему: Dask ленив — слишком ранний или многократный вызов compute приводит к повторному выполнению работы.

Искаженные разделы приводят к отставанию некоторых GPU worker-ов.

Перераспределите до сбалансированных размеров и выровняйте ключи разделов с последующими объединениями/группировками.

Почему: Неравномерные разделы создают отстающих, которые замедляют всю работу.

Полностью сохранить рабочий процесс ETL → train → score на GPU.

Свяжите подготовку cuDF с cuML/XGBoost без преобразования в pandas между шагами, сохраняя данные на устройстве.

Почему: Каждый круговой обмен с CPU добавляет стоимость передачи; пребывание на устройстве сохраняет ускорение от начала до конца.

Требуется рабочий процесс, который повторно выполняется идентично для проверки.

Закрепите версии RAPIDS/CUDA, установите случайные начальные значения и параметризуйте входные данные, чтобы конвейер был детерминированным и повторно исполняемым.

Описательный анализ и визуализация

Вычислить сводную статистику для таблицы из миллиарда строк.

Используйте cuDF describe/mean/std/quantile и corr; агрегации выполняются как ядра GPU.

Диаграмма рассеяния из 100 миллионов точек накладывается друг на друга и нечитаема.

Визуализируйте с помощью Datashader, который растрирует точки на GPU в изображение плотности вместо рисования каждого маркера.

Почему: Datashader агрегирует в пиксели, поэтому стоимость построения графика ограничена размером изображения, а не количеством точек.

Требуется интерактивная панель мониторинга с перекрестной фильтрацией для огромного GPU DataFrame.

Используйте cuxfilter для связывания диаграмм с ускоренной на GPU перекрестной фильтрацией данных cuDF.

Почему: cuxfilter сохраняет данные на устройстве, поэтому выделение/фильтрация остаются интерактивными в масштабе.

Визуализировать распределение большого числового столбца.

Разбейте на интервалы с помощью cuDF/CuPy на GPU, затем постройте график небольшого агрегированного результата с помощью Plotly или Matplotlib.

Почему: Сначала агрегируйте на GPU; только крошечная сводка должна достичь библиотеки для построения графиков.

Оценить взаимосвязи признаков перед моделированием.

Вычислите df.corr() в cuDF на GPU, затем визуализируйте небольшую матрицу в виде тепловой карты.

Хочу декларативные интерактивные диаграммы, основанные на данных GPU.

Совместите HoloViews/hvPlot с Datashader и cuDF для интерактивной визуализации больших объемов данных.

Основы ускоренной науки о данных

Обосновать ускорение GPU для рабочей нагрузки данных.

Используйте GPU для операций с массовым параллелизмом данных, ограниченных пропускной способностью, на больших наборах данных; сохраняйте небольшие, ветвящиеся или чувствительные к задержкам задачи на CPU.

Почему: GPU выигрывают в параллелизме SIMT по многим элементам; они проигрывают в небольших или сильно управляемых задачах.

Объяснить, как RAPIDS обменивается данными между cuDF, CuPy и ML-библиотеками без копирования.

RAPIDS построен на столбцовом формате памяти Apache Arrow, что обеспечивает обмен данными между библиотеками GPU без копирования.

Почему: Общий столбцовый макет на устройстве позволяет компонентам передавать данные без сериализации.

Конвейер ускорен с помощью GPU, но едва быстрее.

Профилируйте перемещение данных; повторяющиеся копирования хост↔устройство часто доминируют. Сохраняйте данные на GPU между шагами.

Почему: Передача по PCIe — это скрытый налог — минимизация копий обычно является самым большим выигрышем.

Понять, что выполняет работу на GPU.

CUDA запускает ядра по тысячам потоков, сгруппированных в блоки/сетки в соответствии с моделью SIMT; библиотеки RAPIDS оборачивают их, поэтому вы редко пишете ядра самостоятельно.

Рабочая нагрузка завершается ошибкой нехватки памяти на одном GPU.

Уменьшите размеры типов данных, обрабатывайте по частям или масштабируйте с помощью Dask; VRAM GPU намного меньше, чем RAM хоста.

Почему: Память устройства — это первое ограничение в науке о данных на GPU — проектируйте с учетом этого.

Сопоставить задачу науки о данных на CPU с соответствующей библиотекой RAPIDS.

cuDF для DataFrame, cuML для ML, cuGraph для графов, cuSpatial для геопространственных данных, Dask для масштабирования.

Источник

Вводные практики MLOps

Необходимо сравнить множество обучающих прогонов и их метрики.

Записывайте параметры, метрики и артефакты в MLflow Tracking; запрашивайте и сравнивайте прогоны из пользовательского интерфейса.

Почему: Централизованное отслеживание экспериментов делает результаты воспроизводимыми и сопоставимыми между прогонами.

Хочу живые панели мониторинга и общие для команды журналы экспериментов.

Используйте Weights & Biases (wandb.init/log) для потоковой передачи метрик и обмена визуальными панелями мониторинга экспериментов.

Отслеживать, какая обученная модель находится на стадии стейджинга, а какая — в продакшене.

Регистрируйте версии в MLflow Model Registry и продвигайте их по стадиям с метаданными.

Почему: Реестр предоставляет единый источник истины для происхождения и продвижения моделей.

Модель не может быть воспроизведена спустя месяцы.

Совместно версионируйте данные, код, среду и начальные значения; записывайте полную конфигурацию с каждым прогоном.

Почему: Воспроизводимость требует захвата всех четырех — одного кода недостаточно.

Перевести обученную модель в состояние готовности к обслуживанию.

Упакуйте модель и зависимости (например, образ контейнера), затем предоставьте пакетный или REST-вывод; используйте FIL для быстрой оценки деревьев на GPU.

Расширенные структуры данных

Ранжировать узлы по влиянию в большом графе.

Постройте граф cuGraph из списка рёбер и запустите cugraph.pagerank на GPU.

Почему: cuGraph выполняет PageRank, BFS и расчет центральности на графах, слишком больших для библиотек CPU.

Источник

Найти кластеры/сообщества в сетевом наборе данных.

Используйте cuGraph connected-components или Louvain; импортируйте рёбра из cuDF DataFrame.

Данные являются многомерными и в основном состоят из нулей.

Используйте разреженные форматы GPU (CSR/COO через CuPy sparse) вместо плотных массивов для экономии памяти и ускорения вычислений.

Почему: Разреженное хранение позволяет избежать расходования VRAM и ядер на нулевые записи.

Управление программным обеспечением и средой

Настроить рабочую среду RAPIDS.

Установите через conda, pip или Docker, используя RAPIDS Release Selector, чтобы сопоставить ваши версии CUDA/Python.

Почему: Селектор закрепляет совместимые сборки пакетов, что является наиболее частой причиной сбоев установки.

Источник

Импорт RAPIDS завершается ошибкой или не видит GPU после установки.

Убедитесь, что версии драйвера NVIDIA и CUDA toolkit соответствуют требованиям сборки RAPIDS; запустите nvidia-smi для подтверждения наличия GPU.

Почему: Несоответствие драйвера/CUDA является основной причиной ошибок "no CUDA device".

Хочу воспроизводимую, предварительно настроенную среду RAPIDS.

Получите контейнер RAPIDS из NVIDIA NGC; он поставляется с согласованными CUDA, драйверами и библиотеками.

Почему: Образы NGC устраняют догадки по сопоставлению версий и стандартизируют среду на разных машинах.