Справочник — NCA-GENL NVIDIA-Certified Associate: Generative AI LLMs

Последняя проверка: июнь 2026 г.

Сжатый справочник архитектурных шаблонов, проверяемых на экзамене NCA-GENL. Читайте сверху вниз или переходите к нужному разделу.

Основные знания в области машинного обучения и ИИ

Объясните, что позволяет трансформеру учитывать удаленные токены при генерации следующего.

Механизм self-attention. Каждый токен обращается ко всем другим токенам через проекции запроса/ключа/значения, создавая взвешенные по контексту представления.

Почему: Именно механизм attention, а не рекуррентность, обеспечивает трансформерам дальний контекст и параллелизуемое обучение.

Выберите способ внедрения новых знаний или поведения в LLM.

Новые, часто меняющиеся факты → RAG. Новое поведение/стиль задачи → тонкая настройка (fine-tune). Новые базовые возможности/словарь в масштабе → продолженное предварительное обучение (continued pre-training).

Почему: RAG сохраняет данные внешними и обновляемыми; тонкая настройка запекает поведение в веса; предварительное обучение — самый дорогой рычаг.

Определите, что делает модель foundation model.

Большая модель, предварительно обученная на обширных, в основном неразмеченных данных, которая адаптируется ко многим последующим задачам посредством промптинга, RAG или тонкой настройки.

Оцените, как текст сопоставляется с входными единицами модели и что влияет на стоимость.

Текст разбивается на суб-словные токены токенизатором (например, BPE). Стоимость и ограничения контекста измеряются в токенах, а не в символах или словах.

Почему: Редкие или неанглийские слова разбиваются на большее количество токенов, что увеличивает использование контекста и стоимость вывода.

Длинный документ не помещается в один промпт.

Входные данные превышают контекстное окно модели (максимальное количество токенов для ввода + вывода). Разделите документ на части для RAG или выберите модель с более длинным контекстом.

Почему: Контекстное окно — это жесткое ограничение; все, что выходит за его пределы, усекается и бесшумно теряется.

Обеспечьте семантический поиск или извлечение RAG по тексту.

Используйте embedding модель для преобразования текста в плотные векторы, затем извлекайте данные по косинусному сходству/скалярному произведению из векторного хранилища.

Почему: Embeddings размещают семантически похожий текст рядом друг с другом, что позволяет осуществлять поиск на основе значения, а не ключевых слов.

Выберите поведение вывода: детерминированное или творческое.

Низкая температура (~0.0-0.3) → сфокусированный, повторяемый. Высокая температура (~0.7-1.0) → разнообразный, творческий. Используйте близкую к 0 для классификации или извлечения.

Почему: Температура масштабирует распределение вероятностей перед выборкой; более низкие значения концентрируют массу на верхних токенах.

Ограничьте пул токенов-кандидатов помимо температуры.

Top-k сохраняет k наиболее вероятных токенов; top-p (nucleus) сохраняет наименьший набор, кумулятивная вероятность которого достигает p.

Почему: Top-p адаптирует набор кандидатов к форме распределения; top-k имеет фиксированную ширину независимо от уверенности.

Определите, как LLM обучаются на неразмеченном тексте.

Самостоятельное обучение (self-supervised learning) — предсказание следующего токена (причинное) или маскированного токена создает метки из самого текста, без аннотации человеком.

Почему: Это то, что позволяет LLM обучаться на корпусах интернет-масштаба без ручной разметки.

Сопоставьте архитектуру с семейством задач.

Генерация → только декодер (в стиле GPT). Понимание/классификация → только кодировщик (в стиле BERT). Seq-to-seq перевод/резюмирование → кодировщик-декодер (в стиле T5).

Почему: Модели только с декодером предсказывают слева направо; кодировщики видят двунаправленный контекст, что лучше для задач представления.

Заставьте базовую модель следовать инструкциям и отдавать предпочтение полезным, безопасным ответам.

Настройка инструкций с последующим выравниванием, таким как RLHF — обучение с подкреплением на основе предпочтений человека.

Почему: Сырая предварительно обученная модель предсказывает текст; выравнивание направляет ее к предполагаемому поведению ассистента.

Модель утверждает уверенные, но сфабрикованные факты.

Галлюцинация. Смягчите ее путем обоснования с помощью RAG, понижения температуры, цитирования источников и добавления защитных механизмов (guardrails) плюс человеческого контроля для критически важных результатов.

Почему: LLM предсказывают правдоподобные токены, а не проверенные факты; обоснование предоставляет недостающие доказательства.

Различите размер модели и размер обучающих данных.

Параметры = обученные веса (мощность модели). Токены = объем обучающего текста. Оба масштабируют возможности в соответствии с законами масштабирования.

Почему: Большая модель, недостаточно обученная на слишком малом количестве токенов, уступает меньшей, хорошо обученной модели (вывод Chinchilla).

Разделите две ресурсоемкие фазы жизненного цикла LLM, активно использующие GPU.

Обучение обновляет веса на основе данных (однократно, пакетно). Вывод запускает замороженную модель для генерации результатов (постоянно, чувствительно к задержкам).

Почему: Инструменты оптимизации различаются: обучение использует фреймворки параллелизма; вывод использует TensorRT-LLM и Triton.

Модель, прошедшая тонкую настройку, запоминает обучающие примеры и дает сбои на новых входных данных.

Переобучение. Смягчите с помощью большего/разнообразного объема данных, ранней остановки, более низкой скорости обучения, меньшего количества эпох или регуляризации, такой как dropout.

Почему: Большой разрыв между обучающими и валидационными данными означает, что модель подогнала шум вместо обобщаемых паттернов.

Разработка программного обеспечения

Быстро разверните оптимизированную LLM в качестве производственного микросервиса с API, совместимым с OpenAI.

Используйте микросервис NVIDIA NIM — предварительно созданную, контейнеризированную конечную точку модели, оптимизированную для TensorRT-LLM.

Почему: NIM упаковывает модель, среду выполнения и оптимизированный движок, что позволяет избежать ручной настройки TensorRT-LLM и Triton.

Справочник — NCA-GENL NVIDIA-Certified Associate: Generative AI LLMs

Основные знания в области машинного обучения и ИИ

Разработка программного обеспечения

Экспериментирование

Анализ данных

Надежный ИИ

Справочник — NCA-GENL NVIDIA-Certified Associate: Generative AI LLMs

Основные знания в области машинного обучения и ИИ

Разработка программного обеспечения

Экспериментирование

Анализ данных

Надежный ИИ