Объясните, что позволяет трансформеру учитывать удаленные токены при генерации следующего.
→Механизм self-attention. Каждый токен обращается ко всем другим токенам через проекции запроса/ключа/значения, создавая взвешенные по контексту представления.
Почему: Именно механизм attention, а не рекуррентность, обеспечивает трансформерам дальний контекст и параллелизуемое обучение.
Выберите способ внедрения новых знаний или поведения в LLM.
→Новые, часто меняющиеся факты → RAG. Новое поведение/стиль задачи → тонкая настройка (fine-tune). Новые базовые возможности/словарь в масштабе → продолженное предварительное обучение (continued pre-training).
Почему: RAG сохраняет данные внешними и обновляемыми; тонкая настройка запекает поведение в веса; предварительное обучение — самый дорогой рычаг.
Определите, что делает модель foundation model.
→Большая модель, предварительно обученная на обширных, в основном неразмеченных данных, которая адаптируется ко многим последующим задачам посредством промптинга, RAG или тонкой настройки.
Оцените, как текст сопоставляется с входными единицами модели и что влияет на стоимость.
→Текст разбивается на суб-словные токены токенизатором (например, BPE). Стоимость и ограничения контекста измеряются в токенах, а не в символах или словах.
Почему: Редкие или неанглийские слова разбиваются на большее количество токенов, что увеличивает использование контекста и стоимость вывода.
Длинный документ не помещается в один промпт.
→Входные данные превышают контекстное окно модели (максимальное количество токенов для ввода + вывода). Разделите документ на части для RAG или выберите модель с более длинным контекстом.
Почему: Контекстное окно — это жесткое ограничение; все, что выходит за его пределы, усекается и бесшумно теряется.
Обеспечьте семантический поиск или извлечение RAG по тексту.
→Используйте embedding модель для преобразования текста в плотные векторы, затем извлекайте данные по косинусному сходству/скалярному произведению из векторного хранилища.
Почему: Embeddings размещают семантически похожий текст рядом друг с другом, что позволяет осуществлять поиск на основе значения, а не ключевых слов.
Выберите поведение вывода: детерминированное или творческое.
→Низкая температура (~0.0-0.3) → сфокусированный, повторяемый. Высокая температура (~0.7-1.0) → разнообразный, творческий. Используйте близкую к 0 для классификации или извлечения.
Почему: Температура масштабирует распределение вероятностей перед выборкой; более низкие значения концентрируют массу на верхних токенах.
Ограничьте пул токенов-кандидатов помимо температуры.
→Top-k сохраняет k наиболее вероятных токенов; top-p (nucleus) сохраняет наименьший набор, кумулятивная вероятность которого достигает p.
Почему: Top-p адаптирует набор кандидатов к форме распределения; top-k имеет фиксированную ширину независимо от уверенности.
Определите, как LLM обучаются на неразмеченном тексте.
→Самостоятельное обучение (self-supervised learning) — предсказание следующего токена (причинное) или маскированного токена создает метки из самого текста, без аннотации человеком.
Почему: Это то, что позволяет LLM обучаться на корпусах интернет-масштаба без ручной разметки.
Сопоставьте архитектуру с семейством задач.
→Генерация → только декодер (в стиле GPT). Понимание/классификация → только кодировщик (в стиле BERT). Seq-to-seq перевод/резюмирование → кодировщик-декодер (в стиле T5).
Почему: Модели только с декодером предсказывают слева направо; кодировщики видят двунаправленный контекст, что лучше для задач представления.
Заставьте базовую модель следовать инструкциям и отдавать предпочтение полезным, безопасным ответам.
→Настройка инструкций с последующим выравниванием, таким как RLHF — обучение с подкреплением на основе предпочтений человека.
Почему: Сырая предварительно обученная модель предсказывает текст; выравнивание направляет ее к предполагаемому поведению ассистента.
Модель утверждает уверенные, но сфабрикованные факты.
→Галлюцинация. Смягчите ее путем обоснования с помощью RAG, понижения температуры, цитирования источников и добавления защитных механизмов (guardrails) плюс человеческого контроля для критически важных результатов.
Почему: LLM предсказывают правдоподобные токены, а не проверенные факты; обоснование предоставляет недостающие доказательства.
Различите размер модели и размер обучающих данных.
→Параметры = обученные веса (мощность модели). Токены = объем обучающего текста. Оба масштабируют возможности в соответствии с законами масштабирования.
Почему: Большая модель, недостаточно обученная на слишком малом количестве токенов, уступает меньшей, хорошо обученной модели (вывод Chinchilla).
Разделите две ресурсоемкие фазы жизненного цикла LLM, активно использующие GPU.
→Обучение обновляет веса на основе данных (однократно, пакетно). Вывод запускает замороженную модель для генерации результатов (постоянно, чувствительно к задержкам).
Почему: Инструменты оптимизации различаются: обучение использует фреймворки параллелизма; вывод использует TensorRT-LLM и Triton.
Модель, прошедшая тонкую настройку, запоминает обучающие примеры и дает сбои на новых входных данных.
→Переобучение. Смягчите с помощью большего/разнообразного объема данных, ранней остановки, более низкой скорости обучения, меньшего количества эпох или регуляризации, такой как dropout.
Почему: Большой разрыв между обучающими и валидационными данными означает, что модель подогнала шум вместо обобщаемых паттернов.