Создайте приложение генеративного ИИ на AWS без управления инфраструктурой модели.
→Amazon Bedrock — полностью управляемый доступ к базовым моделям (Anthropic Claude, Meta Llama, Amazon Titan, Stability, AI21, Mistral, Cohere) через единый API.
Почему: Нет предоставления GPU, нет хостинга моделей; оплата за токен. SageMaker JumpStart — это альтернатива, когда вам нужна самостоятельно размещенная конечная точка в вашей VPC.
Источник↗
Определите, что делает модель "базовой моделью".
→Большая модель, предварительно обученная на разнообразных, в основном неразмеченных данных; адаптируемая ко многим последующим задачам посредством prompting, fine-tuning или RAG.
Оцените, сколько ввода помещается в один промпт и что влияет на стоимость вывода.
→Токены — это подъязыковые единицы. Окно контекста = максимальное количество токенов на запрос (ввод + вывод). Стоимость вывода примерно пропорциональна обработанным токенам.
Почему: Количество токенов, а не количество запросов, определяет ценообразование Bedrock. Если длинный документ превышает окно контекста, разделите его на части или выберите модель с большим окном.
Выберите стиль вывода: детерминированный или креативный.
→Низкая температура (~0.0–0.3) → детерминированный, повторяемый. Высокая температура (~0.7–1.0) → креативный, разнообразный. Используйте 0 для классификации или определения настроения, чтобы получить согласованные метки.
Ограничьте пул токенов-кандидатов помимо температуры.
→Top-K = рассмотрите только K наиболее вероятных токенов. Top-P (ядро) = рассмотрите токены, пока кумулятивная вероятность не достигнет P.
Почему: Top-P адаптирует размер набора кандидатов к форме распределения; Top-K имеет фиксированную ширину.
Получите вывод LLM в определенном стиле, длине или языке.
→Prompt engineering. Добавьте явные инструкции ("Ответьте по-французски, менее 50 слов, официальный тон").
Почему: Дешевле и быстрее, чем fine-tuning, переобучение или изменение размера модели для стилистического контроля.
Повысьте точность LLM для конкретной задачи без переобучения.
→Few-shot prompting — встройте 2–5 размеченных примеров ввода/вывода в промпт перед новым вводом.
Почему: In-context learning позволяет модели сопоставлять шаблоны с примерами без обновления весов.
LLM дает неправильные ответы на многошаговые задачи рассуждения.
→Chain-of-thought prompting — проинструктируйте модель пройти через этапы рассуждения перед окончательным ответом ("Давайте подумаем шаг за шагом").
LLM генерирует текст, который звучит правдоподобно, но фактически неверен или сфабрикован.
→Галлюцинации. Смягчите с помощью RAG (основанного на извлеченных фактах), Bedrock Guardrails, более низкой температуры и проверки человеком важных результатов.
Используйте для семантического поиска, кластеризации или извлечения RAG по текстовым или мультимодальным данным.
→Используйте модель встраивания (например, Titan Embeddings, Cohere Embed) для преобразования контента в плотные векторы. Храните и запрашивайте в векторной БД.
Почему: Встраивания захватывают семантическое значение, поэтому похожие элементы располагаются близко друг к другу в векторном пространстве (косинусное сходство / сходство скалярного произведения).
Источник↗
Поисковое приложение принимает как текст, так и изображения в качестве входных данных.
→Мультимодальная модель встраивания (например, Titan Multimodal Embeddings) — проецирует текст и изображения в одно и то же векторное пространство.
Источник↗
Быстро создайте прототип приложения генеративного ИИ без кода или настройки учетной записи AWS.
→PartyRock (Amazon Bedrock Playground) — браузерный no-code конструктор приложений.
Источник↗
Выберите модель ценообразования Bedrock.
→Переменная/непредсказуемая нагрузка → On-demand (за токен). Стабильный большой объем или гарантированная пропускная способность → Provisioned Throughput. Пользовательские fine-tuned модели → должны использовать Provisioned Throughput.
Почему: On-demand не требует обязательств; Provisioned Throughput покупает выделенную мощность в единицах модели.
Источник↗
Выберите самую дешевую настройку, которая обеспечит необходимое качество.
→Попробуйте в следующем порядке: (1) prompt engineering, (2) RAG с базой знаний, (3) fine-tuning, (4) продолженное предварительное обучение.
Почему: Усилия и затраты растут на каждом шаге. Остановитесь на первом, который соответствует требованиям.