Выберите базовую модель Bedrock для конкретного варианта использования.
→Длинноконтекстные рассуждения + использование инструментов → Claude (Sonnet/Opus). Чат, оптимизированный по стоимости → Claude Haiku или Titan Text Lite. Код → Claude или Llama. Встраивания (Embeddings) → Titan Embeddings V2 или Cohere Embed. Генерация изображений → Titan Image, Stable Diffusion или Nova Canvas. Модели с открытыми весами и собственным хостингом → Llama, Mistral или Custom Model Import.
Почему: Ни одна модель не является лучшей по всем параметрам: стоимость, задержка, возможности и условия лицензирования. Сопоставьте класс модели с узким местом.
Источник↗
Источником для KB являются короткие, самодостаточные часто задаваемые вопросы (FAQ) или описания продуктов (примерно 100–500 слов каждое).
→Разбиение на фрагменты фиксированного размера с размером токена по умолчанию (300) и перекрытием (20%).
Почему: Самодостаточные единицы не выигрывают от разбиения с учетом границ. Фиксированный размер является самым простым и дешевым.
Источник↗
Документы имеют естественные сдвиги тем внутри абзацев; разбиения фиксированного размера прерывают предложения на полуслове.
→Семантическое разбиение на фрагменты. Базы знаний Bedrock группируют последовательные предложения, встраивания (embeddings) которых близки, и разделяют их по смысловым границам.
Почему: Сохраняет связные идеи внутри фрагмента → более чистый поиск, более высокое качество ответов.
Источник↗
Длинные технические руководства с перекрестными ссылками между разделами; вопросы требуют синтеза информации по всему документу.
→Иерархическое разбиение на фрагменты. Bedrock создает родительские (крупные) + дочерние (малые) фрагменты; извлекает на основе дочерних встраиваний (embeddings), возвращает родительский контекст.
Почему: Малые фрагменты обеспечивают точный поиск; родительский контекст сохраняет перекрестные ссылки и окружающие детали.
Источник↗
Исходные файлы предварительно разбиты на фрагменты или каждый файл намеренно является одной логической единицей.
→Без стратегии разбиения на фрагменты. Каждый файл становится одним фрагментом в KB.
Источник↗
Исходный PDF-файл содержит текст + диаграммы; пользователи задают вопросы, требующие понимания диаграмм.
→Включите расширенный синтаксический анализ KB Bedrock с использованием базовой модели (Claude/Nova) в качестве парсера. Диаграммы и таблицы описываются с помощью зрения, затем встраиваются (embedded).
Почему: Парсинг по умолчанию обрабатывает только текст. Мультимодальный парсинг преобразует визуальный контент в описательный текст перед встраиванием (embedding).
Источник↗
Выберите Titan Embeddings G1 или V2.
→V2 поддерживает настраиваемые измерения (256/512/1024) и превосходит G1 в многоязычных бенчмарках. G1 фиксирован на 1536. Выберите V2 для сценариев с ограниченным хранилищем или для неанглоязычных случаев; G1 только для обеспечения обратной совместимости.
Источник↗
Каталог продукции на 500 тыс. позиций: короткие названия (50 слов) + длинные спецификации (500 слов). Оптимизируйте качество поиска + стоимость.
→Встраивайте каждый элемент один раз (объединенные или отдельные поля). Используйте Titan Embeddings V2 с уменьшенными измерениями (256 или 512) для экономии; встраивайте запрос и документ одной и той же моделью.
Почему: Смешивание моделей встраивания или пропуск нормализации нарушает поиск сходства. Меньшие измерения сокращают затраты на хранение и запросы с незначительной потерей качества.
Источник↗
Выберите векторное хранилище для баз знаний Bedrock.
→По умолчанию / самая быстрая настройка → Amazon OpenSearch Serverless (автоматически управляемый). Задержки менее миллисекунды с частыми обновлениями схемы + реляционные соединения → Aurora PostgreSQL с pgvector. Существующий клиент Pinecone / MongoDB Atlas / Redis → сохраните его. Маленькая KB (<10 тыс. документов) с оптимизацией стоимости → Aurora pgvector или Neptune Analytics.
Почему: OpenSearch Serverless — это путь наименьшего сопротивления по умолчанию. Aurora pgvector выигрывает, когда вам нужны транзакции или соединения по метаданным.
Источник↗
KB возвращает семантически релевантные документы, но они относятся к устаревшим/неверным региональным версиям.
→Добавьте метаданные к исходным файлам (`version`, `region`, `effective_date`) и применяйте фильтры метаданных во время запроса через `retrievalConfiguration.vectorSearchConfiguration.filter`.
Почему: Чистое векторное сходство игнорирует актуальность и авторитет. Фильтрация по метаданным сужает пул кандидатов перед ранжированием.
Источник↗
RAG пропускает запросы, содержащие точные идентификаторы (SKU, коды ошибок, номера нормативных актов), потому что семантический поиск переоценивает текст со схожим значением.
→Включите гибридный поиск в KB (семантический + по ключевым словам/BM25). Объединяет векторное сходство с лексическим соответствием для ID, кодов и имен собственных.
Источник↗
При Top-k=5 извлекается 5 фрагментов, но наиболее релевантный часто находится на 3-м или 4-м месте.
→Увеличьте `numberOfResults` до 20, затем включите модель переранжирования (Cohere Rerank или Amazon Rerank) для повторного упорядочивания по релевантности к исходному запросу.
Почему: Сходство встраивания (embedding similarity) ≠ релевантность задачи. Переранжировщики с кросс-кодировщиком видят запрос + фрагмент вместе и точно оценивают.
Источник↗
Вопросы пользователей являются разговорными, многокомпонентными или содержат местоимения/последующие уточнения; качество извлечения из KB падает.
→Включите переформулирование запросов в Bedrock KB. Модель переписывает сложные запросы в несколько сфокусированных подзапросов перед извлечением.
Источник↗
Исходные документы S3 часто обновляются; KB должна всегда отражать последние версии без ручной синхронизации.
→Настройте источник данных KB для автоматической синхронизации через уведомления о событиях S3 → EventBridge → StartIngestionJob или используйте запланированную синхронизацию KB. Избегайте использования кнопки "Sync" в ручной консоли.
Источник↗
Модель QA для длинных документов галлюцинирует на вопросы, ответы на которые находятся в середине документа.
→Не передавайте полные документы в промпт — разбивайте на фрагменты + извлекайте через RAG, чтобы только релевантные фрагменты достигали модели. Если полный документ обязателен, используйте модель с сильной долгосрочной контекстной памятью (Claude Sonnet 200K) и размещайте вопрос после документа.
Почему: Большинство LLM демонстрируют деградацию запоминания "потеряно в середине". RAG обходит это; размещение помогает, когда RAG недоступен.
Выберите самую дешевую кастомизацию, которая соответствует требованиям качества.
→Попробуйте по порядку: (1) промпт-инжиниринг, (2) RAG с KB, (3) дообучение (fine-tuning), (4) продолженное предварительное обучение (continued pre-training), (5) Custom Model Import. Остановитесь на первом, который соответствует требованиям.
Почему: Усилия и текущие затраты растут на каждом шаге. Дообучение (fine-tuning) + Provisioned Throughput намного дороже, чем RAG.
Источник↗
Дообучите модель Bedrock с использованием размеченных примеров задач.
→Файл JSONL в S3 с одним примером на строку: `{"prompt": "...", "completion": "..."}` (или эквивалент в формате чата для семейства моделей).
Почему: Каждое семейство моделей (Titan, Claude, Llama) имеет специфическую схему; проверьте документацию по дообучению модели перед форматированием.
Источник↗
Адаптируйте базовую модель к специализированной лексике (юридическая, медицинская, научная) с использованием большого количества неразмеченного текста из предметной области.
→Продолженное предварительное обучение на неразмеченном корпусе предметной области. Отличается от дообучения инструкциям (instruction fine-tuning), для которого нужны пары промпт-завершение.
Почему: Продолженное предварительное обучение обновляет понимание языка; дообучение инструкциям учит поведению при выполнении задач. Разная форма данных, разная цель.
Источник↗
Данные о взаимодействии с клиентами для дообучения содержат имена, электронные письма, номера телефонов.
→Очистите или токенизируйте PII перед загрузкой обучающего набора данных в S3. Как только веса поглотят PII, фильтрация вывода не сможет надежно ее замаскировать.
Почему: Дообученная модель может воспроизводить фрагменты обучающих данных. Очистка на уровне данных — единственное надежное средство снижения рисков.
Источник↗
Импортируйте самостоятельно дообученную модель Llama или Mistral и обслуживайте ее через унифицированный API Bedrock.
→Custom Model Import. Загрузите веса в S3, зарегистрируйте в Bedrock, вызывайте через среду выполнения Bedrock с унифицированным IAM и логированием.
Почему: Позволяет повторно использовать Bedrock Guardrails, KBs и Agents с вашими собственными весами без развертывания конечных точек SageMaker.
Источник↗
Разверните дообученную модель Bedrock в продакшене.
→Приобретите Provisioned Throughput. Пользовательские (дообученные, продолженно предварительно обученные, импортированные) модели не могут быть вызваны по запросу.
Источник↗
Приложение Claude с высоким трафиком достигает квот для каждого региона в пиковые часы; требуется более высокая пропускная способность без приобретения Provisioned Throughput.
→Профили вывода между регионами. Bedrock прозрачно маршрутизирует вызовы между несколькими регионами для увеличения эффективных квот TPM/RPM.
Почему: Однорегиональные квоты по запросу ограничивают во время пиков; профили между регионами примерно умножают квоты без изменений кода приложения, за исключением использования ARN профиля вывода.
Источник↗
Пользователи APAC видят значительно более высокую задержку, чем пользователи из США/ЕС, при использовании приложения Bedrock, развернутого в us-east-1.
→Разверните региональные конечные точки Bedrock в ap-northeast-1 / ap-southeast-1 / ap-south-1 (где модель общедоступна). Маршрутизируйте пользователей через политику задержки или геолокации Route 53.
Почему: Время выполнения LLM в оба конца доминирует для длинных контекстов; только RTT через Тихий океан составляет 150–250 мс.
Источник↗
Приложение, регулируемое HIPAA, должно обобщать PHI с помощью Bedrock.
→Используйте только базовые модели, соответствующие HIPAA (согласно списку услуг, соответствующих HIPAA). Подпишите BAA с AWS. Шифруйте промпты/ответы с помощью управляемых клиентом ключей KMS. Отключите логирование вызовов модели или ограничьте его частным бакетом S3 с ограниченным доступом.
Источник↗
Определите, какие данные могут поступать в Bedrock, исходя из их конфиденциальности (общедоступные / конфиденциальные / ограниченные).
→Общедоступные → без ограничений. Конфиденциальные → только через конечные точки VPC + CMK + логирование вызовов в частных бакетах. Ограниченные (коммерческая тайна, регулируемые PHI/PCI) → полностью заблокировать доступ к Bedrock или использовать режим соответствия, подходящий для Bedrock + редактировать перед вызовом.
Многоаккаунтная организация хочет, чтобы Аккаунт А делился пользовательской моделью Bedrock с Аккаунтом Б без копирования весов.
→Совместное использование пользовательских моделей через AWS RAM. Владелец делится ARN пользовательской модели; аккаунты-потребители вызывают ее через стандартную среду выполнения Bedrock с использованием IAM-субъектов между аккаунтами в политике ресурсов.
Почему: Позволяет избежать избыточных затрат на дообучение и централизует жизненный цикл модели. RAM контролирует, кто может использовать общий ресурс.
Источник↗
Требуется нишевая сторонняя модель (например, специализированная LLM для здравоохранения), отсутствующая в стандартном каталоге Bedrock.
→Amazon Bedrock Marketplace. Подпишитесь на модель из каталога Marketplace, разверните на конечной точке Bedrock, вызывайте через стандартный API среды выполнения.
Почему: Объединяет выставление счетов сторонних разработчиков, IAM, KMS и наблюдаемость с моделями Bedrock от первого лица.
Источник↗
Приложение для поиска с большим объемом данных повторно встраивает одни и те же документы при каждом обновлении запроса; стоимость встраивания (embedding) доминирует.
→Предварительно вычисляйте встраивания (embeddings) при приеме документов, храните вектор в DynamoDB или OpenSearch с ключом по ID документа + хешу содержимого. Повторно встраивайте только при изменении хеша содержимого.
Почему: Многократное встраивание одного и того же текста является самой распространенной избегаемой затратой. Кеш с хеш-ключом обеспечивает пропуск O(1).
Право на забвение согласно GDPR в отношении дообученной модели: пользователь запрашивает удаление своих PII из обучающих данных.
→Удалите записи из обучающего корпуса, затем дообучите новую базовую модель с нуля. Невозможно надежно удалить данные из существующих весов — фильтрация вывода недостаточна.
Почему: Как только веса поглощают обучающие данные, маскировка при выводе становится ненадежной. Защитный путь — это полное переобучение без затронутых записей.
Общая KB обслуживает несколько команд; каждая команда должна видеть только свои собственные документы.
→Помечайте каждый фрагмент метаданными `tenant_id` / `team_id` / `clearance` при приеме. Во время запроса установите `retrievalConfiguration.vectorSearchConfiguration.filter` на разрешенные значения вызывающего объекта из сессии IAM или контекста приложения.
Почему: Векторное сходство игнорирует контроль доступа; фильтрация по метаданным — единственная надежная изоляция для каждого клиента в общей KB.
Источник↗
Клиент из ЕС требует, чтобы промпты и встраивания KB никогда не покидали eu-west-1.
→Разверните Bedrock + KB + исходный бакет S3 в eu-west-1. Закрепите вызовы через ARN профиля вывода, ограниченный eu-west-1; SCP `aws:RequestedRegion` запрещает использование других регионов для `bedrock:*`.
Источник↗