Escolha um modelo de base Bedrock para um caso de uso.
→Raciocínio de contexto longo + uso de ferramentas → Claude (Sonnet/Opus). Chat otimizado para custo → Claude Haiku ou Titan Text Lite. Código → Claude ou Llama. Embeddings → Titan Embeddings V2 ou Cohere Embed. Geração de imagens → Titan Image, Stable Diffusion ou Nova Canvas. Pesos abertos com controle de auto-hospedagem → Llama, Mistral ou Importação de Modelo Personalizado.
Por quê: Nenhum modelo é o melhor em termos de custo, latência, capacidade e termos de licença. Correlacione a classe do modelo com o gargalo.
Referência↗
A fonte da KB consiste em FAQs curtas e autocontidas ou descrições de produtos (~100–500 palavras cada).
→Fragmentação de tamanho fixo com tamanho de token padrão (300) e sobreposição (20%).
Por quê: Unidades autocontidas não se beneficiam da fragmentação com reconhecimento de limite. O tamanho fixo é o mais simples e barato.
Referência↗
Documentos têm mudanças naturais de tópico dentro dos parágrafos; divisões de tamanho fixo quebram frases no meio do pensamento.
→Fragmentação semântica. Bases de Conhecimento do Bedrock agrupam frases consecutivas cujos embeddings são próximos, dividindo em limites de significado.
Por quê: Preserva ideias coerentes dentro de um fragmento → recuperação mais limpa, maior qualidade de resposta.
Referência↗
Manuais técnicos longos com referências cruzadas entre seções; perguntas exigem síntese em todo o documento.
→Fragmentação hierárquica. O Bedrock constrói fragmentos pai (grandes) + filho (pequenos); recupera em embeddings de filho, retorna contexto de pai.
Por quê: Pequenos fragmentos fornecem recuperação precisa; o contexto pai preserva referências cruzadas e detalhes circundantes.
Referência↗
Os arquivos de origem já estão fragmentados ou cada arquivo é intencionalmente uma unidade lógica.
→Nenhuma estratégia de fragmentação. Cada arquivo se torna um fragmento na KB.
Referência↗
A fonte PDF contém texto + diagramas; os usuários fazem perguntas que exigem a compreensão dos diagramas.
→Ative a análise avançada da KB do Bedrock com um modelo de base (Claude/Nova) como analisador. Diagramas e tabelas são descritos via visão, depois incorporados.
Por quê: A análise padrão é apenas texto. A análise multimodal converte conteúdo visual em texto descritivo antes da incorporação.
Referência↗
Escolha Titan Embeddings G1 vs V2.
→A V2 suporta dimensões configuráveis (256/512/1024) e supera a G1 em benchmarks multilíngues. A G1 é fixa em 1536. Escolha a V2 para casos de uso com restrição de armazenamento ou não-ingleses; a G1 apenas para compatibilidade legada.
Referência↗
Catálogo de produtos de 500K: títulos curtos (50 palavras) + especificações longas (500 palavras). Otimize a qualidade e o custo da pesquisa.
→Incorpore cada item uma vez (campos combinados ou separados). Use Titan Embeddings V2 com dimensões reduzidas (256 ou 512) para custo; incorpore consulta e documento com o mesmo modelo.
Por quê: A mistura de modelos de embedding ou a omissão da normalização quebra a pesquisa de similaridade. Dimensões menores reduzem o custo de armazenamento e consulta com perda marginal de qualidade.
Referência↗
Escolha um armazenamento vetorial para Bases de Conhecimento do Bedrock.
→Configuração padrão / mais rápida → Amazon OpenSearch Serverless (gerenciamento automático). Sub-ms com atualizações frequentes de esquema + junções relacionais → Aurora PostgreSQL com pgvector. Cliente Pinecone / MongoDB Atlas / Redis existente → mantenha-o. KB pequena (<10K documentos) otimizada para custo → Aurora pgvector ou Neptune Analytics.
Por quê: OpenSearch Serverless é o padrão mais fácil. Aurora pgvector ganha quando você precisa de transações ou junções em metadados.
Referência↗
A KB retorna documentos semanticamente relevantes, mas são de versões desatualizadas/regiões erradas.
→Adicione metadados aos arquivos de origem (`version`, `region`, `effective_date`) e aplique filtros de metadados no momento da consulta via `retrievalConfiguration.vectorSearchConfiguration.filter`.
Por quê: A similaridade vetorial pura ignora a atualidade e a autoridade. A filtragem de metadados restringe o conjunto de candidatos antes da classificação.
Referência↗
O RAG perde consultas que contêm identificadores exatos (SKUs, códigos de erro, números de regulamentação) porque a pesquisa semântica sobrevaloriza o texto de significado semelhante.
→Ative a pesquisa híbrida na KB (semântica + palavra-chave/BM25). Combina similaridade vetorial com correspondência lexical para IDs, códigos e nomes próprios.
Referência↗
Top-k=5 recupera 5 fragmentos, mas o mais relevante é frequentemente classificado em 3º ou 4º lugar.
→Aumente `numberOfResults` para 20 e, em seguida, ative um modelo de reranking (Cohere Rerank ou Amazon Rerank) para reordenar por relevância para a consulta original.
Por quê: Similaridade de embedding ≠ relevância da tarefa. Rerankers de cross-encoder veem consulta + fragmento juntos e pontuam precisamente.
Referência↗
As perguntas do usuário são conversacionais, multiparte ou contêm pronomes/continuações; a qualidade da recuperação da KB diminui.
→Ative a reformulação de consultas da KB do Bedrock. O modelo reescreve consultas complexas em várias subconsultas focadas antes da recuperação.
Referência↗
Documentos de origem S3 são atualizados frequentemente; a KB deve sempre refletir as versões mais recentes sem sincronização manual.
→Configure a fonte de dados da KB para sincronização automatizada via notificações de eventos S3 → EventBridge → StartIngestionJob, ou use a sincronização agendada da KB. Evite depender do botão manual "Sincronizar" do console.
Referência↗
O modelo de QA de documentos longos alucina em perguntas cujas respostas estão no meio do documento.
→Não passe documentos completos no prompt — fragmente + recupere via RAG para que apenas os fragmentos relevantes cheguem ao modelo. Se o documento completo for obrigatório, use um modelo com forte recall de contexto longo (Claude Sonnet 200K) e coloque a pergunta após o documento.
Por quê: A maioria dos LLMs exibe degradação de recall "perdido no meio". O RAG evita isso; o posicionamento ajuda quando o RAG não está disponível.
Escolha a personalização mais barata que atenda ao padrão de qualidade.
→Tente na ordem: (1) engenharia de prompt, (2) RAG com KB, (3) fine-tuning, (4) pré-treinamento contínuo, (5) Importação de Modelo Personalizado. Pare no primeiro que atender ao padrão.
Por quê: O esforço e o custo contínuo aumentam a cada etapa. Fine-tuning + Provisioned Throughput é muito mais caro que RAG.
Referência↗
Ajuste um modelo Bedrock com exemplos de tarefas rotulados.
→Arquivo JSONL no S3 com um exemplo por linha: `{"prompt": "...", "completion": "..."}` (ou equivalente em formato de chat para a família de modelos).
Por quê: Cada família de modelos (Titan, Claude, Llama) tem um esquema específico; verifique a documentação de fine-tuning do modelo antes de formatar.
Referência↗
Adapte um modelo de base a um vocabulário especializado (jurídico, médico, científico) usando muitos textos de domínio não rotulados.
→Pré-treinamento contínuo no corpus de domínio não rotulado. Diferente do fine-tuning de instruções (que precisa de pares prompt-completion).
Por quê: O pré-treinamento contínuo atualiza a compreensão da linguagem; o fine-tuning de instruções ensina o comportamento da tarefa. Formato de dados diferente, objetivo diferente.
Referência↗
Os dados de interação do cliente para fine-tuning contêm nomes, e-mails, números de telefone.
→Limpe ou tokenize PII antes de fazer upload do conjunto de dados de treinamento para o S3. Uma vez que os pesos absorvem PII, a filtragem de saída não pode mascará-lo de forma confiável.
Por quê: O modelo ajustado pode regurgitar fragmentos de dados de treinamento. A limpeza na camada de dados é a única mitigação duradoura.
Referência↗
Traga um modelo Llama ou Mistral auto-ajustado e sirva-o através da API unificada do Bedrock.
→Importação de Modelo Personalizado. Faça upload dos pesos para o S3, registre com o Bedrock, invoque via tempo de execução do Bedrock com IAM e registro unificados.
Por quê: Permite reutilizar Guardrails, KBs e Agentes do Bedrock em pesos próprios sem levantar endpoints SageMaker.
Referência↗
Sirva um modelo Bedrock ajustado em produção.
→Compre o Provisioned Throughput. Modelos personalizados (ajustados, pré-treinados continuamente, importados) não podem ser invocados sob demanda.
Referência↗
Aplicativo Claude de alto tráfego atinge cotas por região durante os picos; precisa de maior throughput sem comprar Provisioned Throughput.
→Perfis de inferência entre regiões. O Bedrock roteia invocações entre várias regiões de forma transparente para aumentar as cotas efetivas de TPM/RPM.
Por quê: As cotas sob demanda de região única são limitadas durante picos; os perfis entre regiões multiplicam aproximadamente as cotas sem alterações no código do aplicativo, além de usar o ARN do perfil de inferência.
Referência↗
Usuários da APAC veem latência significativamente maior do que usuários dos EUA/UE em um aplicativo Bedrock implantado em us-east-1.
→Implante endpoints regionais do Bedrock em ap-northeast-1 / ap-southeast-1 / ap-south-1 (onde o modelo está GA). Roteie usuários via política de latência ou geolocalização do Route 53.
Por quê: O round-trip do LLM domina para contextos longos; o RTT trans-Pacífico sozinho é de 150–250 ms.
Referência↗
Aplicativo regulamentado pelo HIPAA precisa resumir PHI com o Bedrock.
→Use apenas modelos de base elegíveis para HIPAA (conforme a lista de Serviços Elegíveis para HIPAA). Assine um BAA com a AWS. Criptografe prompts/respostas com chaves KMS gerenciadas pelo cliente. Desative o registro de invocação de modelo ou restrinja-o a um bucket S3 privado com acesso restrito.
Referência↗
Decidir quais dados podem fluir para o Bedrock com base na sensibilidade (público / confidencial / restrito).
→Público → irrestrito. Confidencial → somente via endpoints VPC + CMK + registro de invocação em buckets privados. Restrito (segredos comerciais, PHI/PCI regulamentados) → bloqueie completamente do Bedrock ou use regime de conformidade elegível para Bedrock + redija antes de invocar.
Organização multi-conta deseja que a Conta A compartilhe um modelo Bedrock personalizado com a Conta B sem copiar os pesos.
→Compartilhamento de modelo personalizado via AWS RAM. O proprietário compartilha o ARN do modelo personalizado; as contas consumidoras o invocam através do tempo de execução padrão do Bedrock com entidades IAM entre contas na política de recursos.
Por quê: Evita custos de fine-tuning redundantes e centraliza o ciclo de vida do modelo. O RAM controla quem pode consumir o recurso compartilhado.
Referência↗
Precisa de um modelo de terceiros de nicho (por exemplo, LLM especializado em saúde) que não está no catálogo padrão do Bedrock.
→Amazon Bedrock Marketplace. Assine o modelo no catálogo do Marketplace, implante em um endpoint do Bedrock, invoque via API de tempo de execução padrão.
Por quê: Unifica faturamento de terceiros, IAM, KMS e observabilidade com modelos Bedrock próprios.
Referência↗
Aplicativo de pesquisa de alto volume re-incorpora os mesmos documentos a cada atualização de consulta; o custo de embedding domina.
→Pré-calcule embeddings na ingestão de documentos, armazene o vetor no DynamoDB ou OpenSearch indexado por id do documento + hash de conteúdo. Re-incorpore apenas quando o hash de conteúdo mudar.
Por quê: Incorporar o mesmo texto repetidamente é o custo evitável mais comum. O cache com hash é um salto O(1).
Direito ao esquecimento do GDPR em um modelo ajustado: o usuário solicita a exclusão de seus PII dos dados de treinamento.
→Exclua registros do corpus de treinamento, então ajuste um novo modelo base do zero. Não é possível limpar dados de pesos existentes de forma confiável — a filtragem de saída não é suficiente.
Por quê: Uma vez que os pesos absorvem os dados de treinamento, o mascaramento na inferência não é confiável. O caminho defensável é o retreinamento completo sem os registros afetados.
KB compartilhada atende a várias equipes; cada equipe deve ver apenas seus próprios documentos.
→Marque cada fragmento com metadados `tenant_id` / `team_id` / `clearance` na ingestão. No momento da consulta, defina `retrievalConfiguration.vectorSearchConfiguration.filter` para os valores permitidos do chamador da sessão IAM ou contexto do aplicativo.
Por quê: A similaridade vetorial ignora o controle de acesso; a filtragem de metadados é a única isolamento durável por locatário em uma KB compartilhada.
Referência↗
Cliente da UE exige que prompts e embeddings da KB nunca saiam de eu-west-1.
→Implante Bedrock + KB + bucket de origem S3 em eu-west-1. Fixe invocações via ARN de perfil de inferência com escopo para eu-west-1; SCP `aws:RequestedRegion` negando outras regiões para `bedrock:*`.
Referência↗