Aumente um modelo de fundação com dados privados da empresa (PDFs, documentos, conteúdo S3) sem fine-tuning.
→Crie uma base de conhecimento do Amazon Bedrock. O Bedrock lida com ingestão, fragmentação, embedding e recuperação (RAG) no momento da inferência.
Por quê: Mais barato e rápido de atualizar do que fine-tuning. Mudanças nos dados de origem → ressincronize a KB; sem retreinamento.
Referência↗
Os dados mudam frequentemente (inventário, preços, notícias) e o modelo deve refletir o estado atual.
→RAG com uma base de conhecimento. Evite fine-tuning — os ciclos de retreinamento não conseguem acompanhar.
Por quê: RAG separa o modelo dos dados; a KB é atualizada independentemente do modelo.
Faça fine-tuning de um modelo de fundação com exemplos rotulados para uma tarefa específica.
→Forneça pares prompt-completion (instrução-resposta). O formato JSONL é padrão.
Por quê: O fine-tuning de instrução ensina o modelo a mapear as entradas do usuário para as saídas desejadas na tarefa alvo.
Referência↗
Ensine a um modelo de fundação vocabulário especializado (médico, jurídico, científico) usando muitos textos de domínio não rotulados.
→Pré-treinamento contínuo no corpus de domínio não rotulado.
Por quê: O pré-treinamento contínuo atualiza a compreensão do modelo de vocabulário e conceitos; o fine-tuning de instrução ensina o comportamento da tarefa. Objetivo diferente, formato de dados diferente.
Referência↗
Fluxo de trabalho multi-etapas que combina raciocínio LLM com chamadas a APIs externas, bancos de dados ou serviços AWS.
→Amazon Bedrock Agents — orquestra raciocínio LLM, invocação de ferramentas/API e síntese de resultados em um único tempo de execução gerenciado.
Por quê: Os Agents planejam etapas, chamam ferramentas e juntam os resultados em uma resposta final sem que você precise escrever o loop de orquestração.
Referência↗
Escolha um banco de dados vetorial para embeddings.
→RAG gerenciado → Bedrock Knowledge Bases (lida com o armazenamento vetorial automaticamente). DB vetorial personalizado → OpenSearch Service (k-NN), Aurora PostgreSQL com pgvector, Neptune Analytics ou RDS para PostgreSQL com pgvector.
Por quê: OpenSearch é o padrão para k-NN de alta escala; pgvector reutiliza um DB relacional existente.
Referência↗
Implante um modelo ajustado do Bedrock para servir em produção.
→Adquira Throughput Provisionado para o modelo Bedrock personalizado. Modelos personalizados não podem ser invocados via precificação sob demanda.
Por quê: A capacidade do modelo personalizado é dedicada, faturada em unidades de modelo e necessária para a invocação.
Referência↗
Estime ou reduza o custo de inferência do Bedrock.
→Custo ≈ tokens processados × taxa por token. Reduza encurtando prompts, aparando exemplos few-shot, escolhendo modelos menores ou usando cache de prompt onde suportado.
Referência↗
Gere dados rotulados de alta precisão com revisão humana em loop (por exemplo, imagens especializadas, registros médicos).
→Amazon SageMaker Ground Truth Plus — força de trabalho de rotulagem HITL gerenciada.
Por quê: Para auditoria periódica de previsões de modelo de baixa confiança, combine com Amazon A2I (Augmented AI).
Referência↗
O reconhecimento de fala entende mal termos específicos do domínio (médicos, jurídicos, nomes de marcas).
→Amazon Transcribe com um modelo de linguagem personalizado ou vocabulário personalizado treinado em texto de domínio.
Referência↗
O modelo tem bom desempenho no treinamento, mas baixo desempenho em produção (overfit) — aumente a generalização sem mudar a arquitetura.
→Aumente o volume e a diversidade dos dados de treinamento. Não corte dados nem apenas adicione hiperparâmetros.
Por quê: Dados mais representativos são a correção de maior alavancagem; a regularização e o early stopping ajudam, mas os dados dominam.
Avalie a qualidade da saída generativa.
→Qualidade da tradução → BLEU. Qualidade do resumo → ROUGE. Similaridade semântica à referência → BERTScore. Preferência estilística → avaliação humana com conjuntos de prompt personalizados.
Escolha um modelo de fundação do Bedrock para um caso de uso onde o estilo de saída importa.
→Realize avaliação humana em um conjunto de dados de prompt personalizado em todos os modelos candidatos. Não confie apenas em classificações públicas ou métricas de latência.
Por quê: O ajuste de estilo/tom é subjetivo; benchmarks não o capturam.
Referência↗
Gere gráficos e dashboards a partir de perguntas em linguagem natural sobre dados de negócios.
→Amazon Q no QuickSight — BI em linguagem natural sobre conjuntos de dados do QuickSight.
Referência↗