Seleccione un modelo fundacional de Bedrock para un caso de uso.
→Razonamiento de contexto largo + uso de herramientas → Claude (Sonnet/Opus). Chat optimizado para costos → Claude Haiku o Titan Text Lite. Código → Claude o Llama. Embeddings → Titan Embeddings V2 o Cohere Embed. Generación de imágenes → Titan Image, Stable Diffusion o Nova Canvas. Pesos abiertos con control de autoalojamiento → Llama, Mistral o Custom Model Import.
Por qué: Ningún modelo es el mejor en costos, latencia, capacidad y términos de licencia. Haga coincidir la clase de modelo con el cuello de botella.
Referencia↗
La fuente de la KB son preguntas frecuentes (FAQs) cortas y autocontenidas o descripciones de productos (~100–500 palabras cada una).
→Fragmentación de tamaño fijo con tamaño de token predeterminado (300) y superposición (20%).
Por qué: Las unidades autocontenidas no se benefician de la fragmentación sensible a los límites. El tamaño fijo es lo más simple y económico.
Referencia↗
Los documentos tienen cambios de tema naturales dentro de los párrafos; las divisiones de tamaño fijo rompen las oraciones a mitad de idea.
→Fragmentación semántica. Las bases de conocimiento de Bedrock agrupan oraciones consecutivas cuyos embeddings son similares, dividiendo en límites de significado.
Por qué: Preserva ideas coherentes dentro de un fragmento → recuperación más limpia, mayor calidad de respuesta.
Referencia↗
Manuales técnicos largos con referencias cruzadas entre secciones; las preguntas requieren síntesis en todo un documento.
→Fragmentación jerárquica. Bedrock construye fragmentos padre (grandes) + hijo (pequeños); recupera con embeddings de hijo, devuelve el contexto padre.
Por qué: Los fragmentos pequeños proporcionan una recuperación precisa; el contexto padre preserva las referencias cruzadas y los detalles circundantes.
Referencia↗
Los archivos de origen ya están fragmentados o cada archivo es intencionalmente una unidad lógica.
→Ninguna estrategia de fragmentación. Cada archivo se convierte en un fragmento en la KB.
Referencia↗
La fuente PDF contiene texto + diagramas; los usuarios hacen preguntas que requieren comprender los diagramas.
→Habilite el análisis avanzado de Bedrock KB con un modelo fundacional (Claude/Nova) como analizador. Los diagramas y tablas se describen mediante visión y luego se incrustan (embedded).
Por qué: El análisis predeterminado es solo texto. El análisis multimodal convierte el contenido visual en texto descriptivo antes de la incrustación (embedding).
Referencia↗
Elija Titan Embeddings G1 vs V2.
→V2 admite dimensiones configurables (256/512/1024) y supera a G1 en benchmarks multilingües. G1 tiene un tamaño fijo de 1536. Elija V2 para casos de uso con limitaciones de almacenamiento o no ingleses; G1 solo para compatibilidad heredada.
Referencia↗
Catálogo de productos de 500K: títulos cortos (50 palabras) + especificaciones largas (500 palabras). Optimizar la calidad de búsqueda + el costo.
→Incruste cada elemento una vez (campos combinados o separados). Use Titan Embeddings V2 con dimensiones reducidas (256 o 512) para el costo; incruste la consulta y el documento con el mismo modelo.
Por qué: Mezclar modelos de embedding o omitir la normalización rompe la búsqueda de similitud. Dimensiones más bajas reducen el almacenamiento y el costo de consulta con una pérdida marginal de calidad.
Referencia↗
Elija un almacén de vectores para Bedrock Knowledge Bases.
→Configuración predeterminada / más rápida → Amazon OpenSearch Serverless (autoadministrado). Sub-ms con actualizaciones frecuentes de esquema + uniones relacionales → Aurora PostgreSQL con pgvector. Cliente existente de Pinecone / MongoDB Atlas / Redis → manténgalo. KB pequeña (<10K documentos) optimizada para costos → Aurora pgvector o Neptune Analytics.
Por qué: OpenSearch Serverless es el valor predeterminado más fácil. Aurora pgvector gana cuando necesita transacciones o uniones en metadatos.
Referencia↗
La KB devuelve documentos semánticamente relevantes, pero son de versiones desactualizadas o de una región incorrecta.
→Agregue metadatos a los archivos de origen (`version`, `region`, `effective_date`) y aplique filtros de metadatos en el momento de la consulta a través de `retrievalConfiguration.vectorSearchConfiguration.filter`.
Por qué: La similitud de vectores pura ignora la actualidad y la autoridad. El filtrado de metadatos reduce el grupo de candidatos antes de la clasificación.
Referencia↗
RAG omite consultas que contienen identificadores exactos (SKUs, códigos de error, números de regulación) porque la búsqueda semántica sobrepondera el texto de significado similar.
→Habilite la búsqueda híbrida en la KB (semántica + palabra clave/BM25). Combina la similitud de vectores con la coincidencia léxica para IDs, códigos y nombres propios.
Referencia↗
Top-k=5 recupera 5 fragmentos, pero el más relevante a menudo se clasifica en tercer o cuarto lugar.
→Aumente `numberOfResults` a 20 y luego habilite un modelo de reranking (Cohere Rerank o Amazon Rerank) para reordenar por relevancia a la consulta original.
Por qué: La similitud de embedding ≠ relevancia de la tarea. Los rerankers de codificación cruzada ven la consulta + fragmento juntos y puntúan con precisión.
Referencia↗
Las preguntas de los usuarios son conversacionales, de varias partes o contienen pronombres/seguimientos; la calidad de la recuperación de la KB disminuye.
→Habilite la reformulación de consultas de Bedrock KB. El modelo reescribe consultas complejas en múltiples subconsultas enfocadas antes de la recuperación.
Referencia↗
Los documentos de origen de S3 se actualizan con frecuencia; la KB debe reflejar siempre las últimas versiones sin sincronización manual.
→Configure la fuente de datos de la KB para la sincronización automatizada a través de notificaciones de eventos de S3 → EventBridge → StartIngestionJob, o use la sincronización programada de la KB. Evite depender del botón manual "Sync" de la consola.
Referencia↗
El modelo de QA de documentos largos alucina sobre preguntas cuyas respuestas están en el medio del documento.
→No pase documentos completos en el prompt — fragmente + recupere a través de RAG para que solo los fragmentos relevantes lleguen al modelo. Si el documento completo es obligatorio, use un modelo con una fuerte recuperación de contexto largo (Claude Sonnet 200K) y coloque la pregunta después del documento.
Por qué: La mayoría de los LLMs exhiben una degradación de la recuperación por "perdido en el medio". RAG lo evita; la colocación ayuda cuando RAG no está disponible.
Elija la personalización más económica que cumpla con el estándar de calidad.
→Pruebe en orden: (1) ingeniería de prompt, (2) RAG con KB, (3) fine-tuning, (4) preentrenamiento continuo, (5) Custom Model Import. Deténgase en el primero que cumpla el estándar.
Por qué: El esfuerzo y el costo continuo aumentan en cada paso. El fine-tuning + Provisioned Throughput es mucho más caro que RAG.
Referencia↗
Ajuste (fine-tune) un modelo de Bedrock con ejemplos de tareas etiquetados.
→Archivo JSONL en S3 con un ejemplo por línea: `{"prompt": "...", "completion": "..."}` (o el equivalente en formato de chat para la familia de modelos).
Por qué: Cada familia de modelos (Titan, Claude, Llama) tiene un esquema específico; verifique la documentación de fine-tuning del modelo antes de formatear.
Referencia↗
Adapte un modelo fundacional a vocabulario especializado (legal, médico, científico) utilizando una gran cantidad de texto de dominio sin etiquetar.
→Preentrenamiento continuo en el corpus de dominio sin etiquetar. Diferente del fine-tuning de instrucciones (que necesita pares prompt-completion).
Por qué: El preentrenamiento continuo actualiza la comprensión del lenguaje; el fine-tuning de instrucciones enseña el comportamiento de la tarea. Forma de datos diferente, objetivo diferente.
Referencia↗
Los datos de interacción del cliente para el fine-tuning contienen nombres, correos electrónicos, números de teléfono.
→Limpie o tokenice la PII antes de subir el conjunto de datos de entrenamiento a S3. Una vez que los pesos absorben la PII, el filtrado de salida no puede enmascararla de forma fiable.
Por qué: El modelo ajustado puede regurgitar fragmentos de datos de entrenamiento. La limpieza en la capa de datos es la única mitigación duradera.
Referencia↗
Importar un modelo Llama o Mistral autoajustado (self-fine-tuned) y servirlo a través de la API unificada de Bedrock.
→Custom Model Import. Suba los pesos a S3, regístrelos con Bedrock, invóquelos a través del entorno de ejecución de Bedrock con IAM y registro unificados.
Por qué: Le permite reutilizar Bedrock Guardrails, KBs y Agents en sus propios pesos sin levantar endpoints de SageMaker.
Referencia↗
Sirva un modelo Bedrock ajustado (fine-tuned) en producción.
→Compre Provisioned Throughput. Los modelos personalizados (ajustados, con preentrenamiento continuo, importados) no se pueden invocar bajo demanda.
Referencia↗
Una aplicación Claude de alto tráfico alcanza las cuotas por región durante los picos; se necesita un mayor rendimiento sin comprar Provisioned Throughput.
→Perfiles de inferencia entre regiones (Cross-region inference profiles). Bedrock enruta las invocaciones a través de múltiples regiones de forma transparente para aumentar las cuotas efectivas de TPM/RPM.
Por qué: Las cuotas bajo demanda de una sola región se agotan durante los picos; los perfiles entre regiones multiplican aproximadamente las cuotas sin cambios en el código de la aplicación más allá de usar el ARN del perfil de inferencia.
Referencia↗
Los usuarios de APAC experimentan una latencia significativamente mayor que los usuarios de US/EU en una aplicación de Bedrock desplegada en us-east-1.
→Despliegue endpoints regionales de Bedrock en ap-northeast-1 / ap-southeast-1 / ap-south-1 (donde el modelo esté GA). Enrute a los usuarios a través de políticas de latencia o geolocalización de Route 53.
Por qué: El viaje de ida y vuelta del LLM domina para contextos largos; el RTT transpacífico por sí solo es de 150 a 250 ms.
Referencia↗
Una aplicación regulada por HIPAA necesita resumir PHI con Bedrock.
→Use solo modelos fundacionales elegibles para HIPAA (según la lista de servicios elegibles para HIPAA). Firme un BAA con AWS. Cifre los prompts/respuestas con claves KMS administradas por el cliente. Deshabilite el registro de invocación del modelo o delimítelo a un bucket S3 privado con acceso restringido.
Referencia↗
Decida qué datos pueden fluir a Bedrock según la sensibilidad (público / confidencial / restringido).
→Público → sin restricciones. Confidencial → solo a través de VPC endpoints + CMK + registro de invocación en buckets privados. Restringido (secretos comerciales, PHI/PCI regulados) → bloquear completamente de Bedrock o usar un régimen de cumplimiento elegible para Bedrock + redactar antes de invocar.
Una organización de múltiples cuentas quiere que la Cuenta A comparta un modelo Bedrock personalizado con la Cuenta B sin copiar los pesos.
→Compartir modelos personalizados a través de AWS RAM. El propietario comparte el ARN del modelo personalizado; las cuentas de los consumidores lo invocan a través del entorno de ejecución estándar de Bedrock con entidades principales de IAM entre cuentas en la política de recursos.
Por qué: Evita costos redundantes de fine-tuning y centraliza el ciclo de vida del modelo. RAM controla quién puede consumir el recurso compartido.
Referencia↗
Necesita un modelo de terceros de nicho (por ejemplo, un LLM especializado en atención médica) que no está en el catálogo estándar de Bedrock.
→Amazon Bedrock Marketplace. Suscríbase al modelo desde el catálogo de Marketplace, despliéguelo en un endpoint de Bedrock, invóquelo a través de la API de tiempo de ejecución estándar.
Por qué: Unifica la facturación de terceros, IAM, KMS y la observabilidad con los modelos de Bedrock de primera parte.
Referencia↗
Una aplicación de búsqueda de alto volumen reincrusta los mismos documentos en cada actualización de consulta; el costo de embedding domina.
→Precalcule los embeddings al ingerir el documento, almacene el vector en DynamoDB o OpenSearch con clave por id de documento + hash de contenido. Reincruste solo cuando cambie el hash de contenido.
Por qué: Incrustar el mismo texto repetidamente es el costo evitable más común. Un caché con clave hash es un salto O(1).
Derecho al olvido de GDPR en un modelo ajustado (fine-tuned): el usuario solicita la eliminación de su PII de los datos de entrenamiento.
→Elimine los registros del corpus de entrenamiento y luego ajuste un nuevo modelo base desde cero. No se pueden eliminar datos de forma fiable de los pesos existentes; el filtrado de salida no es suficiente.
Por qué: Una vez que los pesos absorben los datos de entrenamiento, el enmascaramiento en la inferencia no es fiable. La vía defendible es el reentrenamiento completo sin los registros afectados.
Una KB compartida sirve a varios equipos; cada equipo solo debe ver sus propios documentos.
→Etiquete cada fragmento con metadatos `tenant_id` / `team_id` / `clearance` durante la ingesta. En el momento de la consulta, configure `retrievalConfiguration.vectorSearchConfiguration.filter` con los valores permitidos del llamador desde la sesión de IAM o el contexto de la aplicación.
Por qué: La similitud de vectores ignora el control de acceso; el filtrado de metadatos es la única forma duradera de aislamiento por inquilino en una KB compartida.
Referencia↗
Un cliente de la UE requiere que los prompts y los embeddings de la KB nunca salgan de eu-west-1.
→Despliegue Bedrock + KB + S3 source bucket en eu-west-1. Fije las invocaciones a través del ARN del perfil de inferencia con ámbito en eu-west-1; SCP `aws:RequestedRegion` deniega en otras regiones para `bedrock:*`.
Referencia↗