Explique qué permite a un transformer ponderar tokens distantes al generar el siguiente.
→Auto-atención. Cada token atiende a todos los demás tokens a través de proyecciones de query/key/value, produciendo representaciones ponderadas por el contexto.
Por qué: La atención, no la recurrencia, es lo que proporciona a los transformers un contexto de largo alcance y un entrenamiento paralelizable.
Elija cómo inyectar nuevos conocimientos o comportamientos en un LLM.
→Hechos nuevos que cambian a menudo → RAG. Nuevo comportamiento/estilo de tarea → fine-tune. Nueva capacidad/vocabulario base a escala → pre-training continuado.
Por qué: RAG mantiene los datos externos y actualizables; el fine-tuning incorpora el comportamiento en los pesos; el pre-training es la palanca más cara.
Defina qué convierte un modelo en un foundation model.
→Un modelo grande pre-entrenado con datos amplios, en su mayoría no etiquetados, adaptable a muchas tareas posteriores mediante prompting, RAG o fine-tuning.
Estime cómo el texto se asigna a las unidades de entrada del modelo y qué impulsa el costo.
→El texto se divide en sub-word tokens mediante un tokenizer (por ejemplo, BPE). El costo y los límites de contexto se miden en tokens, no en caracteres o palabras.
Por qué: Las palabras raras o no inglesas se dividen en más tokens, inflando el uso del contexto y el costo de inferencia.
Un documento largo no cabe en un solo prompt.
→La entrada excede la context window del modelo (tokens máximos para entrada + salida). Divida el documento para RAG o elija un modelo con un contexto más largo.
Por qué: La context window es un límite estricto; todo lo que está más allá se trunca y se pierde silenciosamente.
Potenciar la semantic search o la recuperación de RAG sobre texto.
→Utilice un embedding model para convertir texto en vectores densos, luego recupere por similitud de coseno/producto escalar de un vector store.
Por qué: Los embeddings colocan texto semánticamente similar cerca uno del otro, lo que permite una recuperación basada en el significado en lugar de la recuperación por palabras clave.
Elija el comportamiento de salida: determinista vs. creativo.
→Temperatura baja (~0.0-0.3) → enfocada, repetible. Temperatura alta (~0.7-1.0) → diversa, creativa. Use cerca de 0 para clasificación o extracción.
Por qué: La temperatura escala la distribución de probabilidad antes del muestreo; los valores más bajos concentran la masa en los tokens superiores.
Restrinja el conjunto de tokens candidatos más allá de la temperatura.
→Top-k mantiene los k tokens más probables; top-p (núcleo) mantiene el conjunto más pequeño cuya probabilidad acumulada alcanza p.
Por qué: Top-p adapta el conjunto de candidatos a la forma de la distribución; top-k tiene un ancho fijo independientemente de la confianza.
Identifique cómo los LLMs aprenden de texto sin etiquetar.
→Aprendizaje auto-supervisado — la predicción del siguiente token (causal) o del token enmascarado crea etiquetas a partir del propio texto, sin anotación humana.
Por qué: Es lo que permite a los LLMs entrenar en corpora a escala de internet sin etiquetado manual.
Asigne la arquitectura a la familia de tareas.
→Generación → solo decodificador (estilo GPT). Comprensión/clasificación → solo codificador (estilo BERT). Traducción/resumen de secuencia a secuencia → codificador-decodificador (estilo T5).
Por qué: Los modelos solo de decodificador predicen de izquierda a derecha; los codificadores ven el contexto bidireccional, mejor para tareas de representación.
Haga que un modelo base siga instrucciones y prefiera respuestas útiles y seguras.
→Ajuste de instrucciones seguido de alineación como RLHF — aprendizaje por refuerzo a partir de clasificaciones de preferencias humanas.
Por qué: Un modelo pre-entrenado en bruto predice texto; la alineación lo dirige hacia el comportamiento de asistente deseado.
El modelo afirma hechos con confianza pero fabricados.
→Alucinación. Mitigue fundamentando con RAG, bajando la temperatura, citando fuentes y añadiendo guardrails más revisión humana para salidas de alto riesgo.
Por qué: Los LLMs predicen tokens plausibles, no hechos verificados; la fundamentación proporciona la evidencia que falta.
Distinga el tamaño del modelo del tamaño de los datos de entrenamiento.
→Parámetros = pesos aprendidos (capacidad del modelo). Tokens = volumen de texto de entrenamiento. Ambos escalan la capacidad bajo las leyes de escalado.
Por qué: Un modelo más grande sub-entrenado con muy pocos tokens rinde menos que uno más pequeño y bien entrenado (conocimiento de Chinchilla).
Separe las dos fases intensivas en GPU del ciclo de vida de un LLM.
→El entrenamiento actualiza los pesos a partir de los datos (una sola vez, por lotes). La inferencia ejecuta el modelo congelado para generar salidas (continua, sensible a la latencia).
Por qué: Las herramientas de optimización difieren: el entrenamiento utiliza frameworks de paralelismo; la inferencia utiliza TensorRT-LLM y Triton.
Un modelo fine-tuned memoriza ejemplos de entrenamiento y falla en nuevas entradas.
→Overfitting. Mitigue con más/diversidad de datos, early stopping, menor tasa de aprendizaje, menos épocas o regularización como dropout.
Por qué: Una gran brecha entre entrenamiento y validación significa que el modelo ajustó el ruido en lugar de patrones generalizables.