Explique o que permite a um transformer pesar tokens distantes ao gerar o próximo.
→Autoatenção. Cada token presta atenção a todos os outros tokens via projeções de query/key/value, produzindo representações ponderadas pelo contexto.
Por quê: A atenção, e não a recorrência, é o que confere aos transformers contexto de longo alcance e treinamento paralelizado.
Escolha como injetar novo conhecimento ou comportamento num LLM.
→Fatos novos que mudam frequentemente → RAG. Novo comportamento/estilo de tarefa → fine-tune. Nova capacidade/vocabulário base em escala → pré-treinamento contínuo.
Por quê: RAG mantém os dados externos e atualizáveis; o fine-tuning incorpora o comportamento nos pesos; o pré-treinamento é a alavanca mais cara.
Defina o que torna um modelo um modelo de base.
→Um modelo grande pré-treinado em dados amplos, principalmente não rotulados, que é adaptável a muitas tarefas downstream via prompting, RAG, ou fine-tuning.
Estime como o texto é mapeado para as unidades de entrada do modelo e o que impulsiona o custo.
→O texto é dividido em tokens de subpalavras por um tokenizador (por exemplo, BPE). O custo e os limites de contexto são medidos em tokens, não em caracteres ou palavras.
Por quê: Palavras raras ou não inglesas dividem-se em mais tokens, aumentando o uso do contexto e o custo de inferência.
Um documento longo não cabe num único prompt.
→A entrada excede a janela de contexto do modelo's (máximo de tokens para entrada + saída). Divida o documento para RAG ou escolha um modelo com contexto mais longo.
Por quê: A janela de contexto é um limite rígido; tudo o que está para além dela é truncado e silenciosamente perdido.
Potencie a pesquisa semântica ou a recuperação RAG sobre texto.
→Use um modelo de embedding para converter texto em vetores densos e, em seguida, recupere por similaridade de cosseno/produto escalar de um armazenamento de vetores.
Por quê: Embeddings colocam texto semanticamente similar próximos uns dos outros, permitindo a recuperação baseada no significado, em vez de na palavra-chave.
Escolha o comportamento de saída: determinístico vs. criativo.
→Temperatura baixa (~0,0-0,3) → focado, repetível. Temperatura alta (~0,7-1,0) → diverso, criativo. Use próximo de 0 para classificação ou extração.
Por quê: A temperatura escala a distribuição de probabilidade antes da amostragem; valores mais baixos concentram a massa nos tokens principais.
Restrinja o conjunto de tokens candidatos para além da temperatura.
→Top-k mantém os k tokens mais prováveis; top-p (núcleo) mantém o menor conjunto cuja probabilidade cumulativa atinge p.
Por quê: Top-p adapta o conjunto de candidatos à forma da distribuição; top-k tem largura fixa independentemente da confiança.
Identifique como os LLMs aprendem a partir de texto não rotulado.
→Aprendizagem autossupervisionada — a previsão de próximo token (causal) ou token mascarado cria rótulos a partir do próprio texto, sem anotação humana.
Por quê: É o que permite aos LLMs treinar em corpora à escala da internet sem rotulagem manual.
Associe a arquitetura à família de tarefas.
→Geração → apenas decodificador (estilo GPT). Compreensão/classificação → apenas codificador (estilo BERT). Tradução/resumo seq-to-seq → codificador-decodificador (estilo T5).
Por quê: Modelos apenas com decodificador preveem da esquerda para a direita; os codificadores veem o contexto bidirecional, melhor para tarefas de representação.
Faça com que um modelo base siga instruções e prefira respostas úteis e seguras.
→Ajuste de instruções seguido de alinhamento, como RLHF — aprendizagem por reforço a partir de classificações de preferência humana.
Por quê: Um modelo pré-treinado bruto prevê texto; o alinhamento o direciona para o comportamento de assistente pretendido.
O modelo afirma fatos com confiança, mas fabricados.
→Alucinação. Mitigue aterrando com RAG, baixando a temperatura, citando fontes e adicionando guardrails mais revisão humana para saídas de alto risco.
Por quê: Os LLMs preveem tokens plausíveis, não fatos verificados; o aterramento fornece a evidência que falta.
Distinga o tamanho do modelo do tamanho dos dados de treinamento.
→Parâmetros = pesos aprendidos (capacidade do modelo). Tokens = volume de texto de treinamento. Ambos escalam a capacidade sob leis de escala.
Por quê: Um modelo maior sub-treinado com poucos tokens tem um desempenho inferior a um modelo menor e bem treinado (percepção de Chinchilla).
Separe as duas fases de uso intensivo de GPU do ciclo de vida de um LLM.
→O treinamento atualiza os pesos a partir dos dados (uma única vez, em lote). A inferência executa o modelo congelado para gerar saídas (contínuo, sensível à latência).
Por quê: As ferramentas de otimização diferem: o treinamento usa frameworks de paralelismo; a inferência usa TensorRT-LLM e Triton.
Um modelo ajustado memoriza exemplos de treinamento e falha em novas entradas.
→Overfitting (sobreajuste). Mitigue com dados mais/diversos, early stopping, taxa de aprendizado menor, menos épocas ou regularização como dropout.
Por quê: Uma grande diferença entre treinamento e validação significa que o modelo se ajustou ao ruído em vez de padrões generalizáveis.