Guia — NCA-GENL NVIDIA-Certified Associate: Generative AI LLMs

Última revisão: junho de 2026

Uma referência rápida dos padrões arquiteturais que o exame NCA-GENL avalia. Leia de cima a baixo ou pule para uma seção.

Conhecimento Essencial de Machine Learning e IA

Explique o que permite a um transformer pesar tokens distantes ao gerar o próximo.

Autoatenção. Cada token presta atenção a todos os outros tokens via projeções de query/key/value, produzindo representações ponderadas pelo contexto.

Por quê: A atenção, e não a recorrência, é o que confere aos transformers contexto de longo alcance e treinamento paralelizado.

Escolha como injetar novo conhecimento ou comportamento num LLM.

Fatos novos que mudam frequentemente → RAG. Novo comportamento/estilo de tarefa → fine-tune. Nova capacidade/vocabulário base em escala → pré-treinamento contínuo.

Por quê: RAG mantém os dados externos e atualizáveis; o fine-tuning incorpora o comportamento nos pesos; o pré-treinamento é a alavanca mais cara.

Defina o que torna um modelo um modelo de base.

Um modelo grande pré-treinado em dados amplos, principalmente não rotulados, que é adaptável a muitas tarefas downstream via prompting, RAG, ou fine-tuning.

Estime como o texto é mapeado para as unidades de entrada do modelo e o que impulsiona o custo.

O texto é dividido em tokens de subpalavras por um tokenizador (por exemplo, BPE). O custo e os limites de contexto são medidos em tokens, não em caracteres ou palavras.

Por quê: Palavras raras ou não inglesas dividem-se em mais tokens, aumentando o uso do contexto e o custo de inferência.

Um documento longo não cabe num único prompt.

A entrada excede a janela de contexto do modelo's (máximo de tokens para entrada + saída). Divida o documento para RAG ou escolha um modelo com contexto mais longo.

Por quê: A janela de contexto é um limite rígido; tudo o que está para além dela é truncado e silenciosamente perdido.

Potencie a pesquisa semântica ou a recuperação RAG sobre texto.

Use um modelo de embedding para converter texto em vetores densos e, em seguida, recupere por similaridade de cosseno/produto escalar de um armazenamento de vetores.

Por quê: Embeddings colocam texto semanticamente similar próximos uns dos outros, permitindo a recuperação baseada no significado, em vez de na palavra-chave.

Escolha o comportamento de saída: determinístico vs. criativo.

Temperatura baixa (~0,0-0,3) → focado, repetível. Temperatura alta (~0,7-1,0) → diverso, criativo. Use próximo de 0 para classificação ou extração.

Por quê: A temperatura escala a distribuição de probabilidade antes da amostragem; valores mais baixos concentram a massa nos tokens principais.

Restrinja o conjunto de tokens candidatos para além da temperatura.

Top-k mantém os k tokens mais prováveis; top-p (núcleo) mantém o menor conjunto cuja probabilidade cumulativa atinge p.

Por quê: Top-p adapta o conjunto de candidatos à forma da distribuição; top-k tem largura fixa independentemente da confiança.

Identifique como os LLMs aprendem a partir de texto não rotulado.

Aprendizagem autossupervisionada — a previsão de próximo token (causal) ou token mascarado cria rótulos a partir do próprio texto, sem anotação humana.

Por quê: É o que permite aos LLMs treinar em corpora à escala da internet sem rotulagem manual.

Associe a arquitetura à família de tarefas.

Geração → apenas decodificador (estilo GPT). Compreensão/classificação → apenas codificador (estilo BERT). Tradução/resumo seq-to-seq → codificador-decodificador (estilo T5).

Por quê: Modelos apenas com decodificador preveem da esquerda para a direita; os codificadores veem o contexto bidirecional, melhor para tarefas de representação.

Faça com que um modelo base siga instruções e prefira respostas úteis e seguras.

Ajuste de instruções seguido de alinhamento, como RLHF — aprendizagem por reforço a partir de classificações de preferência humana.

Por quê: Um modelo pré-treinado bruto prevê texto; o alinhamento o direciona para o comportamento de assistente pretendido.

O modelo afirma fatos com confiança, mas fabricados.

Alucinação. Mitigue aterrando com RAG, baixando a temperatura, citando fontes e adicionando guardrails mais revisão humana para saídas de alto risco.

Por quê: Os LLMs preveem tokens plausíveis, não fatos verificados; o aterramento fornece a evidência que falta.

Distinga o tamanho do modelo do tamanho dos dados de treinamento.

Parâmetros = pesos aprendidos (capacidade do modelo). Tokens = volume de texto de treinamento. Ambos escalam a capacidade sob leis de escala.

Por quê: Um modelo maior sub-treinado com poucos tokens tem um desempenho inferior a um modelo menor e bem treinado (percepção de Chinchilla).

Separe as duas fases de uso intensivo de GPU do ciclo de vida de um LLM.

O treinamento atualiza os pesos a partir dos dados (uma única vez, em lote). A inferência executa o modelo congelado para gerar saídas (contínuo, sensível à latência).

Por quê: As ferramentas de otimização diferem: o treinamento usa frameworks de paralelismo; a inferência usa TensorRT-LLM e Triton.

Um modelo ajustado memoriza exemplos de treinamento e falha em novas entradas.

Overfitting (sobreajuste). Mitigue com dados mais/diversos, early stopping, taxa de aprendizado menor, menos épocas ou regularização como dropout.

Por quê: Uma grande diferença entre treinamento e validação significa que o modelo se ajustou ao ruído em vez de padrões generalizáveis.

Desenvolvimento de Software

Implante um LLM otimizado como um microsserviço de produção com uma API compatível com OpenAI rapidamente.

Use um microsserviço NVIDIA NIM — um endpoint de modelo pré-construído, conteinerizado e otimizado para TensorRT-LLM.

Por quê: NIM empacota o modelo, o runtime e o motor otimizado para que você ignore a configuração manual de TensorRT-LLM e Triton.

Referência

Sirva múltiplos modelos com batching, concorrência e múltiplos backends por trás de um único servidor de inferência.

NVIDIA Triton Inference Server. Suporta batching dinâmico, ensembles de modelos e backends TensorRT/PyTorch/ONNX.

Por quê: Triton maximiza a utilização da GPU através da execução de modelos concorrentes e batching dinâmico.

Referência

Reduza a latência de inferência de LLM em GPUs NVIDIA antes de servir.

Compile o modelo com TensorRT-LLM — fusão de kernel, quantização, batching em tempo real e otimização de cache KV.

Por quê: TensorRT-LLM produz um motor otimizado muito mais rápido do que executar o modelo raw do framework.

Referência

Treine, personalize ou ajuste LLMs em escala em GPUs NVIDIA.

Framework NVIDIA NeMo — toolkit completo para construir, personalizar e implantar modelos de IA generativa.

Por quê: NeMo abrange curadoria de dados, treinamento, PEFT e alinhamento numa única pilha projetada para escalabilidade multi-GPU.

Referência

Crie uma aplicação que responda a partir de documentos privados que o modelo base nunca viu.

Pipeline RAG: divida + incorpore documentos num armazenamento de vetores, recupere os top-k por similaridade no momento da consulta e injete-os no prompt.

Por quê: A recuperação fundamenta as respostas em dados atuais e próprios, sem retreinar o modelo.

Restrinja o tom, o papel e as regras do assistente ao longo de uma conversa inteira.

Defina um prompt/mensagem de sistema que defina o papel, as restrições e o formato antes das interações do usuário.

Por quê: A mensagem do sistema persiste ao longo das interações e direciona o comportamento de forma mais fiável do que as instruções por turno.

Melhore a precisão numa tarefa estruturada sem qualquer treinamento.

Few-shot prompting — incorpore 2-5 exemplos de entrada/saída no prompt antes da entrada real.

Por quê: A aprendizagem no contexto permite que o modelo faça correspondência de padrões com exemplos sem atualizações de peso.

O modelo erra problemas de raciocínio multi-passos ou de matemática.

Chain-of-thought prompting — instrua-o a raciocinar passo a passo antes de dar a resposta final.

Por quê: A elicitação de passos intermédios melhora a precisão do raciocínio em tarefas composicionais.

Permita que o LLM acione APIs externas, bancos de dados ou ferramentas de forma confiável.

Use function/tool calling — defina esquemas de ferramentas; o modelo emite argumentos estruturados que o seu código executa.

Por quê: Chamadas de ferramentas estruturadas são melhores do que analisar texto livre, e elas fundamentam o modelo em sistemas reais para fluxos agentic.

O código downstream precisa de JSON estrito do modelo.

Solicite um esquema JSON no prompt e use decodificação restrita/guiada; valide a saída antes de usar.

Por quê: A decodificação guiada por esquema impede JSON malformado que quebraria a análise.

Uma UI de chat deve exibir tokens à medida que são produzidos, em vez de após a conclusão.

Use inferência de streaming (token a token) a partir do endpoint de serviço.

Por quê: Streaming diminui a latência percebida; NIM e Triton suportam respostas em streaming.

Componha etapas de recuperação, prompting e ferramentas em um único pipeline de aplicação.

Use um framework de orquestração como LangChain ou LlamaIndex para encadear retrievers, prompts, modelos e ferramentas.

Por quê: Esses frameworks fornecem abstrações RAG e agent reutilizáveis sobre endpoints NIM/NeMo.

Decida entre um microsserviço empacotado e uma stack de serviço construída manualmente.

Implantação rápida e padronizada → NIM. Lógica de backend/modelo personalizada profunda → Triton + TensorRT-LLM diretamente.

Por quê: NIM troca configurabilidade por velocidade; o Triton raw oferece controle total do grafo de serviço.

Referência

Experimentação

Ajuste um modelo grande em memória de GPU limitada sem tocar em todos os pesos.

LoRA / PEFT — treine pequenas matrizes de adaptador de baixo rank enquanto congela os pesos base.

Por quê: LoRA reduz os parâmetros treináveis em ordens de magnitude, então o fine-tuning se encaixa em GPUs modestas.

Referência

Ajuste um modelo muito grande com o orçamento de memória mais apertado possível.

QLoRA — quantize o modelo base congelado para 4 bits e treine adaptadores LoRA sobre ele.

Por quê: Quantizar a base diminui a memória ainda mais do que o LoRA sozinho, permitindo modelos maiores numa única GPU.

Escolha a personalização mais barata que atenda ao padrão de qualidade.

Escaloe em ordem: engenharia de prompt → few-shot → RAG → LoRA fine-tuning → full fine-tuning.

Por quê: O custo e o esforço aumentam a cada passo; pare no primeiro que atingir o objetivo.

O ajuste supervisionado precisa do formato de dados de treinamento correto.

Forneça pares de instrução/resposta (prompt-completion), tipicamente em JSONL.

Por quê: SFT ensina o modelo a mapear entradas para saídas desejadas; os pares definem esse mapeamento.

A perda do fine-tuning diverge ou o modelo esquece capacidades anteriores.

Diminua a taxa de aprendizado e/ou reduza as épocas; observe a perda de validação para esquecimento catastrófico.

Por quê: Uma taxa de aprendizado muito alta desestabiliza o treinamento e sobrescreve o conhecimento pré-treinado.

Meça se um ajuste ou mudança de prompt realmente ajudou.

Retenha um conjunto de validação/teste no qual o modelo nunca foi treinado e compare as métricas antes vs. depois.

Por quê: Avaliar nos dados de treinamento superestima a qualidade; apenas dados retidos refletem a generalização.

Compare várias execuções de ajuste com diferentes hiperparâmetros e dados.

Registre execuções, configurações e métricas com um rastreador de experimentos (por exemplo, MLflow, Weights & Biases, TensorBoard).

Por quê: A reprodutibilidade exige o registo de qual configuração produziu qual resultado; a memória não escala.

Classifique automaticamente a qualidade do texto gerado.

Resumo → ROUGE. Tradução → BLEU. Correspondência semântica → BERTScore. Qualidade de texto aberto → LLM-as-judge ou avaliação humana.

Por quê: Métricas de sobreposição lexical perdem o significado; para qualidade matizada, é necessária avaliação humana ou de um modelo-juiz.

RAG recupera contexto irrelevante ou muito pouco.

Ajuste o tamanho/sobreposição dos chunks, top-k, o modelo de embedding e adicione re-ranking; verifique a qualidade da recuperação separadamente da geração.

Por quê: A maioria das falhas de RAG são falhas de recuperação; corrija a recuperação antes de culpar o gerador.

Decida qual das duas variantes de prompt tem melhor desempenho.

Execute ambos contra um conjunto de avaliação fixo e compare as métricas; itere nos dados e no prompt, não apenas no modelo.

Por quê: A comparação controlada nas mesmas entradas isola o efeito da mudança no prompt.

Após o fine-tuning numa tarefa específica, o modelo perde a capacidade geral.

Esquecimento catastrófico. Mitigue com PEFT/LoRA, LR mais baixo, menos épocas ou misturando dados gerais no conjunto de ajuste.

Por quê: O ajuste baseado em adaptador preserva os pesos base, limitando o desvio das capacidades originais.

Análise de Dados

Curate um grande corpus web/texto para treinamento de LLM em escala de GPU.

NVIDIA NeMo Curator — limpeza acelerada por GPU, deduplicação, filtragem de qualidade e tratamento de PII para dados de treinamento.

Por quê: A qualidade dos dados impulsiona a qualidade do modelo; Curator escala a curadoria que seria inviável na CPU.

Referência

O corpus de treinamento contém muitos documentos quase duplicados.

Deduplique (exato e difuso/quase duplicado) antes do treinamento.

Por quê: Duplicatas desperdiçam computação, inclinam o modelo para conteúdo repetido e arriscam memorização/vazamento.

Divida documentos para recuperação RAG.

Divida em passagens semanticamente coerentes com sobreposição modesta; dimensione para o modelo de embedding e o orçamento de contexto.

Por quê: Chunks superdimensionados diluem a relevância; chunks minúsculos perdem contexto. A sobreposição preserva o significado dos limites.

Texto bruto extraído é ruidoso, com conteúdo padrão, tóxico ou de baixa qualidade.

Aplique filtros de qualidade e toxicidade, identificação de idioma e heurísticas para descartar documentos de baixo valor.

Por quê: Lixo na entrada degrada o modelo; a filtragem melhora a qualidade downstream mais do que adicionar volume bruto.

Prepare uma coleção de documentos para recuperação semântica.

Gere embeddings para cada chunk com um modelo de embedding consistente e armazene-os em um índice vetorial.

Por quê: Embeddings de consulta e documento devem vir do mesmo modelo para serem comparáveis.

Verifique se um conjunto de treinamento sub-representa grupos ou tópicos.

Analise a distribuição por classes, fontes e dados demográficos; reequilibre ou aumente as lacunas antes do treinamento.

Por quê: Dados de treinamento distorcidos produzem comportamento de modelo distorcido; a correção pertence à camada de dados.

Dados de treinamento ou RAG podem conter informações pessoais.

Detecte e redija/mascare PII durante a preparação de dados antes que atinja os pesos do modelo ou o índice.

Por quê: O conhecimento incorporado nos pesos não pode ser mascarado de forma confiável na inferência; remova PII a montante.

IA Confiável

Mantenha um aplicativo LLM no tópico, bloqueie conteúdo inseguro e evite jailbreaks.

NVIDIA NeMo Guardrails — rails programáveis para controle de tópico, filtragem de segurança e fluxo de diálogo.

Por quê: Guardrails impõem políticas em entradas e saídas independentemente do modelo subjacente.

Referência

Reduza as respostas confiantes, mas erradas, num assistente implantado.

Baseie as respostas com RAG, exija citações, adicione rails de verificação de fatos e mantenha humanos no circuito para saídas de alto risco.

Por quê: O aterramento fornece evidências verificáveis que o modelo inventaria de outra forma.

A entrada do usuário tenta substituir o prompt do sistema ou exfiltrar dados.

Defesa em profundidade: guardrails, filtragem de entrada/saída, isolamento de instruções e permissões de ferramenta de menor privilégio para agents.

Por quê: Nenhum controle único impede a injeção; combine a filtragem com capacidades limitadas.

Um modelo implantado produz saídas distorcidas ou injustas para certos grupos.

Audite as saídas em busca de viés, reequilibre/aumente os dados de treinamento e adicione verificações de imparcialidade à avaliação.

Por quê: O viés geralmente se origina nos dados; meça e corrija-o antes e depois da implantação.

Prompts e respostas não devem sair do controle da organização.

Auto-hospede com NIM/Triton em infraestrutura própria, criptografe dados e evite enviar conteúdo sensível a APIs de terceiros.

Por quê: A implantação on-prem ou VPC mantém dados confidenciais dentro do limite de confiança.