手册 — NCA-GENL NVIDIA-Certified Associate: Generative AI LLMs

最后审核：2026年6月

NCA-GENL 考试涉及的架构模式快速参考。从头到尾阅读，或跳转到任意章节。

核心机器学习和人工智能知识

解释变压器在生成下一个token时如何衡量远距离token的权重。

自注意力机制。每个token通过查询/键/值投影关注其他所有token，从而生成上下文加权的表示。

原因: 注意力机制而非循环机制，赋予了transformer长距离上下文感知能力和可并行训练的特性。

选择如何将新知识或行为注入到 LLM 中。

经常变化的新事实 → RAG。新任务行为/风格 → fine-tune（微调）。大规模新基础能力/词汇 → continued pre-training（持续预训练）。

原因: RAG 使数据保持外部且可更新；fine-tuning 将行为融入权重；pre-training 是最昂贵的杠杆。

定义一个模型成为基础模型的要素。

一个在广泛、大部分未标记数据上预训练的大型模型，可以通过 prompting、RAG 或 fine-tuning 适应许多下游任务。

估算文本如何映射到模型输入单元以及成本驱动因素。

文本由分词器（例如 BPE）分割成子词 token。成本和上下文限制以 token 衡量，而非字符或单词。

原因: 稀有词或非英语词汇会分词成更多 token，增加上下文使用量和推理成本。

长文档无法放入单个 prompt 中。

输入超出模型's的上下文窗口（输入+输出的最大 token 数）。将文档分块用于 RAG 或选择上下文更长的模型。

原因: 上下文窗口是一个硬性限制；超出部分会被截断并无声地丢失。

为文本上的语义搜索或 RAG 检索提供支持。

使用 embedding 模型将文本转换为稠密向量，然后通过余弦/点积相似度从向量存储中检索。

原因: embeddings 将语义相似的文本放在彼此附近，从而实现基于意义而非关键词的检索。

选择输出行为：确定性 vs. 创造性。

低 temperature (~0.0-0.3) → 集中、可重复。高 temperature (~0.7-1.0) → 多样、有创造性。分类或提取时使用接近0的值。

原因: Temperature 在采样前对概率分布进行缩放；较低的值将概率集中在最前面的 token 上。

在 temperature 之外限制候选 token 池。

Top-k 保留 k 个最有可能的 token；top-p (nucleus) 保留累积概率达到 p 的最小集合。

原因: Top-p 使候选集适应分布形状；top-k 宽度固定，无论置信度如何。

识别 LLM 如何从未标记文本中学习。

自监督学习——下一个 token（因果）或被遮蔽 token 预测从文本本身创建标签，无需人工标注。

原因: 这使得 LLM 可以在互联网规模的语料库上进行训练，而无需手动标注。

将架构与任务族匹配。

生成 → 仅解码器 (GPT-style)。理解/分类 → 仅编码器 (BERT-style)。序列到序列翻译/摘要 → 编码器-解码器 (T5-style)。

原因: 仅解码器模型从左到右预测；编码器看到双向上下文，更适合表示任务。

使基础模型遵循指令并偏好有帮助、安全的答案。

指令微调，然后是 RLHF 等对齐方法——从人类偏好排名中进行强化学习。

原因: 一个原始的预训练模型预测文本；对齐将其引导至预期的助手行为。

模型声称自信但捏造的事实。

幻觉。通过 RAG 进行接地、降低 temperature、引用来源、添加 guardrails 以及对高风险输出进行人工审查来缓解。

原因: LLM 预测合理 token，而非经过验证的事实；接地提供缺失的证据。

区分模型大小和训练数据大小。

Parameters = 学习到的权重（模型容量）。Tokens = 训练文本量。两者都在缩放定律下扩展能力。

原因: 在过少 token 上欠训练的更大模型，其性能不如训练充分的较小模型（Chinchilla 洞察）。

区分 LLM 生命周期的两个 GPU 密集型阶段。

训练从数据更新权重（一次性，批处理）。推理运行冻结模型生成输出（持续进行，对延迟敏感）。

原因: 优化工具不同：训练使用并行框架；推理使用 TensorRT-LLM 和 Triton。

一个 fine-tuned 模型记住训练样本，并在新输入上表现不佳。

过拟合。通过更多/多样化数据、提前停止、降低学习率、减少 epoch 或使用 dropout 等正则化方法来缓解。

原因: 大的训练与验证差距意味着模型拟合了噪声而非可泛化模式。

软件开发

快速部署一个经过优化的 LLM 作为生产微服务，并提供 OpenAI 兼容的 API。

使用 NVIDIA NIM 微服务——一个预构建、容器化、经过 TensorRT-LLM 优化的模型端点。

原因: NIM 将模型、运行时和优化引擎打包，因此您可以跳过手动配置 TensorRT-LLM 和 Triton。

参考

在一个推理服务器后，通过批处理、并发和多个后端服务多个模型。

NVIDIA Triton Inference Server。支持动态批处理、模型集成以及 TensorRT/PyTorch/ONNX 后端。

原因: Triton 通过并发模型执行和动态批处理最大限度地提高 GPU 利用率。

参考

在服务前，降低 NVIDIA GPU 上的 LLM 推理延迟。

使用 TensorRT-LLM 编译模型——实现 kernel fusion、quantization、in-flight batching 和 KV-cache 优化。

原因: TensorRT-LLM 生成的优化引擎比运行原始框架模型快得多。

参考

在 NVIDIA GPU 上大规模训练、定制或 fine-tune LLM。

NVIDIA NeMo framework — 用于构建、定制和部署生成式 AI 模型的端到端工具包。

原因: NeMo 在一个为多 GPU 扩展设计的堆栈中涵盖了数据整理、训练、PEFT 和对齐。

参考

构建一个应用程序，从基础模型从未见过的私有文档中回答问题。

RAG pipeline：将文档分块 + embed 到向量存储中，在查询时通过相似性检索 top-k，并将它们注入到 prompt 中。

原因: 检索将答案基于当前拥有的数据，无需重新训练模型。

在整个对话中约束助手的语气、角色和规则。

在用户发言之前，设置一个定义角色、约束和格式的系统 prompt/消息。

原因: 系统消息在轮次之间保持不变，并且比每轮指令更可靠地引导行为。

在没有任何训练的情况下提高结构化任务的准确性。

Few-shot prompting——在实际输入之前，在 prompt 中嵌入 2-5 个输入/输出示例。

原因: In-context learning 让模型无需权重更新即可根据示例进行模式匹配。

模型在多步推理或数学问题上出错。

Chain-of-thought prompting——指示模型在给出最终答案之前逐步推理。

原因: 引导中间步骤可以提高组合任务的推理准确性。

让 LLM 可靠地触发外部 API、数据库或工具。

使用 function/tool calling——定义工具 schema；模型发出您的代码执行的结构化参数。

原因: 结构化工具调用优于解析自由文本，并且它们将模型与实时系统结合起来用于 agentic 流程。

下游代码需要模型输出严格的 JSON。

在 prompt 中请求 JSON schema 并使用受限/引导式解码；在使用前验证输出。

原因: Schema-guided 解码可以防止损坏的 JSON 导致解析失败。

聊天 UI 必须在 token 生成时显示，而不是在完成之后。

从服务端点使用 streaming（逐 token）推理。

原因: Streaming 降低了感知延迟；NIM 和 Triton 都支持流式响应。

将检索、prompting 和工具步骤组合成一个应用程序 pipeline。

使用 LangChain 或 LlamaIndex 等编排框架来链接检索器、prompt、模型和工具。

原因: 这些框架在 NIM/NeMo 端点之上提供了可重用的 RAG 和 agent 抽象。

在打包的微服务和手动构建的服务堆栈之间做出选择。

快速标准化部署 → NIM。深度定制后端/模型逻辑 → 直接使用 Triton + TensorRT-LLM。

原因: NIM 以可配置性换取速度；原始 Triton 提供对服务图的完全控制。

参考

实验

在有限的 GPU 内存上 fine-tune 大型模型，而不触及所有权重。

LoRA / PEFT——在冻结基础权重的同时训练小型低秩 adapter 矩阵。

原因: LoRA 将可训练参数减少了几个数量级，因此 fine-tuning 可以在适度的 GPU 上进行。

参考

以尽可能最严格的内存预算 fine-tune 超大型模型。

QLoRA——将冻结的基础模型量化为 4-bit，并在其之上训练 LoRA adapters。

原因: 量化基础模型比单独使用 LoRA 更能缩小内存，从而使更大的模型可以在一个 GPU 上运行。

选择满足质量标准的最低成本定制方案。

按顺序升级：prompt engineering → few-shot → RAG → LoRA fine-tuning → full fine-tuning。

原因: 每一步的成本和精力都会增加；在达到目标的第一个步骤停止。

监督式 fine-tuning 需要正确的训练数据形状。

提供指令/响应 (prompt-completion) 对，通常采用 JSONL 格式。

原因: SFT 教导模型将输入映射到所需的输出；这些对定义了该映射。

Fine-tuning 损失发散或模型遗忘原有能力。

降低学习率和/或减少 epoch；观察验证损失以防灾难性遗忘。

原因: 过高的学习率会破坏训练稳定性并覆盖预训练知识。

衡量 fine-tune 或 prompt 更改是否确实有所帮助。

保留模型从未训练过的验证/测试集，并比较前后指标。

原因: 在训练数据上评估会高估质量；只有保留的数据才能反映泛化能力。

比较使用不同超参数和数据进行的多次 fine-tuning 运行。

使用实验跟踪器（例如 MLflow, Weights & Biases, TensorBoard）记录运行、配置和指标。

原因: 可重现性需要记录哪个配置产生了哪个结果；记忆力无法扩展。

自动评分生成文本的质量。

摘要 → ROUGE。翻译 → BLEU。语义匹配 → BERTScore。开放式质量 → LLM-as-judge 或人工评估。

原因: 词汇重叠指标会错过含义；对于细微的质量，需要人工或模型判断的评估。

RAG 检索到不相关或过少的上下文。

调整 chunk 大小/重叠、top-k、embedding 模型，并添加重新排序；将检索质量与生成质量分开验证。

原因: 大多数 RAG 故障都是检索故障；在指责生成器之前修复检索问题。

决定两种 prompt 变体中哪一种表现更好。

针对固定的评估集运行两者并比较指标；迭代数据和 prompt，而不仅仅是模型。

原因: 在相同输入上的受控比较可以隔离 prompt 更改的效果。

在针对狭窄任务进行 fine-tuning 后，模型失去了通用能力。

灾难性遗忘。通过 PEFT/LoRA、降低学习率、减少 epoch 或将通用数据混合到 fine-tune 集中来缓解。

原因: 基于 adapter 的微调保留了基础权重，限制了与原始能力的偏差。

数据分析

在 GPU 规模下，为 LLM 训练整理大型网络/文本语料库。

NVIDIA NeMo Curator — 用于训练数据的 GPU 加速清洗、去重、质量过滤和 PII 处理。

原因: 数据质量决定模型质量；Curator 可以扩展在 CPU 上无法实现的整理工作。

参考

训练语料库包含许多近似重复的文档。

在训练前进行去重（精确和模糊/近似重复）。

原因: 重复数据浪费计算资源，使模型偏向重复内容，并存在记忆/泄漏风险。

为 RAG 检索分割文档。

将文档分块成语义连贯、适度重叠的段落；根据 embedding 模型和上下文预算调整大小。

原因: 过大的分块会稀释相关性；过小的分块会丢失上下文。重叠部分保留边界含义。

原始抓取的文本存在噪声，包含样板文件、有毒或低质量内容。

应用质量和毒性过滤器、语言识别以及启发式方法来剔除低价值文档。

原因: 输入垃圾会降低模型质量；过滤比增加原始数据量更能提高下游质量。

为语义检索准备文档集合。

使用一致的 embedding 模型为每个分块生成 embeddings，并将它们存储在向量索引中。

原因: 查询和文档 embedding 必须来自同一个模型才能进行比较。

检查训练集是否低估了某些群体或主题。

分析类别、来源和人口统计学分布；在训练前重新平衡或补充空白。

原因: 倾斜的训练数据会导致模型行为偏差；解决方案应在数据层进行。

训练或 RAG 数据可能包含个人信息。

在数据准备阶段，检测并编辑/遮蔽 PII，防止其到达模型权重或索引。

原因: 融入权重的知识无法在推理时可靠地遮蔽；应在上游移除 PII。

可信人工智能

使 LLM 应用程序保持主题一致，阻止不安全内容，并防止越狱。

NVIDIA NeMo Guardrails — 用于主题控制、安全过滤和对话流的可编程 guardrails。

原因: Guardrails 独立于底层模型对输入和输出强制执行策略。

参考

减少已部署助手中自信但错误的答案。

通过 RAG 接地响应，要求引用，添加事实核查 guardrails，并在高风险输出中保持人工参与。

原因: 接地提供可验证的证据，否则模型会凭空捏造。

用户输入试图覆盖系统 prompt 或窃取数据。

深度防御：guardrails、输入/输出过滤、指令隔离以及 agent 的最小权限工具许可。

原因: 没有单一控制能阻止注入；应将过滤与有限的能力结合使用。

部署的模型为某些群体产生偏斜或不公平的输出。

审计输出是否存在偏差，重新平衡/增强训练数据，并在评估中添加公平性检查。

原因: 偏差通常源于数据；在部署前后对其进行测量和纠正。

prompt 和响应不得脱离组织's的控制。

在自有基础设施上使用 NIM/Triton 进行自托管，加密数据，并避免将敏感内容发送给第三方 API。

原因: 本地部署或 VPC 部署将机密数据保留在信任边界内。