解释变压器在生成下一个token时如何衡量远距离token的权重。
自注意力机制。每个token通过查询/键/值投影关注其他所有token,从而生成上下文加权的表示。
原因: 注意力机制而非循环机制,赋予了transformer长距离上下文感知能力和可并行训练的特性。
最后审核:2026年6月
NCA-GENL 考试涉及的架构模式快速参考。从头到尾阅读,或跳转到任意章节。
解释变压器在生成下一个token时如何衡量远距离token的权重。
自注意力机制。每个token通过查询/键/值投影关注其他所有token,从而生成上下文加权的表示。
原因: 注意力机制而非循环机制,赋予了transformer长距离上下文感知能力和可并行训练的特性。
选择如何将新知识或行为注入到 LLM 中。
经常变化的新事实 → RAG。新任务行为/风格 → fine-tune(微调)。大规模新基础能力/词汇 → continued pre-training(持续预训练)。
原因: RAG 使数据保持外部且可更新;fine-tuning 将行为融入权重;pre-training 是最昂贵的杠杆。
定义一个模型成为基础模型的要素。
一个在广泛、大部分未标记数据上预训练的大型模型,可以通过 prompting、RAG 或 fine-tuning 适应许多下游任务。
估算文本如何映射到模型输入单元以及成本驱动因素。
文本由分词器(例如 BPE)分割成子词 token。成本和上下文限制以 token 衡量,而非字符或单词。
原因: 稀有词或非英语词汇会分词成更多 token,增加上下文使用量和推理成本。
长文档无法放入单个 prompt 中。
输入超出模型's的上下文窗口(输入+输出的最大 token 数)。将文档分块用于 RAG 或选择上下文更长的模型。
原因: 上下文窗口是一个硬性限制;超出部分会被截断并无声地丢失。
为文本上的语义搜索或 RAG 检索提供支持。
使用 embedding 模型将文本转换为稠密向量,然后通过余弦/点积相似度从向量存储中检索。
原因: embeddings 将语义相似的文本放在彼此附近,从而实现基于意义而非关键词的检索。
选择输出行为:确定性 vs. 创造性。
低 temperature (~0.0-0.3) → 集中、可重复。高 temperature (~0.7-1.0) → 多样、有创造性。分类或提取时使用接近0的值。
原因: Temperature 在采样前对概率分布进行缩放;较低的值将概率集中在最前面的 token 上。
在 temperature 之外限制候选 token 池。
Top-k 保留 k 个最有可能的 token;top-p (nucleus) 保留累积概率达到 p 的最小集合。
原因: Top-p 使候选集适应分布形状;top-k 宽度固定,无论置信度如何。
识别 LLM 如何从未标记文本中学习。
自监督学习——下一个 token(因果)或被遮蔽 token 预测从文本本身创建标签,无需人工标注。
原因: 这使得 LLM 可以在互联网规模的语料库上进行训练,而无需手动标注。
将架构与任务族匹配。
生成 → 仅解码器 (GPT-style)。理解/分类 → 仅编码器 (BERT-style)。序列到序列翻译/摘要 → 编码器-解码器 (T5-style)。
原因: 仅解码器模型从左到右预测;编码器看到双向上下文,更适合表示任务。
使基础模型遵循指令并偏好有帮助、安全的答案。
指令微调,然后是 RLHF 等对齐方法——从人类偏好排名中进行强化学习。
原因: 一个原始的预训练模型预测文本;对齐将其引导至预期的助手行为。
模型声称自信但捏造的事实。
幻觉。通过 RAG 进行接地、降低 temperature、引用来源、添加 guardrails 以及对高风险输出进行人工审查来缓解。
原因: LLM 预测合理 token,而非经过验证的事实;接地提供缺失的证据。
区分模型大小和训练数据大小。
Parameters = 学习到的权重(模型容量)。Tokens = 训练文本量。两者都在缩放定律下扩展能力。
原因: 在过少 token 上欠训练的更大模型,其性能不如训练充分的较小模型(Chinchilla 洞察)。
区分 LLM 生命周期的两个 GPU 密集型阶段。
训练从数据更新权重(一次性,批处理)。推理运行冻结模型生成输出(持续进行,对延迟敏感)。
原因: 优化工具不同:训练使用并行框架;推理使用 TensorRT-LLM 和 Triton。
一个 fine-tuned 模型记住训练样本,并在新输入上表现不佳。
过拟合。通过更多/多样化数据、提前停止、降低学习率、减少 epoch 或使用 dropout 等正则化方法来缓解。
原因: 大的训练与验证差距意味着模型拟合了噪声而非可泛化模式。
快速部署一个经过优化的 LLM 作为生产微服务,并提供 OpenAI 兼容的 API。
使用 NVIDIA NIM 微服务——一个预构建、容器化、经过 TensorRT-LLM 优化的模型端点。
原因: NIM 将模型、运行时和优化引擎打包,因此您可以跳过手动配置 TensorRT-LLM 和 Triton。
在一个推理服务器后,通过批处理、并发和多个后端服务多个模型。
NVIDIA Triton Inference Server。支持动态批处理、模型集成以及 TensorRT/PyTorch/ONNX 后端。
原因: Triton 通过并发模型执行和动态批处理最大限度地提高 GPU 利用率。
在服务前,降低 NVIDIA GPU 上的 LLM 推理延迟。
使用 TensorRT-LLM 编译模型——实现 kernel fusion、quantization、in-flight batching 和 KV-cache 优化。
原因: TensorRT-LLM 生成的优化引擎比运行原始框架模型快得多。
在 NVIDIA GPU 上大规模训练、定制或 fine-tune LLM。
NVIDIA NeMo framework — 用于构建、定制和部署生成式 AI 模型的端到端工具包。
原因: NeMo 在一个为多 GPU 扩展设计的堆栈中涵盖了数据整理、训练、PEFT 和对齐。
构建一个应用程序,从基础模型从未见过的私有文档中回答问题。
RAG pipeline:将文档分块 + embed 到向量存储中,在查询时通过相似性检索 top-k,并将它们注入到 prompt 中。
原因: 检索将答案基于当前拥有的数据,无需重新训练模型。
在整个对话中约束助手的语气、角色和规则。
在用户发言之前,设置一个定义角色、约束和格式的系统 prompt/消息。
原因: 系统消息在轮次之间保持不变,并且比每轮指令更可靠地引导行为。
在没有任何训练的情况下提高结构化任务的准确性。
Few-shot prompting——在实际输入之前,在 prompt 中嵌入 2-5 个输入/输出示例。
原因: In-context learning 让模型无需权重更新即可根据示例进行模式匹配。
模型在多步推理或数学问题上出错。
Chain-of-thought prompting——指示模型在给出最终答案之前逐步推理。
原因: 引导中间步骤可以提高组合任务的推理准确性。
让 LLM 可靠地触发外部 API、数据库或工具。
使用 function/tool calling——定义工具 schema;模型发出您的代码执行的结构化参数。
原因: 结构化工具调用优于解析自由文本,并且它们将模型与实时系统结合起来用于 agentic 流程。
下游代码需要模型输出严格的 JSON。
在 prompt 中请求 JSON schema 并使用受限/引导式解码;在使用前验证输出。
原因: Schema-guided 解码可以防止损坏的 JSON 导致解析失败。
聊天 UI 必须在 token 生成时显示,而不是在完成之后。
从服务端点使用 streaming(逐 token)推理。
原因: Streaming 降低了感知延迟;NIM 和 Triton 都支持流式响应。
将检索、prompting 和工具步骤组合成一个应用程序 pipeline。
使用 LangChain 或 LlamaIndex 等编排框架来链接检索器、prompt、模型和工具。
原因: 这些框架在 NIM/NeMo 端点之上提供了可重用的 RAG 和 agent 抽象。
在打包的微服务和手动构建的服务堆栈之间做出选择。
快速标准化部署 → NIM。深度定制后端/模型逻辑 → 直接使用 Triton + TensorRT-LLM。
原因: NIM 以可配置性换取速度;原始 Triton 提供对服务图的完全控制。
在有限的 GPU 内存上 fine-tune 大型模型,而不触及所有权重。
LoRA / PEFT——在冻结基础权重的同时训练小型低秩 adapter 矩阵。
原因: LoRA 将可训练参数减少了几个数量级,因此 fine-tuning 可以在适度的 GPU 上进行。
以尽可能最严格的内存预算 fine-tune 超大型模型。
QLoRA——将冻结的基础模型量化为 4-bit,并在其之上训练 LoRA adapters。
原因: 量化基础模型比单独使用 LoRA 更能缩小内存,从而使更大的模型可以在一个 GPU 上运行。
选择满足质量标准的最低成本定制方案。
按顺序升级:prompt engineering → few-shot → RAG → LoRA fine-tuning → full fine-tuning。
原因: 每一步的成本和精力都会增加;在达到目标的第一个步骤停止。
监督式 fine-tuning 需要正确的训练数据形状。
提供指令/响应 (prompt-completion) 对,通常采用 JSONL 格式。
原因: SFT 教导模型将输入映射到所需的输出;这些对定义了该映射。
Fine-tuning 损失发散或模型遗忘原有能力。
降低学习率和/或减少 epoch;观察验证损失以防灾难性遗忘。
原因: 过高的学习率会破坏训练稳定性并覆盖预训练知识。
衡量 fine-tune 或 prompt 更改是否确实有所帮助。
保留模型从未训练过的验证/测试集,并比较前后指标。
原因: 在训练数据上评估会高估质量;只有保留的数据才能反映泛化能力。
比较使用不同超参数和数据进行的多次 fine-tuning 运行。
使用实验跟踪器(例如 MLflow, Weights & Biases, TensorBoard)记录运行、配置和指标。
原因: 可重现性需要记录哪个配置产生了哪个结果;记忆力无法扩展。
自动评分生成文本的质量。
摘要 → ROUGE。翻译 → BLEU。语义匹配 → BERTScore。开放式质量 → LLM-as-judge 或人工评估。
原因: 词汇重叠指标会错过含义;对于细微的质量,需要人工或模型判断的评估。
RAG 检索到不相关或过少的上下文。
调整 chunk 大小/重叠、top-k、embedding 模型,并添加重新排序;将检索质量与生成质量分开验证。
原因: 大多数 RAG 故障都是检索故障;在指责生成器之前修复检索问题。
决定两种 prompt 变体中哪一种表现更好。
针对固定的评估集运行两者并比较指标;迭代数据和 prompt,而不仅仅是模型。
原因: 在相同输入上的受控比较可以隔离 prompt 更改的效果。
在针对狭窄任务进行 fine-tuning 后,模型失去了通用能力。
灾难性遗忘。通过 PEFT/LoRA、降低学习率、减少 epoch 或将通用数据混合到 fine-tune 集中来缓解。
原因: 基于 adapter 的微调保留了基础权重,限制了与原始能力的偏差。
在 GPU 规模下,为 LLM 训练整理大型网络/文本语料库。
NVIDIA NeMo Curator — 用于训练数据的 GPU 加速清洗、去重、质量过滤和 PII 处理。
原因: 数据质量决定模型质量;Curator 可以扩展在 CPU 上无法实现的整理工作。
训练语料库包含许多近似重复的文档。
在训练前进行去重(精确和模糊/近似重复)。
原因: 重复数据浪费计算资源,使模型偏向重复内容,并存在记忆/泄漏风险。
为 RAG 检索分割文档。
将文档分块成语义连贯、适度重叠的段落;根据 embedding 模型和上下文预算调整大小。
原因: 过大的分块会稀释相关性;过小的分块会丢失上下文。重叠部分保留边界含义。
原始抓取的文本存在噪声,包含样板文件、有毒或低质量内容。
应用质量和毒性过滤器、语言识别以及启发式方法来剔除低价值文档。
原因: 输入垃圾会降低模型质量;过滤比增加原始数据量更能提高下游质量。
为语义检索准备文档集合。
使用一致的 embedding 模型为每个分块生成 embeddings,并将它们存储在向量索引中。
原因: 查询和文档 embedding 必须来自同一个模型才能进行比较。
检查训练集是否低估了某些群体或主题。
分析类别、来源和人口统计学分布;在训练前重新平衡或补充空白。
原因: 倾斜的训练数据会导致模型行为偏差;解决方案应在数据层进行。
训练或 RAG 数据可能包含个人信息。
在数据准备阶段,检测并编辑/遮蔽 PII,防止其到达模型权重或索引。
原因: 融入权重的知识无法在推理时可靠地遮蔽;应在上游移除 PII。
使 LLM 应用程序保持主题一致,阻止不安全内容,并防止越狱。
NVIDIA NeMo Guardrails — 用于主题控制、安全过滤和对话流的可编程 guardrails。
原因: Guardrails 独立于底层模型对输入和输出强制执行策略。
减少已部署助手中自信但错误的答案。
通过 RAG 接地响应,要求引用,添加事实核查 guardrails,并在高风险输出中保持人工参与。
原因: 接地提供可验证的证据,否则模型会凭空捏造。
用户输入试图覆盖系统 prompt 或窃取数据。
深度防御:guardrails、输入/输出过滤、指令隔离以及 agent 的最小权限工具许可。
原因: 没有单一控制能阻止注入;应将过滤与有限的能力结合使用。
部署的模型为某些群体产生偏斜或不公平的输出。
审计输出是否存在偏差,重新平衡/增强训练数据,并在评估中添加公平性检查。
原因: 偏差通常源于数据;在部署前后对其进行测量和纠正。
prompt 和响应不得脱离组织's的控制。
在自有基础设施上使用 NIM/Triton 进行自托管,加密数据,并避免将敏感内容发送给第三方 API。
原因: 本地部署或 VPC 部署将机密数据保留在信任边界内。