手册 — NCA-GENM NVIDIA-Certified Associate: Generative AI Multimodal

最后审核：2026年6月

NCA-GENM 考试涉及的架构模式快速参考。从头到尾阅读，或跳转到任意章节。

实验

扩散模型输出忽略了提示；需要在不损害图像质量的情况下提高对文本的忠实度。

增加无分类器引导比例；注意过度饱和/伪影并及时回退。

原因: 较高的 CFG 会增强对提示的依从性，但过高会导致颜色失真和不自然的细节——这是一个权衡，而非免费的杠杆。

扩散采样对于交互式演示来说太慢了；需要在不明显损失质量的情况下减少步骤。

切换到更快的 ODE 采样器（DPM-Solver++ / Euler）并减少步骤；使用 FID 进行验证，而非目视判断。

原因: 现代采样器在远少于祖先 DDPM 采样所需的步骤中就能达到可比的质量。

多模态流水线有许多活动部件和一个薄弱的结果；决定下一步要改变什么。

运行受控消融实验——一次改变一个组件，并根据固定的评估集进行测量。

原因: 同时改变多个参数会使结果无法解释；在扩大规模之前先找出原因。

生成结果每次运行都不同，无法公平比较两个提示变体。

固定随机种子（和采样器），以便唯一的差异是正在测试的变量。

原因: 扩散是随机的；如果没有固定的种子，你比较的是噪声，而不是你的改变。

生成的图像持续包含不需要的元素（例如文本、水印、多余的肢体）。

添加一个描述要排除内容的负面提示；与 CFG 结合使用。

原因: 负面提示将无条件分支引导远离指定概念——比重新训练成本更低。

选择正确的指标来驱动文本到图像实验。

使用 FID 衡量图像分布质量，CLIPScore 衡量提示-图像对齐度，并以人类偏好作为最终判断。

原因: 单一指标会产生误导：模型可能在 FID 上得分很高，却忽略了提示。请同时使用这两个维度。

视觉语言模型标注任务给出的标注不一致，存在幻觉。

降低解码温度 / 使用贪婪或低 top-p 进行事实性标注。

原因: 高温会增加创造性和幻觉；标注需要确定性和事实依据。

调节迭代缓慢，因为每一轮都会评估整个数据集。

构建一个小型、有代表性的黄金评估集以实现快速迭代；仅对候选模型运行完整评估。

原因: 在实验阶段，紧密的反馈循环胜过详尽但缓慢的反馈循环。

需要生成的图像遵循精确的姿态、深度或边缘布局。

在文本提示之上添加结构化条件（ControlNet 风格：姿态/深度/Canny 边缘）。

原因: 文本提示无法指定精确的空间结构；辅助条件图可以做到。

两个检查点的 FID/CLIPScore 评分几乎相同；需要选择发布哪一个。

在保留的提示集上运行盲态 A/B 人工偏好测试。

原因: 自动化指标会饱和；人工偏好是生成质量的决胜因素。

模型在您调优过的提示上表现出色，但在新提示上表现不佳。

保留一个在调优期间从未使用过的单独提示集，并根据它进行报告。

原因: 根据评估提示进行调优会使实验过拟合，而不是模型本身。

输出接近目标风格但不完全符合；在提示技巧和训练之间做决定。

在全面重新训练之前，穷尽所有提示/条件以及 LoRA 风格的轻量微调。

原因: 先尝试最便宜的干预——风格上的差距很少能证明全面重新训练是合理的。

核心机器学习/人工智能知识

解释扩散模型如何生成图像。

前向过程向数据添加噪声；模型学习反向过程，从纯噪声中去噪以生成样本。

原因: 生成是迭代去噪的过程——网络在每个步骤中预测噪声（或速度）。

为什么高分辨率扩散模型能够高效运行，而不是直接操作原始像素。

潜在扩散模型在 VAE 的压缩潜在空间中运行扩散过程，然后解码为像素。

原因: 在潜在空间中操作相比在像素空间中操作，能在相同保真度下大幅减少计算量。

模型如何在没有逐像素标签的情况下学习匹配图像和文本。

对比预训练（CLIP 风格）将匹配的图像-文本对拉近，并将不匹配的推开，都在一个共享的 embedding 空间中进行。

原因: 共享空间是实现零样本分类和跨模态检索的基础。

使 transformer 能够在序列或模态之间关联 token 的核心机制。

自注意力/交叉注意力计算 token 之间的加权相关性；交叉注意力将一种模态条件化于另一种模态。

原因: 交叉注意力是扩散 U-Net 将文本条件注入图像生成的方式。

视觉 transformer 如何将图像转换为 token。

将图像分割成固定大小的 patch，线性嵌入每个 patch，并添加位置编码。

原因: Patch 是词 token 的视觉类比——这使得统一的 transformer 骨干网络成为可能。

为图像标注与开放式文本到图像聊天选择架构。

图像标注使用编码器-解码器架构（视觉编码器 + 文本解码器）；灵活生成使用仅解码器多模态 LLM。

原因: 任务形式——固定输入到文本输出与交错生成——决定了架构选择。

单个模型如何同时处理文本和图像。

将每种模态投影到共享的 token 空间，然后将组合序列输入到一个 transformer 中。

原因: token 级别的融合使注意力能够跨模态进行联合推理，而不是后期融合输出。

VAE 在潜在扩散图像生成器中的作用。

VAE 编码器将图像压缩为用于扩散的潜在表示；其解码器在最后重构像素。

原因: 无论扩散模型如何，VAE 的质量决定了最终图像的质量上限。

音频如何进入神经网络模型进行语音或音频生成。

将波形转换为 mel 频谱图（时频图像）；模型在其上进行操作，然后声码器重构音频。

原因: 频谱图使音频对类似图像和序列的模型变得易于处理。

为什么跨模态搜索（文本查询，图像结果）能够工作。

两种模态都被嵌入到一个对齐的向量空间中；检索是跨模态的最近邻搜索。

原因: 对比训练产生的对齐是先决条件——没有它，这些空间就无法比较。

多模态数据

训练视觉语言模型时，标注存在噪声或与图像关联性弱。

根据 CLIP 相似度阈值过滤配对，并重新标注低对齐度的图像。

原因: 数据中糟糕的标注-图像对齐度直接限制了下游模型的提示依从性。

大规模抓取的图像-文本语料库存在记忆化和评估偏差的风险。

在训练之前，对近似相同的图像进行去重（感知哈希 / embedding 相似度）。

原因: 重复数据会夸大记忆化并在评估中泄露，从而过高估计质量。

ASR 训练数据混合了 8kHz 电话音频和 44.1kHz 录音室音频。

将所有音频剪辑重新采样到模型期望的采样率（ASR 通常为 16kHz），并标准化响度。

原因: 不匹配的采样率和电平会破坏频谱特征并损害识别效果。

扩散训练图像的大小和纵横比差异很大。

按纵横比进行分桶，并在桶内调整大小/裁剪以匹配训练分辨率。

原因: 纵横比分桶避免了将所有图像强制为方形引起的失真，同时保持批次均匀。

为生产模型准备网络抓取的多模态语料库。

在训练前运行 NSFW/CSAM 和许可/同意过滤；记录来源。

原因: 生成模型会重现训练内容——不安全或未经许可的数据会带来法律和安全责任。

简短、稀疏的标注限制了模型可以处理的提示多样性。

使用强大的 VLM 生成合成的详细标注进行扩充，然后对其进行质量过滤。

原因: 更丰富的标注拓宽了模型学习遵循的提示分布。

视频片段很长；决定如何将其馈送到多模态模型。

以固定速率（或关键帧）采样帧，并加上对齐的音频/文字记录片段。

原因: 密集帧采样是浪费的；对齐的稀疏采样能以较低成本保留时间信号。

软件开发

在 NVIDIA GPU 上部署一个生成模型作为生产就绪、可扩展的推理端点。

将其作为 NVIDIA NIM 微服务提供——预构建、优化且与 OpenAI 兼容的容器。

原因: NIM 封装了引擎、运行时和 API，让您无需手动构建 TensorRT/Triton 管道。

参考

在 NVIDIA 硬件上为多模态语音流水线需要生产级 ASR 和 TTS。

使用 NVIDIA Riva 进行 GPU 加速的语音识别和合成。

原因: Riva 是 NVIDIA 堆栈中用于流式、低延迟语音的解决方案——它不是通用的 LLM 工具。

参考

在 NVIDIA 生态系统中定制或微调基础模型。

使用 NVIDIA NeMo 进行训练、微调（包括 PEFT/LoRA）和数据整理。

原因: NeMo 是构建/定制层；NIM 是服务层——保持角色区分。

参考

在一个推理服务器后面服务多个模型（视觉编码器 + LLM + 声码器）。

使用 Triton Inference Server 的模型组合功能，在单一请求路径中将它们串联起来。

原因: Triton 支持多框架、多模型和组合流水线，并具备动态批处理能力。

参考

部署模型的推理延迟过高，无法满足目标 SLA。

编译为 TensorRT（在可接受的情况下进行量化），以实现内核融合、低精度执行。

原因: TensorRT 针对特定 GPU 优化图——这是 NVIDIA 降低延迟的标准手段。

参考

在混合图像和文本知识库上构建检索增强生成（RAG）。

将两种模态都嵌入到共享向量存储中，进行跨模态检索，然后根据检索到的结果为生成器提供基础。

原因: 多模态 RAG 需要一个共享的 embedding 空间和一个检索器，而不仅仅是 LLM 调用。

为已部署的多模态应用程序添加可编程的输入/输出安全防护。

使用 NeMo Guardrails 封装模型，以强制执行主题、安全和基础策略。

原因: Guardrails 作为策略层围绕模型运行，而不是内置于权重中。

参考

数据分析

生成的输出偏向于数据集中占主导地位的一种内容类型。

分析数据集分布，并重新平衡或重新加权代表性不足的类别。

原因: 生成模型反映其数据分布——不平衡会导致输出偏差。

在训练之前了解多模态数据集的结构和覆盖范围。

嵌入样本并检查聚类（UMAP/t-SNE）以查找空白、重复项和异常值。

原因: embedding 空间 EDA 能发现原始计数遗漏的覆盖漏洞。

部署的多模态模型在新生产数据上性能下降。

将生产环境的 embedding 分布与训练数据进行比较；标记漂移并触发重新整理。

原因: 分布漂移而非模型衰减是无声质量损失的常见原因。

标注质量差，您怀疑是数据问题而非模型问题。

计算标注-图像 CLIPScore 分布；低平均值尾部证实了数据对齐问题。

原因: 量化对齐可以将数据问题与模型问题区分开来。

FID 下降了，但评审员说图像看起来更糟；如何调和这种矛盾。

与 CLIPScore 和人工评估进行交叉检查；FID 单独可能因分布技巧而被操纵。

原因: 没有单一指标是足够的——需要结合实际情况对它们进行综合解释。

可信赖人工智能

文本到图像模型为职业提示生成刻板印象的描绘。

在人口统计学维度上审计输出；重新平衡数据并添加提示/防护栏缓解措施。

原因: 表征性危害是生成媒体中的一级风险，而非边缘情况。

下游消费者需要区分 AI 生成的媒体和真实媒体。

在生成时嵌入来源元数据（C2PA 风格）和/或不可见水印。

原因: 来源信号是合成媒体滥用的标准缓解措施。

多模态 RAG 助手自信地描述检索图像中不存在的内容。

将生成限制在检索到的证据范围内，并添加一个事实依据/引用检查。

原因: 没有事实依据的多模态输出就是幻觉——将声明追溯到来源。

防止已部署的图像生成器产生不安全内容。

应用输入提示和输出图像安全分类器以及黑名单；阻止并记录违规行为。

原因: 安全必须在提示和输出阶段同时强制执行——单独一边会存在漏洞。

在运行时对多模态聊天应用程序强制执行主题和安全策略。

使用 NeMo Guardrails 为模型提供可编程的输入、输出和主题防护栏。

原因: Guardrails 提供了一个独立于模型权重的可审计策略层。

参考

利益相关者询问模型是否可以复制受版权保护或私人图像。

记录数据来源/许可证，去重以限制记忆化，并测试逐字重新生成能力。

原因: 记忆化风险是信任和法律问题——透明度和去重是控制措施。

实验