扩散模型输出忽略了提示;需要在不损害图像质量的情况下提高对文本的忠实度。
增加无分类器引导比例;注意过度饱和/伪影并及时回退。
原因: 较高的 CFG 会增强对提示的依从性,但过高会导致颜色失真和不自然的细节——这是一个权衡,而非免费的杠杆。
最后审核:2026年6月
NCA-GENM 考试涉及的架构模式快速参考。从头到尾阅读,或跳转到任意章节。
扩散模型输出忽略了提示;需要在不损害图像质量的情况下提高对文本的忠实度。
增加无分类器引导比例;注意过度饱和/伪影并及时回退。
原因: 较高的 CFG 会增强对提示的依从性,但过高会导致颜色失真和不自然的细节——这是一个权衡,而非免费的杠杆。
扩散采样对于交互式演示来说太慢了;需要在不明显损失质量的情况下减少步骤。
切换到更快的 ODE 采样器(DPM-Solver++ / Euler)并减少步骤;使用 FID 进行验证,而非目视判断。
原因: 现代采样器在远少于祖先 DDPM 采样所需的步骤中就能达到可比的质量。
多模态流水线有许多活动部件和一个薄弱的结果;决定下一步要改变什么。
运行受控消融实验——一次改变一个组件,并根据固定的评估集进行测量。
原因: 同时改变多个参数会使结果无法解释;在扩大规模之前先找出原因。
生成结果每次运行都不同,无法公平比较两个提示变体。
固定随机种子(和采样器),以便唯一的差异是正在测试的变量。
原因: 扩散是随机的;如果没有固定的种子,你比较的是噪声,而不是你的改变。
生成的图像持续包含不需要的元素(例如文本、水印、多余的肢体)。
添加一个描述要排除内容的负面提示;与 CFG 结合使用。
原因: 负面提示将无条件分支引导远离指定概念——比重新训练成本更低。
选择正确的指标来驱动文本到图像实验。
使用 FID 衡量图像分布质量,CLIPScore 衡量提示-图像对齐度,并以人类偏好作为最终判断。
原因: 单一指标会产生误导:模型可能在 FID 上得分很高,却忽略了提示。请同时使用这两个维度。
视觉语言模型标注任务给出的标注不一致,存在幻觉。
降低解码温度 / 使用贪婪或低 top-p 进行事实性标注。
原因: 高温会增加创造性和幻觉;标注需要确定性和事实依据。
调节迭代缓慢,因为每一轮都会评估整个数据集。
构建一个小型、有代表性的黄金评估集以实现快速迭代;仅对候选模型运行完整评估。
原因: 在实验阶段,紧密的反馈循环胜过详尽但缓慢的反馈循环。
需要生成的图像遵循精确的姿态、深度或边缘布局。
在文本提示之上添加结构化条件(ControlNet 风格:姿态/深度/Canny 边缘)。
原因: 文本提示无法指定精确的空间结构;辅助条件图可以做到。
两个检查点的 FID/CLIPScore 评分几乎相同;需要选择发布哪一个。
在保留的提示集上运行盲态 A/B 人工偏好测试。
原因: 自动化指标会饱和;人工偏好是生成质量的决胜因素。
模型在您调优过的提示上表现出色,但在新提示上表现不佳。
保留一个在调优期间从未使用过的单独提示集,并根据它进行报告。
原因: 根据评估提示进行调优会使实验过拟合,而不是模型本身。
输出接近目标风格但不完全符合;在提示技巧和训练之间做决定。
在全面重新训练之前,穷尽所有提示/条件以及 LoRA 风格的轻量微调。
原因: 先尝试最便宜的干预——风格上的差距很少能证明全面重新训练是合理的。
解释扩散模型如何生成图像。
前向过程向数据添加噪声;模型学习反向过程,从纯噪声中去噪以生成样本。
原因: 生成是迭代去噪的过程——网络在每个步骤中预测噪声(或速度)。
为什么高分辨率扩散模型能够高效运行,而不是直接操作原始像素。
潜在扩散模型在 VAE 的压缩潜在空间中运行扩散过程,然后解码为像素。
原因: 在潜在空间中操作相比在像素空间中操作,能在相同保真度下大幅减少计算量。
模型如何在没有逐像素标签的情况下学习匹配图像和文本。
对比预训练(CLIP 风格)将匹配的图像-文本对拉近,并将不匹配的推开,都在一个共享的 embedding 空间中进行。
原因: 共享空间是实现零样本分类和跨模态检索的基础。
使 transformer 能够在序列或模态之间关联 token 的核心机制。
自注意力/交叉注意力计算 token 之间的加权相关性;交叉注意力将一种模态条件化于另一种模态。
原因: 交叉注意力是扩散 U-Net 将文本条件注入图像生成的方式。
视觉 transformer 如何将图像转换为 token。
将图像分割成固定大小的 patch,线性嵌入每个 patch,并添加位置编码。
原因: Patch 是词 token 的视觉类比——这使得统一的 transformer 骨干网络成为可能。
为图像标注与开放式文本到图像聊天选择架构。
图像标注使用编码器-解码器架构(视觉编码器 + 文本解码器);灵活生成使用仅解码器多模态 LLM。
原因: 任务形式——固定输入到文本输出与交错生成——决定了架构选择。
单个模型如何同时处理文本和图像。
将每种模态投影到共享的 token 空间,然后将组合序列输入到一个 transformer 中。
原因: token 级别的融合使注意力能够跨模态进行联合推理,而不是后期融合输出。
VAE 在潜在扩散图像生成器中的作用。
VAE 编码器将图像压缩为用于扩散的潜在表示;其解码器在最后重构像素。
原因: 无论扩散模型如何,VAE 的质量决定了最终图像的质量上限。
音频如何进入神经网络模型进行语音或音频生成。
将波形转换为 mel 频谱图(时频图像);模型在其上进行操作,然后声码器重构音频。
原因: 频谱图使音频对类似图像和序列的模型变得易于处理。
为什么跨模态搜索(文本查询,图像结果)能够工作。
两种模态都被嵌入到一个对齐的向量空间中;检索是跨模态的最近邻搜索。
原因: 对比训练产生的对齐是先决条件——没有它,这些空间就无法比较。
训练视觉语言模型时,标注存在噪声或与图像关联性弱。
根据 CLIP 相似度阈值过滤配对,并重新标注低对齐度的图像。
原因: 数据中糟糕的标注-图像对齐度直接限制了下游模型的提示依从性。
大规模抓取的图像-文本语料库存在记忆化和评估偏差的风险。
在训练之前,对近似相同的图像进行去重(感知哈希 / embedding 相似度)。
原因: 重复数据会夸大记忆化并在评估中泄露,从而过高估计质量。
ASR 训练数据混合了 8kHz 电话音频和 44.1kHz 录音室音频。
将所有音频剪辑重新采样到模型期望的采样率(ASR 通常为 16kHz),并标准化响度。
原因: 不匹配的采样率和电平会破坏频谱特征并损害识别效果。
扩散训练图像的大小和纵横比差异很大。
按纵横比进行分桶,并在桶内调整大小/裁剪以匹配训练分辨率。
原因: 纵横比分桶避免了将所有图像强制为方形引起的失真,同时保持批次均匀。
为生产模型准备网络抓取的多模态语料库。
在训练前运行 NSFW/CSAM 和许可/同意过滤;记录来源。
原因: 生成模型会重现训练内容——不安全或未经许可的数据会带来法律和安全责任。
简短、稀疏的标注限制了模型可以处理的提示多样性。
使用强大的 VLM 生成合成的详细标注进行扩充,然后对其进行质量过滤。
原因: 更丰富的标注拓宽了模型学习遵循的提示分布。
视频片段很长;决定如何将其馈送到多模态模型。
以固定速率(或关键帧)采样帧,并加上对齐的音频/文字记录片段。
原因: 密集帧采样是浪费的;对齐的稀疏采样能以较低成本保留时间信号。
在 NVIDIA GPU 上部署一个生成模型作为生产就绪、可扩展的推理端点。
将其作为 NVIDIA NIM 微服务提供——预构建、优化且与 OpenAI 兼容的容器。
原因: NIM 封装了引擎、运行时和 API,让您无需手动构建 TensorRT/Triton 管道。
在 NVIDIA 硬件上为多模态语音流水线需要生产级 ASR 和 TTS。
使用 NVIDIA Riva 进行 GPU 加速的语音识别和合成。
原因: Riva 是 NVIDIA 堆栈中用于流式、低延迟语音的解决方案——它不是通用的 LLM 工具。
在 NVIDIA 生态系统中定制或微调基础模型。
使用 NVIDIA NeMo 进行训练、微调(包括 PEFT/LoRA)和数据整理。
原因: NeMo 是构建/定制层;NIM 是服务层——保持角色区分。
在一个推理服务器后面服务多个模型(视觉编码器 + LLM + 声码器)。
使用 Triton Inference Server 的模型组合功能,在单一请求路径中将它们串联起来。
原因: Triton 支持多框架、多模型和组合流水线,并具备动态批处理能力。
部署模型的推理延迟过高,无法满足目标 SLA。
编译为 TensorRT(在可接受的情况下进行量化),以实现内核融合、低精度执行。
原因: TensorRT 针对特定 GPU 优化图——这是 NVIDIA 降低延迟的标准手段。
在混合图像和文本知识库上构建检索增强生成(RAG)。
将两种模态都嵌入到共享向量存储中,进行跨模态检索,然后根据检索到的结果为生成器提供基础。
原因: 多模态 RAG 需要一个共享的 embedding 空间和一个检索器,而不仅仅是 LLM 调用。
为已部署的多模态应用程序添加可编程的输入/输出安全防护。
使用 NeMo Guardrails 封装模型,以强制执行主题、安全和基础策略。
原因: Guardrails 作为策略层围绕模型运行,而不是内置于权重中。
生成的输出偏向于数据集中占主导地位的一种内容类型。
分析数据集分布,并重新平衡或重新加权代表性不足的类别。
原因: 生成模型反映其数据分布——不平衡会导致输出偏差。
在训练之前了解多模态数据集的结构和覆盖范围。
嵌入样本并检查聚类(UMAP/t-SNE)以查找空白、重复项和异常值。
原因: embedding 空间 EDA 能发现原始计数遗漏的覆盖漏洞。
部署的多模态模型在新生产数据上性能下降。
将生产环境的 embedding 分布与训练数据进行比较;标记漂移并触发重新整理。
原因: 分布漂移而非模型衰减是无声质量损失的常见原因。
标注质量差,您怀疑是数据问题而非模型问题。
计算标注-图像 CLIPScore 分布;低平均值尾部证实了数据对齐问题。
原因: 量化对齐可以将数据问题与模型问题区分开来。
FID 下降了,但评审员说图像看起来更糟;如何调和这种矛盾。
与 CLIPScore 和人工评估进行交叉检查;FID 单独可能因分布技巧而被操纵。
原因: 没有单一指标是足够的——需要结合实际情况对它们进行综合解释。
文本到图像模型为职业提示生成刻板印象的描绘。
在人口统计学维度上审计输出;重新平衡数据并添加提示/防护栏缓解措施。
原因: 表征性危害是生成媒体中的一级风险,而非边缘情况。
某功能可以合成真实人物的肖像或声音。
要求明确同意,限制为授权身份,并为输出加水印。
原因: 肖像和声音克隆引发的同意和冒充危害必须通过政策来限制。
下游消费者需要区分 AI 生成的媒体和真实媒体。
在生成时嵌入来源元数据(C2PA 风格)和/或不可见水印。
原因: 来源信号是合成媒体滥用的标准缓解措施。
多模态 RAG 助手自信地描述检索图像中不存在的内容。
将生成限制在检索到的证据范围内,并添加一个事实依据/引用检查。
原因: 没有事实依据的多模态输出就是幻觉——将声明追溯到来源。
防止已部署的图像生成器产生不安全内容。
应用输入提示和输出图像安全分类器以及黑名单;阻止并记录违规行为。
原因: 安全必须在提示和输出阶段同时强制执行——单独一边会存在漏洞。
在运行时对多模态聊天应用程序强制执行主题和安全策略。
使用 NeMo Guardrails 为模型提供可编程的输入、输出和主题防护栏。
原因: Guardrails 提供了一个独立于模型权重的可审计策略层。
利益相关者询问模型是否可以复制受版权保护或私人图像。
记录数据来源/许可证,去重以限制记忆化,并测试逐字重新生成能力。
原因: 记忆化风险是信任和法律问题——透明度和去重是控制措施。