プレイブック — NCA-GENL NVIDIA-Certified Associate: Generative AI LLMs

最終確認：2026年6月

NCA-GENL 試験で問われるアーキテクチャパターンのスキャン可能なリファレンス。上から順に読むか、セクションへジャンプ。

コア機械学習とAIの知識

トランスフォーマーが次のトークンを生成する際に、遠く離れたトークンの重みを考慮できる理由を説明してください。

自己注意（Self-attention）。各トークンはクエリ/キー/バリューの射影を介して他のすべてのトークンに注意を向け、コンテキスト加重表現を生成します。

理由: 再帰ではなく、アテンション（注意）こそが、トランスフォーマーに長距離のコンテキストと並列化可能なトレーニング能力を与えます。

LLMに新しい知識や振る舞いを注入する方法を選択してください。

頻繁に変わる新しい事実 → RAG。新しいタスクの振る舞い/スタイル → fine-tune。大規模な新しい基本機能/語彙 → 継続的な事前トレーニング。

理由: RAGはデータを外部に保持し更新可能にします。fine-tuningは振る舞いを重みに焼き付けます。事前トレーニングは最も費用のかかる手段です。

モデルがファウンデーションモデルであるとはどういうことか定義してください。

広範な、ほとんどラベル付けされていないデータで事前トレーニングされた大規模モデルで、プロンプティング、RAG、またはfine-tuningを介して多くの下流タスクに適応可能です。

テキストがモデル入力単位にどのようにマッピングされ、何がコストを左右するかを推定してください。

テキストはトークナイザー（例：BPE）によってサブワードトークンに分割されます。コストとコンテキストの制限は、文字や単語ではなくトークンで測定されます。

理由: 稀な単語や英語以外の単語はより多くのトークンに分割され、コンテキストの使用量と推論コストを増加させます。

長いドキュメントが単一のプロンプトに収まりません。

入力がモデル'のコンテキストウィンドウ（入力+出力の最大トークン数）を超えています。RAGのためにドキュメントをチャンクに分割するか、より長いコンテキストモデルを選択してください。

理由: コンテキストウィンドウは厳格な制限です。それを超えるものはすべて切り捨てられ、黙って失われます。

テキストに対するセマンティック検索またはRAG検索を強化します。

embeddingモデルを使用してテキストを密なベクトルに変換し、ベクトルストアからコサイン類似度/内積類似度で検索します。

理由: embeddingは意味的に類似したテキストを互いに近くに配置し、キーワード検索ではなく意味ベースの検索を可能にします。

出力の振る舞いを選択してください：決定的か、創造的か。

低温度（約0.0-0.3）→集中型、再現可能。高温度（約0.7-1.0）→多様、創造的。分類や抽出には0に近い値を使用します。

理由: 温度はサンプリング前に確率分布をスケーリングします。値が低いほど、上位トークンに確率の重みが集中します。

温度以外で候補トークンプールを制約します。

Top-kは最も可能性の高いk個のトークンを保持します。Top-p（nucleus）は、累積確率がpに達する最小のセットを保持します。

理由: Top-pは候補セットを分布の形状に適応させます。Top-kは信頼度に関わらず固定幅です。

LLMがラベルなしテキストからどのように学習するかを特定してください。

自己教師あり学習 — 次トークン予測（因果）またはマスクされたトークン予測は、テキスト自体からラベルを作成し、人間'のアノテーションは不要です。

理由: これは、LLMが手動のラベル付けなしにインターネット規模のコーパスでトレーニングできる理由です。

アーキテクチャをタスクファミリーに合わせます。

生成 → デコーダーのみ（GPTスタイル）。理解/分類 → エンコーダーのみ（BERTスタイル）。シーケンス対シーケンス翻訳/要約 → エンコーダー-デコーダー（T5スタイル）。

理由: デコーダーのみのモデルは左から右へ予測します。エンコーダーは双方向のコンテキストを見るため、表現タスクに適しています。

ベースモデルが指示に従い、役立つ安全な回答を好むようにします。

指示チューニング（Instruction tuning）の後に、RLHF（人間'の選好ランキングからの強化学習）などのアラインメントを行います。

理由: 生の事前トレーニング済みモデルはテキストを予測します。アラインメントはそれを意図したアシスタントの振る舞いに導きます。

モデルが確信しているが捏造された事実を述べます。

ハルシネーションです。RAGで根拠を与え、温度を下げ、情報源を引用し、Guardrailsを追加し、重要な出力には人間によるレビューを加えることで軽減します。

理由: LLMは検証済みの事実ではなく、もっともらしいトークンを予測します。根拠を与えることで、欠けている証拠を補給します。

モデルサイズとトレーニングデータサイズを区別します。

Parameters = 学習された重み（モデルの容量）。Tokens = トレーニングテキストの量。スケーリング法則の下では、両方が能力をスケールさせます。

理由: トークン数が少なすぎてトレーニング不足の大きなモデルは、より小さくても十分にトレーニングされたモデルよりも性能が劣ります（Chinchillaの洞察）。

LLMライフサイクルの2つのGPU負荷の高いフェーズを分けます。

トレーニングはデータから重みを更新します（一度限り、バッチ処理）。推論は凍結されたモデルを実行して出力を生成します（継続的、レイテンシーに敏感）。

理由: 最適化ツールは異なります。トレーニングには並列処理フレームワークを使用し、推論にはTensorRT-LLMとTritonを使用します。

fine-tuneされたモデルがトレーニング例を記憶し、新しい入力で失敗します。

過学習です。より多く/多様なデータ、早期停止、学習率の低下、エポック数の削減、またはDropoutのような正則化で軽減します。

理由: トレーニングとバリデーションの間に大きなギャップがある場合、モデルは一般化可能なパターンではなくノイズに適合したことを意味します。

ソフトウェア開発

OpenAI互換APIを備えた最適化済みLLMを、本番環境のマイクロサービスとして迅速にデプロイします。

NVIDIA NIMマイクロサービスを使用します。これは、事前構築され、コンテナ化され、TensorRT-LLMで最適化されたモデルエンドポイントです。

理由: NIMはモデル、ランタイム、最適化されたエンジンをパッケージ化するため、手動でのTensorRT-LLMとTritonの接続作業を省略できます。

リファレンス

1つの推論サーバーの背後で、バッチ処理、同時実行、および複数のバックエンドを使用して複数のモデルを提供します。

NVIDIA Triton Inference Server。動的バッチ処理、モデルアンサンブル、およびTensorRT/PyTorch/ONNXバックエンドをサポートします。

理由: Tritonは、同時モデル実行と動的バッチ処理によりGPU使用率を最大化します。

リファレンス

提供する前に、NVIDIA GPU上でのLLM推論レイテンシーを削減します。

TensorRT-LLMでモデルをコンパイルします。カーネルフュージョン、quantization、インフライトバッチ処理、KVキャッシュ最適化が含まれます。

理由: TensorRT-LLMは、生のフレームワークモデルを実行するよりもはるかに高速な最適化されたエンジンを生成します。

リファレンス

NVIDIA GPU上でLLMを大規模にトレーニング、カスタマイズ、またはfine-tuneします。

NVIDIA NeMoフレームワークは、生成AIモデルの構築、カスタマイズ、デプロイのためのエンドツーエンドのツールキットです。

理由: NeMoは、マルチGPUスケーリングのために設計された単一のスタックで、データキュレーション、トレーニング、PEFT、およびアラインメントをカバーします。

リファレンス

ベースモデルが一度も見たことのないプライベートドキュメントから回答するアプリを構築します。

RAGパイプライン：ドキュメントをチャンク化してvector storeにembeddingし、クエリ時に類似度でtop-kを検索し、それらをプロンプトに注入します。

理由: 検索は、モデルを再トレーニングすることなく、現在所有しているデータに基づいて回答を生成します。

会話全体でアシスタントのトーン、役割、ルールを制約します。

ユーザーのターンが始まる前に、役割、制約、フォーマットを定義するシステムプロンプト/メッセージを設定します。

理由: システムメッセージはターンをまたいで持続し、ターンごとの指示よりも確実に振る舞いを誘導します。

トレーニングなしで構造化タスクの精度を向上させます。

Few-shot prompting — 実際の入力の前に、2～5個の入力/出力例をプロンプトに埋め込みます。

理由: In-context learningにより、モデルは重みを更新することなく例にパターンマッチングできます。

モデルが多段階の推論問題や数学の問題を間違えます。

Chain-of-thought prompting — 最終的な回答を出す前に、段階的に推論するように指示します。

理由: 中間ステップを引き出すことで、複合タスクにおける推論の精度が向上します。

LLMが外部API、データベース、またはツールを確実にトリガーできるようにします。

関数/ツール呼び出しを使用します。ツールスキーマを定義すると、モデルはコードが実行する構造化された引数を出力します。

理由: 構造化されたツール呼び出しは、自由形式のテキスト解析よりも優れており、agent的なフローのためにモデルをライブシステムに根拠を与えます。

下流のコードはモデルから厳密なJSONを必要とします。

プロンプトでJSONスキーマを要求し、制約付き/誘導デコーディングを使用します。使用前に出力を検証します。

理由: スキーマ誘導デコーディングは、解析を妨げる不正確なJSONを防ぎます。

チャットUIは、完了後ではなく、トークンが生成されるにつれて表示する必要があります。

サービスエンドポイントからストリーミング（トークンごと）推論を使用します。

理由: ストリーミングは知覚されるレイテンシーを低減します。NIMとTritonは両方ともストリーミング応答をサポートしています。

検索、プロンプティング、ツールステップを1つのアプリケーションパイプラインにまとめます。

LangChainやLlamaIndexなどのオーケストレーションフレームワークを使用して、retriever、プロンプト、モデル、ツールを連鎖させます。

理由: これらのフレームワークは、NIM/NeMoエンドポイント上に再利用可能なRAGおよびagentの抽象化を提供します。

パッケージ化されたマイクロサービスと手動で構築されたサービススタックのどちらを選択するかを決定します。

迅速な標準化デプロイ → NIM。深いカスタムバックエンド/モデルロジック → Triton + TensorRT-LLMを直接使用。

理由: NIMは設定の柔軟性を速度と引き換えにします。生のTritonはサービスグラフの完全な制御を提供します。

リファレンス

実験

限られたGPUメモリで、すべての重みに触れることなく大規模モデルをfine-tuneします。

LoRA / PEFT — ベースの重みをフリーズしたまま、小さな低ランクアダプター行列をトレーニングします。

理由: LoRAはトレーニング可能なパラメーターを桁違いに削減するため、fine-tuningが控えめなGPUでも実行可能です。

リファレンス

可能な限り厳しいメモリ予算で非常に大規模なモデルをfine-tuneします。

QLoRA — 凍結されたベースモデルを4ビットにquantizeし、その上にLoRAアダプターをトレーニングします。

理由: ベースをquantizeすることで、LoRA単体よりもさらにメモリが削減され、1つのGPUでより大規模なモデルを実行可能にします。

品質基準を満たす最も安価なカスタマイズを選択してください。

順にエスカレートします：プロンプトエンジニアリング → few-shot → RAG → LoRA fine-tuning → フルfine-tuning。

理由: 各ステップでコストと労力が増加します。目標を達成した最初のステップで停止してください。

教師ありfine-tuningには適切なトレーニングデータの形状が必要です。

通常JSONL形式で、指示/応答（プロンプト-完了）ペアを提供します。

理由: SFTはモデルに入力を望ましい出力にマッピングすることを教えます。これらのペアがそのマッピングを定義します。

fine-tuningの損失が発散するか、モデルが以前の能力を忘れてしまいます。

学習率を下げ、またはエポック数を減らします。壊滅的な忘却のために検証損失を監視します。

理由: 学習率が高すぎるとトレーニングが不安定になり、事前トレーニング済み知識が上書きされます。

fine-tuneやプロンプトの変更が実際に役立ったかどうかを測定します。

モデルがトレーニングしていないバリデーション/テストセットを保持し、変更前と変更後のメトリクスを比較します。

理由: トレーニングデータで評価すると品質が過大評価されます。保持されたデータのみが一般化を反映します。

異なるハイパーパラメータとデータを使用した多くのfine-tuning実行を比較します。

実験トラッカー（例：MLflow、Weights & Biases、TensorBoard）を使用して、実行、設定、メトリクスをログに記録します。

理由: 再現性には、どの設定がどの結果を生み出したかを記録することが必要です。記憶だけではスケールしません。

生成されたテキストの品質を自動的に評価します。

要約 → ROUGE。翻訳 → BLEU。セマンティックマッチ → BERTScore。オープンエンドな品質 → LLM-as-judgeまたは人間による評価。

理由: 語彙の重複度に基づくメトリクスでは意味を捉えられません。微妙な品質には、人間またはモデルによる評価が必要です。

RAGが関連性のない、または少なすぎるコンテキストを検索します。

チャンクサイズ/オーバーラップ、top-k、embeddingモデルを調整し、再ランキングを追加します。検索品質を生成とは別に検証します。

理由: RAGの失敗のほとんどは検索の失敗です。生成器を責める前に検索を修正してください。

2つのプロンプトバリアントのうち、どちらがより良いパフォーマンスを発揮するかを決定します。

固定された評価セットに対して両方を実行し、メトリクスを比較します。モデルだけでなく、データとプロンプトも繰り返し改善します。

理由: 同じ入力に対する制御された比較により、プロンプト変更の影響を分離できます。

狭いタスクでfine-tuningした後、モデルが一般的な能力を失ってしまいます。

壊滅的な忘却です。PEFT/LoRA、低学習率、少ないエポック、または一般的なデータをfine-tuneセットに混ぜることで軽減します。

理由: アダプターベースのチューニングはベースの重みを保持し、元の能力からのドリフトを制限します。

データ分析

GPUスケールでLLMトレーニングのために大規模なウェブ/テキストコーパスをキュレーションします。

NVIDIA NeMo Curator — トレーニングデータのためのGPUアクセラレーションによるクリーニング、重複排除、品質フィルタリング、PII処理を提供します。

理由: データ品質がモデル品質を左右します。CuratorはCPUでは不可能だったキュレーションをスケールさせます。

リファレンス

トレーニングコーパスに多くのほぼ重複するドキュメントが含まれています。

トレーニング前に重複排除（完全一致およびあいまい/近似重複）を行います。

理由: 重複は計算を無駄にし、モデルを繰り返しコンテンツに偏らせ、記憶/漏洩のリスクを高めます。

RAG検索のためにドキュメントを分割します。

適度なオーバーラップを持つ意味的に一貫したパッセージにチャンク化します。embeddingモデルとコンテキスト予算に合わせてサイズを調整します。

理由: 大きすぎるチャンクは関連性を希薄にし、小さすぎるチャンクはコンテキストを失います。オーバーラップは境界の意味を保持します。

生スクレイピングテキストには、定型文、有害、または低品質なコンテンツが含まれており、ノイズが多いです。

品質フィルター、有害性フィルター、言語ID、およびヒューリスティクスを適用して、価値の低いドキュメントを破棄します。

理由: ゴミのようなデータはモデルを劣化させます。フィルタリングは、生のデータ量を増やすよりも下流の品質を向上させます。

セマンティック検索のためにドキュメントコレクションを準備します。

一貫したembeddingモデルを使用して各チャンクのembeddingを生成し、それらをvector indexに保存します。

理由: クエリとドキュメントのembeddingは、比較可能であるために同じモデルから生成される必要があります。

トレーニングセットが特定のグループやトピックを過小評価しているかどうかを確認します。

クラス、ソース、および人口統計間の分布を分析し、トレーニング前にギャップを再調整または補強します。

理由: 偏ったトレーニングデータは偏ったモデルの振る舞いを生成します。修正はデータ層で行うべきです。

トレーニングデータまたはRAGデータに個人情報が含まれる可能性があります。

データ準備中にPIIを検出して編集/マスクし、モデルの重みやインデックスに到達する前に処理します。

理由: 重みに組み込まれた知識は推論時に確実にマスクできません。PIIは上流で削除します。

信頼できるAI

LLMアプリのトピックを維持し、安全でないコンテンツをブロックし、ジェイルブレイクを防ぎます。

NVIDIA NeMo Guardrails — トピック制御、安全性フィルタリング、および対話フローのためのプログラマブルなレールです。

理由: Guardrailsは、基盤となるモデルとは独立して、入力と出力に対するポリシーを強制します。

リファレンス

デプロイされたアシスタントの自信過剰だが間違った回答を減らします。

RAGで応答に根拠を与え、引用を要求し、ファクトチェックのレールを追加し、重要な出力には人間を関与させ続けます。

理由: 根拠を与えることで、モデルがそうでなければ捏造してしまうような検証可能な証拠を提供します。

ユーザー入力がシステムプロンプトを上書きしようとしたり、データを外部に流出させようとします。

多層防御：Guardrails、入出力フィルタリング、指示の分離、agentに対する最小権限ツールパーミッション。

理由: 単一の制御ではインジェクションを止められません。フィルタリングと制限された機能を組み合わせる必要があります。

デプロイされたモデルが、特定のグループに対して偏ったまたは不公平な出力を生成します。

出力のバイアスを監査し、トレーニングデータを再調整/補強し、評価に公平性チェックを追加します。

理由: バイアスは通常データに起因します。デプロイ前とデプロイ後に測定し、修正してください。

プロンプトと応答が組織'の管理を離れないようにする必要があります。

NIM/Tritonで自社インフラにセルフホストし、データを暗号化し、機密コンテンツをサードパーティAPIに送信するのを避けます。

理由: オンプレミスまたはVPCデプロイメントは、機密データを信頼境界内に保持します。

コア機械学習とAIの知識

トランスフォーマーが次のトークンを生成する際に、遠く離れたトークンの重みを考慮できる理由を説明してください。

理由: 再帰ではなく、アテンション（注意）こそが、トランスフォーマーに長距離のコンテキストと並列化可能なトレーニング能力を与えます。

LLMに新しい知識や振る舞いを注入する方法を選択してください。

頻繁に変わる新しい事実 → RAG。新しいタスクの振る舞い/スタイル → fine-tune。大規模な新しい基本機能/語彙 → 継続的な事前トレーニング。

理由: RAGはデータを外部に保持し更新可能にします。fine-tuningは振る舞いを重みに焼き付けます。事前トレーニングは最も費用のかかる手段です。

モデルがファウンデーションモデルであるとはどういうことか定義してください。

テキストがモデル入力単位にどのようにマッピングされ、何がコストを左右するかを推定してください。

理由: 稀な単語や英語以外の単語はより多くのトークンに分割され、コンテキストの使用量と推論コストを増加させます。

長いドキュメントが単一のプロンプトに収まりません。

理由: コンテキストウィンドウは厳格な制限です。それを超えるものはすべて切り捨てられ、黙って失われます。

テキストに対するセマンティック検索またはRAG検索を強化します。

embeddingモデルを使用してテキストを密なベクトルに変換し、ベクトルストアからコサイン類似度/内積類似度で検索します。

理由: embeddingは意味的に類似したテキストを互いに近くに配置し、キーワード検索ではなく意味ベースの検索を可能にします。

出力の振る舞いを選択してください：決定的か、創造的か。

低温度（約0.0-0.3）→集中型、再現可能。高温度（約0.7-1.0）→多様、創造的。分類や抽出には0に近い値を使用します。

理由: 温度はサンプリング前に確率分布をスケーリングします。値が低いほど、上位トークンに確率の重みが集中します。

温度以外で候補トークンプールを制約します。

Top-kは最も可能性の高いk個のトークンを保持します。Top-p（nucleus）は、累積確率がpに達する最小のセットを保持します。

理由: Top-pは候補セットを分布の形状に適応させます。Top-kは信頼度に関わらず固定幅です。

LLMがラベルなしテキストからどのように学習するかを特定してください。

理由: これは、LLMが手動のラベル付けなしにインターネット規模のコーパスでトレーニングできる理由です。

アーキテクチャをタスクファミリーに合わせます。

理由: デコーダーのみのモデルは左から右へ予測します。エンコーダーは双方向のコンテキストを見るため、表現タスクに適しています。

ベースモデルが指示に従い、役立つ安全な回答を好むようにします。

指示チューニング（Instruction tuning）の後に、RLHF（人間'の選好ランキングからの強化学習）などのアラインメントを行います。

理由: 生の事前トレーニング済みモデルはテキストを予測します。アラインメントはそれを意図したアシスタントの振る舞いに導きます。

モデルが確信しているが捏造された事実を述べます。

理由: LLMは検証済みの事実ではなく、もっともらしいトークンを予測します。根拠を与えることで、欠けている証拠を補給します。

モデルサイズとトレーニングデータサイズを区別します。

Parameters = 学習された重み（モデルの容量）。Tokens = トレーニングテキストの量。スケーリング法則の下では、両方が能力をスケールさせます。

LLMライフサイクルの2つのGPU負荷の高いフェーズを分けます。

理由: 最適化ツールは異なります。トレーニングには並列処理フレームワークを使用し、推論にはTensorRT-LLMとTritonを使用します。

fine-tuneされたモデルがトレーニング例を記憶し、新しい入力で失敗します。

過学習です。より多く/多様なデータ、早期停止、学習率の低下、エポック数の削減、またはDropoutのような正則化で軽減します。

ソフトウェア開発

OpenAI互換APIを備えた最適化済みLLMを、本番環境のマイクロサービスとして迅速にデプロイします。

NVIDIA NIMマイクロサービスを使用します。これは、事前構築され、コンテナ化され、TensorRT-LLMで最適化されたモデルエンドポイントです。

理由: NIMはモデル、ランタイム、最適化されたエンジンをパッケージ化するため、手動でのTensorRT-LLMとTritonの接続作業を省略できます。

リファレンス

1つの推論サーバーの背後で、バッチ処理、同時実行、および複数のバックエンドを使用して複数のモデルを提供します。

NVIDIA Triton Inference Server。動的バッチ処理、モデルアンサンブル、およびTensorRT/PyTorch/ONNXバックエンドをサポートします。

理由: Tritonは、同時モデル実行と動的バッチ処理によりGPU使用率を最大化します。

リファレンス

提供する前に、NVIDIA GPU上でのLLM推論レイテンシーを削減します。

TensorRT-LLMでモデルをコンパイルします。カーネルフュージョン、quantization、インフライトバッチ処理、KVキャッシュ最適化が含まれます。

理由: TensorRT-LLMは、生のフレームワークモデルを実行するよりもはるかに高速な最適化されたエンジンを生成します。

リファレンス

NVIDIA GPU上でLLMを大規模にトレーニング、カスタマイズ、またはfine-tuneします。

NVIDIA NeMoフレームワークは、生成AIモデルの構築、カスタマイズ、デプロイのためのエンドツーエンドのツールキットです。

リファレンス

ベースモデルが一度も見たことのないプライベートドキュメントから回答するアプリを構築します。

RAGパイプライン：ドキュメントをチャンク化してvector storeにembeddingし、クエリ時に類似度でtop-kを検索し、それらをプロンプトに注入します。

理由: 検索は、モデルを再トレーニングすることなく、現在所有しているデータに基づいて回答を生成します。

会話全体でアシスタントのトーン、役割、ルールを制約します。

ユーザーのターンが始まる前に、役割、制約、フォーマットを定義するシステムプロンプト/メッセージを設定します。

理由: システムメッセージはターンをまたいで持続し、ターンごとの指示よりも確実に振る舞いを誘導します。

トレーニングなしで構造化タスクの精度を向上させます。

Few-shot prompting — 実際の入力の前に、2～5個の入力/出力例をプロンプトに埋め込みます。

理由: In-context learningにより、モデルは重みを更新することなく例にパターンマッチングできます。

モデルが多段階の推論問題や数学の問題を間違えます。

Chain-of-thought prompting — 最終的な回答を出す前に、段階的に推論するように指示します。

理由: 中間ステップを引き出すことで、複合タスクにおける推論の精度が向上します。

LLMが外部API、データベース、またはツールを確実にトリガーできるようにします。

関数/ツール呼び出しを使用します。ツールスキーマを定義すると、モデルはコードが実行する構造化された引数を出力します。

下流のコードはモデルから厳密なJSONを必要とします。

プロンプトでJSONスキーマを要求し、制約付き/誘導デコーディングを使用します。使用前に出力を検証します。

理由: スキーマ誘導デコーディングは、解析を妨げる不正確なJSONを防ぎます。

チャットUIは、完了後ではなく、トークンが生成されるにつれて表示する必要があります。

サービスエンドポイントからストリーミング（トークンごと）推論を使用します。

理由: ストリーミングは知覚されるレイテンシーを低減します。NIMとTritonは両方ともストリーミング応答をサポートしています。

検索、プロンプティング、ツールステップを1つのアプリケーションパイプラインにまとめます。

LangChainやLlamaIndexなどのオーケストレーションフレームワークを使用して、retriever、プロンプト、モデル、ツールを連鎖させます。

理由: これらのフレームワークは、NIM/NeMoエンドポイント上に再利用可能なRAGおよびagentの抽象化を提供します。

パッケージ化されたマイクロサービスと手動で構築されたサービススタックのどちらを選択するかを決定します。

迅速な標準化デプロイ → NIM。深いカスタムバックエンド/モデルロジック → Triton + TensorRT-LLMを直接使用。

理由: NIMは設定の柔軟性を速度と引き換えにします。生のTritonはサービスグラフの完全な制御を提供します。

リファレンス

実験

限られたGPUメモリで、すべての重みに触れることなく大規模モデルをfine-tuneします。

LoRA / PEFT — ベースの重みをフリーズしたまま、小さな低ランクアダプター行列をトレーニングします。

理由: LoRAはトレーニング可能なパラメーターを桁違いに削減するため、fine-tuningが控えめなGPUでも実行可能です。

リファレンス

可能な限り厳しいメモリ予算で非常に大規模なモデルをfine-tuneします。

QLoRA — 凍結されたベースモデルを4ビットにquantizeし、その上にLoRAアダプターをトレーニングします。

理由: ベースをquantizeすることで、LoRA単体よりもさらにメモリが削減され、1つのGPUでより大規模なモデルを実行可能にします。

品質基準を満たす最も安価なカスタマイズを選択してください。

順にエスカレートします：プロンプトエンジニアリング → few-shot → RAG → LoRA fine-tuning → フルfine-tuning。

理由: 各ステップでコストと労力が増加します。目標を達成した最初のステップで停止してください。

教師ありfine-tuningには適切なトレーニングデータの形状が必要です。

通常JSONL形式で、指示/応答（プロンプト-完了）ペアを提供します。

理由: SFTはモデルに入力を望ましい出力にマッピングすることを教えます。これらのペアがそのマッピングを定義します。

fine-tuningの損失が発散するか、モデルが以前の能力を忘れてしまいます。

学習率を下げ、またはエポック数を減らします。壊滅的な忘却のために検証損失を監視します。

理由: 学習率が高すぎるとトレーニングが不安定になり、事前トレーニング済み知識が上書きされます。

fine-tuneやプロンプトの変更が実際に役立ったかどうかを測定します。

モデルがトレーニングしていないバリデーション/テストセットを保持し、変更前と変更後のメトリクスを比較します。

理由: トレーニングデータで評価すると品質が過大評価されます。保持されたデータのみが一般化を反映します。

異なるハイパーパラメータとデータを使用した多くのfine-tuning実行を比較します。

実験トラッカー（例：MLflow、Weights & Biases、TensorBoard）を使用して、実行、設定、メトリクスをログに記録します。

理由: 再現性には、どの設定がどの結果を生み出したかを記録することが必要です。記憶だけではスケールしません。

生成されたテキストの品質を自動的に評価します。

要約 → ROUGE。翻訳 → BLEU。セマンティックマッチ → BERTScore。オープンエンドな品質 → LLM-as-judgeまたは人間による評価。

理由: 語彙の重複度に基づくメトリクスでは意味を捉えられません。微妙な品質には、人間またはモデルによる評価が必要です。

RAGが関連性のない、または少なすぎるコンテキストを検索します。

チャンクサイズ/オーバーラップ、top-k、embeddingモデルを調整し、再ランキングを追加します。検索品質を生成とは別に検証します。

理由: RAGの失敗のほとんどは検索の失敗です。生成器を責める前に検索を修正してください。

2つのプロンプトバリアントのうち、どちらがより良いパフォーマンスを発揮するかを決定します。

固定された評価セットに対して両方を実行し、メトリクスを比較します。モデルだけでなく、データとプロンプトも繰り返し改善します。

理由: 同じ入力に対する制御された比較により、プロンプト変更の影響を分離できます。

狭いタスクでfine-tuningした後、モデルが一般的な能力を失ってしまいます。

壊滅的な忘却です。PEFT/LoRA、低学習率、少ないエポック、または一般的なデータをfine-tuneセットに混ぜることで軽減します。

理由: アダプターベースのチューニングはベースの重みを保持し、元の能力からのドリフトを制限します。

データ分析

GPUスケールでLLMトレーニングのために大規模なウェブ/テキストコーパスをキュレーションします。

NVIDIA NeMo Curator — トレーニングデータのためのGPUアクセラレーションによるクリーニング、重複排除、品質フィルタリング、PII処理を提供します。

理由: データ品質がモデル品質を左右します。CuratorはCPUでは不可能だったキュレーションをスケールさせます。

リファレンス

トレーニングコーパスに多くのほぼ重複するドキュメントが含まれています。

トレーニング前に重複排除（完全一致およびあいまい/近似重複）を行います。

理由: 重複は計算を無駄にし、モデルを繰り返しコンテンツに偏らせ、記憶/漏洩のリスクを高めます。

RAG検索のためにドキュメントを分割します。

適度なオーバーラップを持つ意味的に一貫したパッセージにチャンク化します。embeddingモデルとコンテキスト予算に合わせてサイズを調整します。

理由: 大きすぎるチャンクは関連性を希薄にし、小さすぎるチャンクはコンテキストを失います。オーバーラップは境界の意味を保持します。

生スクレイピングテキストには、定型文、有害、または低品質なコンテンツが含まれており、ノイズが多いです。

品質フィルター、有害性フィルター、言語ID、およびヒューリスティクスを適用して、価値の低いドキュメントを破棄します。

理由: ゴミのようなデータはモデルを劣化させます。フィルタリングは、生のデータ量を増やすよりも下流の品質を向上させます。

セマンティック検索のためにドキュメントコレクションを準備します。

一貫したembeddingモデルを使用して各チャンクのembeddingを生成し、それらをvector indexに保存します。

理由: クエリとドキュメントのembeddingは、比較可能であるために同じモデルから生成される必要があります。

トレーニングセットが特定のグループやトピックを過小評価しているかどうかを確認します。

クラス、ソース、および人口統計間の分布を分析し、トレーニング前にギャップを再調整または補強します。

理由: 偏ったトレーニングデータは偏ったモデルの振る舞いを生成します。修正はデータ層で行うべきです。

トレーニングデータまたはRAGデータに個人情報が含まれる可能性があります。

データ準備中にPIIを検出して編集/マスクし、モデルの重みやインデックスに到達する前に処理します。

理由: 重みに組み込まれた知識は推論時に確実にマスクできません。PIIは上流で削除します。

信頼できるAI

LLMアプリのトピックを維持し、安全でないコンテンツをブロックし、ジェイルブレイクを防ぎます。

NVIDIA NeMo Guardrails — トピック制御、安全性フィルタリング、および対話フローのためのプログラマブルなレールです。

理由: Guardrailsは、基盤となるモデルとは独立して、入力と出力に対するポリシーを強制します。

リファレンス

デプロイされたアシスタントの自信過剰だが間違った回答を減らします。

RAGで応答に根拠を与え、引用を要求し、ファクトチェックのレールを追加し、重要な出力には人間を関与させ続けます。

理由: 根拠を与えることで、モデルがそうでなければ捏造してしまうような検証可能な証拠を提供します。

ユーザー入力がシステムプロンプトを上書きしようとしたり、データを外部に流出させようとします。

多層防御：Guardrails、入出力フィルタリング、指示の分離、agentに対する最小権限ツールパーミッション。

理由: 単一の制御ではインジェクションを止められません。フィルタリングと制限された機能を組み合わせる必要があります。

デプロイされたモデルが、特定のグループに対して偏ったまたは不公平な出力を生成します。

出力のバイアスを監査し、トレーニングデータを再調整/補強し、評価に公平性チェックを追加します。

理由: バイアスは通常データに起因します。デプロイ前とデプロイ後に測定し、修正してください。

プロンプトと応答が組織'の管理を離れないようにする必要があります。

NIM/Tritonで自社インフラにセルフホストし、データを暗号化し、機密コンテンツをサードパーティAPIに送信するのを避けます。

理由: オンプレミスまたはVPCデプロイメントは、機密データを信頼境界内に保持します。