学習パラダイムを選択してください:ラベル付きデータ、ラベルなしデータ、または対話型試行錯誤。
ラベル付き → 教師あり学習。ラベルなしクラスタリング/セグメンテーション → 教師なし学習。エージェントが報酬で学習 → 強化学習。
理由: 選択は既存のデータによって決まります。RLHFは人間の評価によって誘導される強化学習であり、LLMをアラインするために使用されます。
AWS Certified AI Practitioner
最終確認:2026年4月
AIF-C01 試験で問われるアーキテクチャパターンのスキャン可能なリファレンス。上から順に読むか、セクションへジャンプ。
学習パラダイムを選択してください:ラベル付きデータ、ラベルなしデータ、または対話型試行錯誤。
ラベル付き → 教師あり学習。ラベルなしクラスタリング/セグメンテーション → 教師なし学習。エージェントが報酬で学習 → 強化学習。
理由: 選択は既存のデータによって決まります。RLHFは人間の評価によって誘導される強化学習であり、LLMをアラインするために使用されます。
ゼロからトレーニングする代わりに、事前トレーニング済みモデルを新しい関連タスクに適応させます。
転移学習を使用します。新しいドメインデータセットで既存のモデルをfine-tuneします。
理由: 学習済みの表現を再利用し、ゼロからモデルを構築する場合と比較してトレーニング時間とデータ要件を削減します。
ワークロードの形状に合わせてSageMakerの推論モードを選択します。
安定した低レイテンシー → リアルタイム。スパイク/アイドル状態のトラフィック → serverless。大規模ペイロード(1 GB以下)または長時間ジョブ(1時間以下)で準リアルタイム → asynchronous。オフラインの一括処理 → batch transform。
理由: リアルタイムにはペイロード/タイムアウトの制限があります。asyncは大規模ジョブをキューに入れます。batchは定期的なオフラインスコアリング用です。
複数のMLチームが、構築した特徴量を共有し再利用する必要があります。
オンラインとオフラインの特徴量のための中央リポジトリとしてAmazon SageMaker Feature Storeを使用します。
理由: 重複する特徴量エンジニアリングを回避し、チーム間でtrain/serveの一貫性を保ちます。
コーディングやMLの専門知識なしでMLモデルを構築します(例:アナリスト向けの需要予測)。
Amazon SageMaker Canvas — トレーニングと推論のための視覚的なno-codeインターフェース。
VPC内で基盤モデルを迅速にデプロイします。
Amazon SageMaker JumpStart — 事前トレーニング済みモデルをVPC内のSageMakerエンドポイントとしてデプロイします。
理由: JumpStartはモデルアーティファクトとノートブックをバンドルし、ワンクリックでVPCに結合されたデプロイメントを可能にします。
ハイパーパラメータチューニングとモデル選択を自動化します。
Amazon SageMaker Autopilot — アルゴリズムを探索し、ハイパーパラメータを自動的にチューニングします。
分類モデルの適切な評価指標を選択します。
画像/二値分類の正しさ → accuracy。クラスの内訳 → confusion matrix。不均衡なクラス → F1、precision、recall。閾値に依存しない → AUC。
理由: Accuracyは不均衡データでは誤解を招きます。confusion matrixはTP/FP/TN/FNの数を示します。F1はprecisionとrecallのバランスをとります。
偽陽性よりも、陽性を見逃す(偽陰性)コストがはるかに高い場合 — 例:不正検出、疾病スクリーニング。
recall(感度)を最適化します。低いprecisionを受け入れます。
理由: Recall = TP / (TP + FN)。これを最大化することで、偽陽性が増えることを犠牲にして、見逃される陽性を最小限に抑えます。
モデルがトレーニングデータでは高いスコアを出すが、テスト/本番データでは低いスコアを出す。または、エポックの増加に伴い、精度が最初に向上し、その後低下する。
過学習です。より多くのデータ、正則化、早期停止、dropout、またはよりシンプルなモデルで緩和します。
理由: トレーニングとテストの間に大きなギャップがある場合、モデルがパターンを学習する代わりにノイズを記憶したことを意味します。
単一目的のタスクにマネージドAIサービスを選択します。
NLP/感情分析/エンティティ → Comprehend。音声認識 → Transcribe。テキスト読み上げ → Polly。翻訳 → Translate。チャットボット/音声UI → Lex。画像/動画 → Rekognition。ドキュメント/PDFテキスト抽出 → Textract。推奨事項 → Personalize。予測 → Forecast。
理由: タスクが明確にスコープされており、カタログ化されている場合、マネージドAIサービスはカスタムモデルよりも優れています。
モデルインフラストラクチャを管理することなく、AWS上で生成系AIアプリケーションを構築します。
Amazon Bedrock — 単一のAPIを介して基盤モデル(Anthropic Claude, Meta Llama, Amazon Titan, Stability, AI21, Mistral, Cohere)へのフルマネージドアクセスを提供します。
理由: GPUプロビジョニングやモデルホスティングは不要です。トークンごとに課金されます。VPC内に自己ホスト型エンドポイントが必要な場合は、SageMaker JumpStartが代替手段です。
モデルが「基盤モデル」であるための定義を説明します。
多様な、ほとんどラベルなしのデータで事前トレーニングされた大規模モデルであり、プロンプティング、fine-tuning、またはRAGを介して多くの下流タスクに適応可能です。
1つのプロンプトにどれだけの入力が収まるか、また推論コストを左右する要因は何かを見積もります。
トークンはサブワード単位です。コンテキストウィンドウ = リクエストあたりの最大トークン数(入力 + 出力)。推論コストは処理されたトークンにほぼ比例します。
理由: Bedrockの料金はリクエスト数ではなくトークン数によって決まります。長いドキュメントがコンテキストウィンドウを超える場合、チャンクに分割するか、より大きなウィンドウのモデルを選択してください。
出力スタイルを選択します:決定論的 vs 創造的。
低いtemperature(約0.0~0.3)→ 決定論的で再現可能。高いtemperature(約0.7~1.0)→ 創造的で多様。分類や感情分析では一貫したラベルを得るために0を使用します。
temperatureを超えて候補トークンプールを制限します。
Top-K = 最も可能性の高いK個のトークンのみを考慮します。Top-P (nucleus) = 累積確率がPに達するまでトークンを考慮します。
理由: Top-Pは分布の形状に合わせて候補セットのサイズを調整しますが、Top-Kは固定幅です。
特定のスタイル、長さ、または言語でLLMの出力を取得します。
Prompt engineering。明示的な指示を追加します(例:「フランス語で50語以下、丁寧なトーンで返信してください」)。
理由: スタイル制御のためにfine-tuning、再トレーニング、またはモデルサイズの変更を行うよりも、安価で高速です。
再トレーニングなしで特定タスクにおけるLLMの精度を向上させます。
Few-shot prompting — 新しい入力の前に、ラベル付きの入力/出力例を2~5個プロンプトに埋め込みます。
理由: In-context learningにより、モデルは重み更新なしで例に対してパターンマッチングを行うことができます。
LLMが多段階推論問題で誤った回答を出します。
Chain-of-thought prompting — 最終回答の前に、モデルに推論ステップを段階的に実行するよう指示します(例:「順を追って考えましょう」)。
LLMがもっともらしいが、事実と異なる、または捏造されたテキストを生成します。
Hallucinationです。RAG(取得された事実に基づく)、Bedrock Guardrails、低いtemperature、および高リスク出力の人間によるレビューで緩和します。
テキストまたはマルチモーダルデータに対するセマンティック検索、クラスタリング、またはRAG検索を強化します。
embeddingモデル(例:Titan Embeddings, Cohere Embed)を使用してコンテンツを密なベクトルに変換します。ベクトルDBに保存してクエリを実行します。
理由: Embeddingsは意味論的意味を捉えるため、類似するアイテムはベクトル空間内で互いに近くに配置されます(コサイン/ドット積類似度)。
検索アプリケーションがテキストと画像の両方を入力として受け入れます。
Multimodal embeddingモデル(例:Titan Multimodal Embeddings) — テキストと画像を同じベクトル空間に投影します。
コードやAWSアカウント設定なしで、生成系AIアプリを素早くプロトタイプします。
PartyRock (Amazon Bedrock Playground) — ブラウザベースのno-codeアプリビルダー。
Bedrockの料金モデルを選択します。
変動/予測不能な負荷 → On-demand(トークンあたり)。安定した高ボリュームまたは保証されたスループット → Provisioned Throughput。カスタムfine-tunedモデル → Provisioned Throughputを使用する必要があります。
理由: On-demandにはコミットメントがありません。Provisioned Throughputはモデル単位で専用容量を購入します。
必要な品質を得るための最も安価なカスタマイズを選択します。
この順序で試してください:(1)prompt engineering、(2)ナレッジベースによるRAG、(3)fine-tuning、(4)継続的な事前トレーニング。
理由: 各ステップで労力とコストが増加します。基準を満たす最初のステップで停止します。
fine-tuningなしで、プライベートな企業データ(PDF、ドキュメント、S3コンテンツ)で基盤モデルを拡張します。
Amazon Bedrock Knowledge Baseを作成します。Bedrockは取り込み、チャンキング、埋め込み、および推論時のRetrieval (RAG)を処理します。
理由: fine-tuningよりも安価で更新が高速です。ソースデータが変更されても、KBを再同期するだけで再トレーニングは不要です。
データが頻繁に変更され(在庫、価格設定、ニュースなど)、モデルが現在の状態を反映する必要がある場合。
ナレッジベースによるRAG。fine-tuningは再トレーニングサイクルが追いつかないため避けてください。
理由: RAGはモデルとデータを分離します。KBはモデルとは独立して更新されます。
特定タスクのために、ラベル付きの例で基盤モデルをfine-tuneします。
prompt-completion(指示-応答)ペアを提供します。JSONL形式が標準です。
理由: Instruction fine-tuningは、ユーザー入力をターゲットタスクの望ましい出力にマッピングするようにモデルを教えます。
大量のラベルなしドメインテキストを使用して、基盤モデルに専門用語(医療、法律、科学)を教えます。
ラベルなしドメインコーパスでの継続的な事前トレーニング。
理由: 継続的な事前トレーニングはモデルの語彙と概念の理解を更新します。instruction fine-tuningはタスクの振る舞いを教えます。目標が異なり、データの形状も異なります。
LLMの推論と外部API、データベース、またはAWSサービスへの呼び出しを組み合わせた多段階ワークフロー。
Amazon Bedrock Agents — LLMの推論、ツール/APIの呼び出し、結果の統合を単一のマネージドランタイムでオーケストレーションします。
理由: Agentは、あなたがオーケストレーションループを記述することなく、ステップを計画し、ツールを呼び出し、結果を最終応答にまとめます。
embeddings用のベクトルデータベースを選択します。
マネージドRAG → Bedrock Knowledge Bases(ベクトルストアを自動的に処理)。カスタムベクトルDB → OpenSearch Service (k-NN)、pgvectorを備えたAurora PostgreSQL、Neptune Analytics、またはpgvectorを備えたRDS for PostgreSQL。
理由: OpenSearchは大規模なk-NNのデフォルトであり、pgvectorは既存のリレーショナルDBを再利用します。
本番環境での提供のために、Bedrockからfine-tuneされたモデルをデプロイします。
カスタムBedrockモデルのProvisioned Throughputを購入します。カスタムモデルはオンデマンド料金では呼び出すことができません。
理由: カスタムモデルの容量は専用であり、モデル単位で課金され、呼び出しに必要です。
Bedrockの推論コストを見積もるか削減します。
コスト ≈ 処理されたトークン数 × トークンあたりの料金。プロンプトを短くする、few-shot例を削減する、より小さなモデルを選ぶ、またはサポートされている場合はprompt cachingを使用することで削減できます。
人間によるレビューを含む高精度なラベル付きデータを生成します(例:専門的な画像、医療記録)。
Amazon SageMaker Ground Truth Plus — マネージドHITLラベリングワーカー。
理由: 信頼度の低いモデル予測の定期的な監査には、Amazon A2I (Augmented AI)と組み合わせて使用します。
音声認識がドメイン固有の用語(医療、法律、ブランド名)を誤って聞き取ります。
ドメインテキストでトレーニングされたカスタム言語モデルまたはカスタム語彙を備えたAmazon Transcribe。
モデルがトレーニングではうまく機能するが、本番環境ではうまく機能しない(過学習)— アーキテクチャを変更せずに汎化を向上させます。
トレーニングデータの量と多様性を増やします。データを削減したり、ハイパーパラメータのみを追加したりしないでください。
理由: より代表的なデータが最も効果的な修正策です。正則化や早期停止も役立ちますが、データが最も重要です。
生成された出力の品質を評価します。
翻訳品質 → BLEU。要約品質 → ROUGE。参照との意味的類似性 → BERTScore。スタイルの好み → カスタムプロンプトセットを使用した人間による評価。
出力スタイルが重要なユースケースに合わせてBedrockの基盤モデルを選択します。
候補モデル間でカスタムプロンプトデータセットを使って人間による評価を実行します。公開されているリーダーボードやレイテンシーメトリクスだけに頼らないでください。
理由: スタイル/トーンの適合性は主観的であり、ベンチマークでは捉えられません。
ビジネスデータに関する自然言語の質問からグラフやダッシュボードを生成します。
Amazon Q in QuickSight — QuickSightデータセットに対する自然言語BI。
トレーニングデータまたはモデル予測におけるバイアスを検出し、説明可能性レポートを生成します。
Amazon SageMaker Clarify。トレーニング前後に保護された属性全体でバイアスメトリクスを実行し、SHAPベースの特徴量アトリビューションも行います。
理由: 公平性と説明可能性を実証する必要がある規制対象ドメイン(貸付、採用、ヘルスケア)で必要です。
モデルが特定の人口統計、民族グループ、または地理的地域で性能が低い場合(例:特定のグループを不釣り合いにフラグ立てする)。
サンプリングバイアスです。データセットのバランスを再調整します:過小評価されているクラスに対するデータ拡張。多様で代表的なソースを確保します。
理由: グループを過小評価するトレーニングデータは、それらのグループに十分にサービスを提供できないモデルを生成します。モデル層ではなく、データ層で修正します。
ガバナンスと監査のために、モデルの意図する用途、トレーニングデータ、性能、制限、およびリスクを文書化します。
Amazon SageMaker Model Cards — モデルに紐付けられた構造化されバージョン管理されたドキュメント。
LLMのトピックを制限する、有害なコンテンツをフィルタリングする、PIIをマスクする、またはプロンプトインジェクションパターンをブロックします。
Amazon Bedrock Guardrails。拒否されたトピック、コンテンツフィルター(ヘイト、暴力、性的、侮辱)、単語フィルター、機密情報フィルター、および文脈的根拠チェックを設定します。
理由: 入力と出力の両方に適用され、任意のBedrockモデルおよび独自のカスタムモデルで機能します。
生成系AIデプロイメントにおけるセキュリティ責任の会社の負担を決定します。
AWS Generative AI Security Scope Matrix。スコープ1(消費者向けアプリ、最低責任)→ スコープ5(自己トレーニングモデル、最高責任)。
理由: プライベートデータ上でゼロからモデルを構築・トレーニングする場合、最大のセキュリティ責任が会社に課せられます。
ステークホルダーや規制当局が、モデルが予測にどのように到達したかの説明を要求しています。
可能な場合は解釈可能なモデル(決定木、線形/ロジスティック回帰)を使用します。複雑なモデルの場合、Partial Dependence Plots、SageMaker Clarifyを介したSHAP特徴量重要度、またはSageMaker Model Cardsを使用します。
理由: PDPは各特徴量の限界効果を示し、SHAPは予測ごとの貢献度を属性付けし、モデルカードは監査のための全体像を捉えます。
生成系AIの出力が著作権のある素材を複製したり、人間が作成した作品として偽装されたりする可能性があります。
盗作/知的財産権侵害のリスク。引用要件、コンテンツの起源追跡、サポートされている場合はウォーターマーキング、人間によるレビュー、および明確なAIコンテンツ開示ポリシーで緩和します。
基盤モデルアプリケーションは、プロンプトと応答をAWSネットワーク内に保持する必要があり、パブリックインターネットへの egressはありません。
ランタイムAPI用にVPCエンドポイント(PrivateLink)を備えたBedrock。組織レベルでSCPsを使用してパブリックBedrockエンドポイントをブロックします。
理由: PrivateLinkはリクエストをプライベートに保ち、VPCからのデータ流出を防ぎます。SCPsはすべてのアカウントでルールを強制します。
複数のチームが共有S3データに対してBedrockを呼び出し、各チームは自身の顧客データのみにアクセスする必要があります。
各チームに対して、そのチームのS3プレフィックスまたはKMSキーにのみBedrockアクセスを許可するIAMサービスロールを作成します。
理由: カスタムサービスロールは、リソースレベルで最小特権を強制します。Bedrockに広範なS3アクセスを与え、アプリ層のフィルタリングに頼ってはいけません。
BedrockがSSE-KMSで暗号化されたS3データの読み取りに失敗します。
Bedrockサービスロールに、関連するCMKに対する`kms:Decrypt`と、バケット/プレフィックスに対する`s3:GetObject`を付与します。
理由: Bedrockはデータを読み取るためにサービスロールを引き受けます。そのロールにはS3とKMSの両方のアクセス許可が必要です。
モニタリング、デバッグ、監査、コンプライアンスのためにBedrockアクティビティをキャプチャします。
2つの補完的なサービス。CloudTrail = すべてのAPI呼び出しの誰/いつ/どこから(ID、タイムスタンプ、ソースIP)。Bedrockモデル呼び出しログ = 実際のプロンプト/応答ペイロード、CloudWatch LogsまたはS3に書き込まれます。両方を有効にします。
理由: CloudTrailはメタデータのみをキャプチャし、呼び出しログはコンテンツをキャプチャします。コンプライアンスには両方が必要となることがよくあります。
監査人がAIワークロードのAWSコンプライアンスレポート(SOC、ISO、PCI、HIPAA)を要求しています。
AWS Artifact — オンデマンドのAWSコンプライアンスレポートと契約のためのセルフサービスポータル。
理由: AWS Audit Managerは使用状況を継続的に監査し、AWS ArtifactはAWS自身の証明を提供します。
S3に存在するPIIやその他の機密データ(トレーニングコーパス、モデルログ)を検出・分類します。
Amazon Macie — S3向けのML駆動型機密データ検出サービス。
理由: モデルやその出力にデータが入る前に、Macieを使用してマスク、削除、またはKMS暗号化が必要なデータを見つけます。
悪意のあるユーザー入力がシステムプロンプトを上書きしたり、データを外部に持ち出したり、意図しないアクションを引き起こそうとします。
多層防御:コンテンツフィルタリングのためのBedrock Guardrails、上書きパターンを検出/無視するプロンプトテンプレート、入力長制限、出力検証、エージェントに対する最小特権ツール権限。
理由: 単一の緩和策では不十分です。入力フィルタリング、出力フィルタリング、および機能制限を組み合わせます。
機密データでカスタムモデルがトレーニングされており、そのデータが応答に漏洩してはならない。
モデルを削除し、トレーニングセットから機密レコードを削除して再トレーニングします。出力フィルタリングだけでは不十分です。
理由: モデルの重みに埋め込まれた知識は推論時に確実にマスクすることはできません。そのデータなしで再トレーニングすることによってのみ削除されます。
AIワークロードにおいて、AWSが何を保護し、顧客が何を保護するかを決定します。
AWS責任共有モデル:AWS = クラウドのセキュリティ(ハードウェア、ハイパーバイザー、リージョン)。顧客 = クラウド内のセキュリティ(データ、IAM、KMSキー、ネットワーク、アプリケーション設定)。