Décider si une charge de travail doit être exécutée sur des GPU ou des CPU.
→Calcul massivement parallèle (entraînement/inférence de deep-learning, opérations matricielles, simulation) → GPU. Logique de contrôle série à forte ramification, tâches du système d'exploitation, E/S légères → CPU.
Pourquoi: Les GPU ont des milliers de cœurs optimisés pour le débit sur le travail SIMT parallèle ; les CPU sont meilleurs pour la logique série sensible à la latence. La plupart des systèmes IA associent les deux.
Choisir le bloc de construction NVIDIA : une appliance complète ou une carte pour les systèmes OEM.
→Serveur IA intégré clé en main (GPU + CPU + NVLink + réseau + logiciel) → DGX. Carte mère GPU autour de laquelle les OEM/fournisseurs de cloud construisent des serveurs → HGX.
Pourquoi: DGX est le système de référence prêt à l'emploi de NVIDIA ; HGX est la carte multi-GPU que les hyperscalers intègrent eux-mêmes.
Référence↗
Les GPU d'un même serveur nécessitent une bande passante GPU-à-GPU plus rapide que ce que le bus offre.
→Utiliser NVLink (et NVSwitch pour les connexions tout-à-tout) pour l'interconnexion GPU intra-nœud à haute bande passante ; PCIe est la solution de repli lorsque NVLink n'est pas disponible.
Pourquoi: NVLink offre une bande passante GPU-à-GPU bien plus élevée et une latence plus faible que PCIe — essentiel pour l'entraînement parallèle de modèles et en grands lots à l'intérieur d'un nœud.
Référence↗
Les 8 GPU d'un nœud doivent communiquer entre eux simultanément à pleine bande passante NVLink.
→NVSwitch — une matrice de commutation non bloquante qui connecte chaque GPU à tous les autres GPU à pleine vitesse NVLink.
Pourquoi: NVLink point-à-point seul ne fournit pas une bande passante tout-à-tout ; NVSwitch fournit le crossbar pour une communication GPU maillée complète.
Référence↗
Distinguer l'interconnexion de scale-up (à l'intérieur d'un serveur) de celle de scale-out (à travers les serveurs).
→Interconnexion GPU scale-up au sein d'un nœud → NVLink/NVSwitch. Scale-out à travers les nœuds d'un cluster → InfiniBand (ou RoCE Ethernet).
Pourquoi: NVLink est intra-nœud ; InfiniBand connecte les nœuds en un cluster pour l'entraînement distribué multi-nœuds.
Référence↗
Choisir le fabric de cluster pour l'entraînement distribué à grande échelle où la latence des opérations collectives est la plus importante.
→Latence la plus faible, calcul dans le réseau (SHARP), RDMA natif → InfiniBand. Familier, moins coûteux, écosystème large → RoCE sur Spectrum-X Ethernet.
Pourquoi: InfiniBand avec SHARP décharge l'opération all-reduce dans le switch, réduisant la latence collective ; Spectrum-X est la réponse Ethernet de NVIDIA pour les fabrics IA.
Référence↗
Décharger le traitement réseau, de stockage et de sécurité du CPU afin que les cœurs soient libérés pour le calcul IA.
→NVIDIA BlueField DPU — unité de traitement de données programmable qui décharge et isole les services d'infrastructure du CPU/GPU hôte.
Pourquoi: Les DPU accélèrent le réseau est-ouest, le stockage NVMe-oF et la sécurité zero-trust, augmentant l'utilisation effective du GPU/CPU et l'isolation des locataires.
Référence↗
Besoin d'une carte réseau RDMA haute vitesse pour les nœuds GPU sans déchargement DPU complet.
→NVIDIA ConnectX SmartNIC — adaptateur InfiniBand/Ethernet à haut débit avec support RDMA et GPUDirect.
Pourquoi: ConnectX offre le RDMA à vitesse de ligne ; BlueField ajoute un sous-système Arm programmable pour un déchargement complet de l'infrastructure.
Référence↗
Réduire la latence en déplaçant les données dans la mémoire du GPU sans passer par le CPU/la mémoire hôte.
→GPUDirect RDMA — les cartes réseau lisent/écrivent directement la mémoire GPU ; GPUDirect Storage fait de même pour le stockage NVMe.
Pourquoi: Le contournement du tampon de rebond du CPU élimine les copies et la latence sur le chemin des données, vital pour le débit d'entraînement multi-nœuds.
Référence↗
Choisir une architecture GPU de centre de données de génération actuelle pour l'entraînement de grands modèles.
→Hopper (H100/H200) est la génération établie avec Transformer Engine + FP8 ; Blackwell (B200/GB200) est la nouvelle génération avec un débit plus élevé et FP4 pour les plus grands modèles.
Pourquoi: Les deux ciblent les charges de travail Transformer ; Blackwell pousse encore plus loin l'échelle et l'inférence à faible précision (FP4). À adapter au budget et à la taille du modèle.
Référence↗
Identifier le matériel qui accélère le calcul matriciel du deep-learning.
→Tensor Cores — unités spécialisées qui effectuent des multiplications-accumulations matricielles fusionnées en précision mixte (FP16/BF16/FP8/FP4).
Pourquoi: Ils offrent un débit d'un ordre de grandeur supérieur sur les opérations GEMM/convolution que les cœurs CUDA standard, ce qui améliore les performances DL.
Référence↗
Un grand modèle ne rentre pas ; la bande passante mémoire, et non le calcul, est le goulot d'étranglement.
→Choisir des GPU avec plus de HBM plus rapide (par exemple H200/B200 avec HBM3e) ; utiliser le parallélisme de modèle multi-GPU lorsque la mémoire d'un seul GPU est insuffisante.
Pourquoi: L'entraînement/inférence de grands modèles est souvent limitée par la capacité mémoire et la bande passante ; HBM fournit la haute bande passante dont les GPU ont besoin.
Mettre en place un supercalculateur IA multi-rack clé en main et validé pour l'entraînement en entreprise.
→NVIDIA DGX SuperPOD — architecture de référence de nœuds DGX, fabric InfiniBand, stockage et logiciel Base Command.
Pourquoi: SuperPOD est la conception full-stack pré-validée ; elle élimine les incertitudes liées au câblage du fabric, au stockage et à l'orchestration à grande échelle.
Référence↗
Obtenir une capacité d'entraînement de classe DGX sans posséder le matériel.
→NVIDIA DGX Cloud — infrastructure d'entraînement IA gérée hébergée chez les principaux fournisseurs de cloud, accessible en tant que service.
Pourquoi: OpEx vs. CapEx : DGX Cloud convient à l'entraînement ponctuel ou à court terme ; DGX/SuperPOD sur site convient à une utilisation élevée et soutenue et aux contraintes de gravité des données.
Référence↗
Choisir entre un cluster GPU sur site et des GPU cloud pour les charges de travail IA.
→Utilisation élevée et soutenue, souveraineté des données, dépenses prévisibles → DGX/SuperPOD sur site. Demande variable/ponctuelle, démarrage rapide, pas d'empreinte de centre de données → cloud ou DGX Cloud.
Pourquoi: Les GPU détenus ne s'amortissent bien qu'à une utilisation constante et élevée ; le matériel détenu inactif est un coût pur.
Un nouveau cluster GPU dépasse le budget de puissance et de refroidissement d'un rack d'un centre de données existant.
→Prévoir une alimentation haute densité (dizaines de kW/rack) et un refroidissement liquide pour les GPU les plus récents ; dimensionner les PDU, les chemins de câbles et la capacité thermique avant l'installation.
Pourquoi: Les nœuds GPU modernes (et les racks GB200) consomment beaucoup plus de puissance et génèrent plus de chaleur que les serveurs hérités ; le refroidissement par air et les PDU standard ne peuvent souvent pas suivre.
L'entraînement s'interrompt car le pipeline de données ne peut pas alimenter les GPU assez rapidement.
→Utiliser un stockage parallèle/NVMe à haut débit avec GPUDirect Storage ; dimensionner pour une bande passante de lecture soutenue afin de maintenir les GPU saturés.
Pourquoi: Un sous-provisionnement des E/S de stockage laisse des GPU coûteux inactifs en attente de données ; la couche de stockage doit correspondre à la demande de lecture agrégée du GPU.
Un modèle est trop volumineux pour être entraîné sur un seul nœud dans un délai acceptable.
→Évoluer vers plusieurs nœuds via InfiniBand en utilisant le parallélisme de données/tenseurs/pipeline ; NCCL gère la communication collective GPU.
Pourquoi: Le scaling multi-nœuds nécessite un fabric à faible latence et une bibliothèque de collectives optimisée (NCCL) ; un fabric lent réduit l'efficacité du scaling.
Référence↗
Un seul A100/H100 est excessif pour les petites tâches d'inférence ; vous voulez des tranches isolées par le matériel.
→Multi-Instance GPU (MIG) — partitionner un GPU en jusqu'à 7 instances isolées, chacune avec un calcul et une mémoire dédiés.
Pourquoi: MIG offre une véritable isolation matérielle et une QoS prévisible pour l'inférence multi-locataire, contrairement au découpage temporel logiciel.
Référence↗