Entscheiden Sie, ob eine Arbeitslast auf GPUs oder CPUs ausgeführt werden soll.
→Massiv parallele Mathematik (Deep-Learning-Training/Inferenz, Matrix-Operationen, Simulation) → GPU. Serielle, verzweigungsintensive Steuerlogik, OS-Aufgaben, leichte E/A → CPU.
Warum: GPUs verfügen über Tausende von Kernen, die für den Durchsatz bei parallelen SIMT-Arbeiten optimiert sind; CPUs sind bei latenzempfindlicher serieller Logik überlegen. Die meisten KI-Systeme kombinieren beides.
Wählen Sie den NVIDIA-Baustein: eine komplette Appliance vs. eine Platine für OEM-Systeme.
→Schlüsselfertiger integrierter KI-Server (GPUs + CPUs + NVLink + Netzwerk + Software) → DGX. GPU-Basisplatine, um die herum OEMs/Cloud-Anbieter Server bauen → HGX.
Warum: DGX ist NVIDIAs sofort einsatzbereites Referenzsystem; HGX ist die Multi-GPU-Platine, die Hyperscaler selbst integrieren.
Referenz↗
GPUs in einem Server benötigen eine schnellere GPU-zu-GPU-Bandbreite, als der Bus bietet.
→Verwenden Sie NVLink (und NVSwitch für All-to-All) für eine GPU-Verbindung mit hoher Bandbreite innerhalb eines Knotens; PCIe ist der Ersatz, wenn NVLink nicht verfügbar ist.
Warum: NVLink liefert eine weitaus höhere GPU-zu-GPU-Bandbreite und geringere Latenz als PCIe — entscheidend für modellparalleles und Large-Batch-Training innerhalb eines Knotens.
Referenz↗
Alle 8 GPUs in einem Knoten müssen gleichzeitig mit voller NVLink-Bandbreite miteinander kommunizieren.
→NVSwitch — ein nicht-blockierendes Switch-Fabric, das jede GPU mit jeder anderen GPU mit voller NVLink-Geschwindigkeit verbindet.
Warum: Punkt-zu-Punkt-NVLink allein bietet keine All-to-All-Bandbreite; NVSwitch stellt das Crossbar für die vollständige GPU-Mesh-Kommunikation bereit.
Referenz↗
Unterscheiden Sie Scale-up (innerhalb eines Servers) von Scale-out (über Server hinweg) Interconnect.
→Scale-up GPU-Verbindung innerhalb eines Knotens → NVLink/NVSwitch. Scale-out über Knoten in einem Cluster hinweg → InfiniBand (oder RoCE Ethernet).
Warum: NVLink ist internode; InfiniBand verbindet Knoten zu einem Cluster für verteiltes Multi-Node-Training.
Referenz↗
Wählen Sie das Cluster-Fabric für groß angelegtes verteiltes Training, bei dem die Latenz kollektiver Operationen am wichtigsten ist.
→Geringste Latenz, In-Network-Compute (SHARP), RDMA-nativ → InfiniBand. Vertraut, kostengünstiger, breites Ökosystem → RoCE auf Spectrum-X Ethernet.
Warum: InfiniBand mit SHARP lagert All-Reduce in den Switch aus, was die kollektive Latenz reduziert; Spectrum-X ist NVIDIAs Ethernet-Antwort für AI fabrics.
Referenz↗
Lagern Sie Netzwerk-, Speicher- und Sicherheitsprozessierung von der CPU aus, damit Kerne für KI-Berechnungen frei werden.
→NVIDIA BlueField DPU — programmierbare Datenverarbeitungseinheit, die Infrastrukturdienste von der Host-CPU/GPU auslagert und isoliert.
Warum: DPUs beschleunigen East-West-Networking, NVMe-oF-Speicher und Zero-Trust-Sicherheit, wodurch die effektive GPU/CPU-Auslastung und die Mandantenisolation erhöht werden.
Referenz↗
Benötigen Sie eine Hochgeschwindigkeits-RDMA-NIC für GPU-Knoten ohne vollständige DPU-Auslagerung.
→NVIDIA ConnectX SmartNIC — Hochdurchsatz-InfiniBand/Ethernet-Adapter mit RDMA- und GPUDirect-Unterstützung.
Warum: ConnectX bietet Leitungsraten-RDMA; BlueField fügt ein programmierbares Arm-Subsystem hinzu für vollständige Infrastruktur-Auslagerung.
Referenz↗
Reduzieren Sie die Latenz, indem Sie Daten direkt in den GPU-Speicher verschieben, ohne den Umweg über den CPU-/Host-Speicher zu nehmen.
→GPUDirect RDMA — NICs lesen/schreiben direkt in den GPU-Speicher; GPUDirect Storage tut dasselbe für NVMe-Speicher.
Warum: Das Umgehen des CPU-Bounce-Puffers eliminiert Kopien und Latenz im Datenpfad, was für den Multi-Node-Trainingsdurchsatz entscheidend ist.
Referenz↗
Wählen Sie eine aktuelle Data-Center-GPU-Architektur für das Training großer Modelle.
→Hopper (H100/H200) ist die etablierte Generation mit Transformer Engine + FP8; Blackwell (B200/GB200) ist die neuere Generation mit höherem Durchsatz und FP4 für die größten Modelle.
Warum: Beide zielen auf Transformer-Workloads ab; Blackwell treibt Skalierung und Inferenz mit geringerer Präzision (FP4) weiter voran. Passen Sie an Budget und Modellgröße an.
Referenz↗
Identifizieren Sie die Hardware, die die Deep-Learning-Matrix-Mathematik beschleunigt.
→Tensor Cores — spezialisierte Einheiten, die Fused Matrix-Multiply-Accumulate mit gemischter Präzision (FP16/BF16/FP8/FP4) durchführen.
Warum: Sie liefern einen um Größenordnungen höheren Durchsatz bei GEMM/Konvolution als Standard-CUDA-Kerne, was die DL-Leistung vorantreibt.
Referenz↗
Ein großes Modell passt nicht; die Speicherbandbreite, nicht die Rechenleistung, ist der Engpass.
→Wählen Sie GPUs mit mehr und schnellerem HBM (z.B. H200/B200 mit HBM3e); verwenden Sie Multi-GPU-Modellparallelismus, wenn der Speicher einer GPU nicht ausreicht.
Warum: Training/Inferenz großer Modelle ist oft durch Speicherkapazität und Bandbreite begrenzt; HBM bietet die hohe Bandbreite, die GPUs benötigen.
Stellen Sie einen schlüsselfertigen, validierten Multi-Rack-KI-Supercomputer für das Unternehmenstraining bereit.
→NVIDIA DGX SuperPOD — Referenzarchitektur von DGX-Knoten, InfiniBand-Fabric, Speicher und Base Command software.
Warum: SuperPOD ist das vorvalidierte Full-Stack-Design; es beseitigt das Rätselraten bei der Verkabelung von Fabric, Speicher und Orchestrierung im großen Maßstab.
Referenz↗
Erhalten Sie Trainingskapazität der DGX-Klasse, ohne die Hardware zu besitzen.
→NVIDIA DGX Cloud — verwaltete KI-Trainingsinfrastruktur, die bei großen Cloud-Anbietern gehostet und als Dienst bereitgestellt wird.
Warum: OpEx vs. CapEx: DGX Cloud eignet sich für sprunghaftes oder kurzfristiges Training; On-Prem DGX/SuperPOD eignet sich für anhaltend hohe Auslastung und Data-Gravity-Einschränkungen.
Referenz↗
Wählen Sie On-Premises-GPU-Cluster vs. Cloud-GPUs für KI-Workloads.
→Anhaltend hohe Auslastung, Datenhoheit, vorhersehbare Ausgaben → On-Prem DGX/SuperPOD. Variable/sprunghafte Nachfrage, schneller Start, kein Rechenzentrums-Footprint → Cloud oder DGX Cloud.
Warum: Eigene GPUs amortisieren sich nur bei hoher, gleichmäßiger Auslastung gut; ungenutzte eigene Hardware ist reine Kosten.
Ein neuer GPU-Cluster überschreitet das Rack-Strom- und Kühlbudget eines bestehenden Rechenzentrums.
→Planen Sie für die neuesten GPUs eine hohe Stromdichte (zehn kW/Rack) und Flüssigkeitskühlung; dimensionieren Sie PDUs, Stromschienen und die thermische Kapazität vor der Installation.
Warum: Moderne GPU-Knoten (und GB200-Racks) benötigen weitaus mehr Strom und erzeugen mehr Wärme als ältere Server; Luftkühlung und Standard-PDUs können oft nicht mithalten.
Das Training stockt, weil die Datenpipeline die GPUs nicht schnell genug versorgen kann.
→Verwenden Sie einen parallelen/NVMe-Speicher mit hohem Durchsatz und GPUDirect Storage; dimensionieren Sie ihn für eine anhaltende Lesebandbreite, um GPUs gesättigt zu halten.
Warum: Unterdimensionierte Speicher-E/A lässt teure GPUs untätig auf Daten warten; die Speicherebene muss dem aggregierten GPU-Leseanforderungsbedarf entsprechen.
Ein Modell ist zu groß, um innerhalb einer akzeptablen Zeit auf einem einzelnen Knoten trainiert zu werden.
→Skalieren Sie auf mehrere Knoten über InfiniBand mithilfe von Daten-/Tensor-/Pipeline-Parallelismus; NCCL übernimmt die kollektive GPU-Kommunikation.
Warum: Multi-Node-Skalierung erfordert ein Fabric mit geringer Latenz und eine optimierte Kollektivbibliotheks (NCCL); ein langsames Fabric vernichtet die Skalierungseffizienz.
Referenz↗
Ein einzelner A100/H100 ist überdimensioniert für kleine Inferenz-Jobs; Sie möchten hardware-isolierte Slices.
→Multi-Instance GPU (MIG) — teilt eine GPU in bis zu 7 isolierte Instanzen auf, jede mit dedizierter Rechenleistung und Speicher.
Warum: MIG bietet echte Hardware-Isolation und vorhersagbare QoS für Multi-Tenant-Inferenz, im Gegensatz zum Soft Time-Slicing.
Referenz↗