Decidir si una carga de trabajo debe ejecutarse en GPUs o CPUs.
→Matemáticas masivamente paralelas (entrenamiento/inferencia de deep learning, operaciones matriciales, simulación) → GPU. Lógica de control serial con muchas bifurcaciones, tareas del SO, E/S ligera → CPU.
Por qué: Las GPUs tienen miles de núcleos optimizados para el rendimiento en trabajos SIMT paralelos; las CPUs ganan en lógica serial sensible a la latencia. La mayoría de los sistemas de IA combinan ambos.
Elegir el bloque de construcción de NVIDIA: un dispositivo completo frente a una placa para sistemas OEM.
→Servidor de IA integrado "llave en mano" (GPUs + CPUs + NVLink + redes + software) → DGX. Placa base de GPU alrededor de la cual los OEMs/proveedores de la nube construyen servidores → HGX.
Por qué: DGX es el sistema de referencia listo para usar de NVIDIA; HGX es la placa multi-GPU que los hyperscalers integran por sí mismos.
Referencia↗
Las GPUs en un servidor necesitan un ancho de banda GPU a GPU más rápido del que proporciona el bus.
→Usar NVLink (y NVSwitch para "todos a todos") para interconexión de GPU dentro del nodo de alto ancho de banda; PCIe es la alternativa cuando NVLink no está disponible.
Por qué: NVLink ofrece un ancho de banda GPU a GPU mucho mayor y menor latencia que PCIe — crítico para el entrenamiento de modelos paralelos y lotes grandes dentro de un nodo.
Referencia↗
Las 8 GPUs en un nodo deben comunicarse entre sí a todo el ancho de banda de NVLink simultáneamente.
→NVSwitch — un tejido de conmutación no bloqueante que conecta cada GPU con cualquier otra GPU a la velocidad máxima de NVLink.
Por qué: NVLink punto a punto por sí solo no proporciona ancho de banda "todos a todos"; NVSwitch proporciona la interconexión para la comunicación GPU de malla completa.
Referencia↗
Distinguir la interconexión de escalado vertical (dentro de un servidor) de la de escalado horizontal (entre servidores).
→Interconexión de GPU de escalado vertical dentro de un nodo → NVLink/NVSwitch. Escalado horizontal entre nodos en un clúster → InfiniBand (o RoCE Ethernet).
Por qué: NVLink es intra-nodo; InfiniBand conecta nodos en un clúster para entrenamiento distribuido multi-nodo.
Referencia↗
Elegir el tejido del clúster para entrenamiento distribuido a gran escala donde la latencia de las operaciones colectivas es lo más importante.
→Menor latencia, computación en red (SHARP), nativo de RDMA → InfiniBand. Familiar, menor costo, amplio ecosistema → RoCE en Spectrum-X Ethernet.
Por qué: InfiniBand con SHARP descarga todas las reducciones en el switch, reduciendo la latencia colectiva; Spectrum-X es la respuesta de NVIDIA basada en Ethernet para tejidos de IA.
Referencia↗
Descargar el procesamiento de red, almacenamiento y seguridad de la CPU para liberar núcleos para la computación de IA.
→NVIDIA BlueField DPU — unidad de procesamiento de datos programable que descarga y aísla los servicios de infraestructura de la CPU/GPU del host.
Por qué: Las DPUs aceleran las redes este-oeste, el almacenamiento NVMe-oF y la seguridad de confianza cero, aumentando la utilización efectiva de GPU/CPU y el aislamiento de inquilinos.
Referencia↗
Necesitar una NIC RDMA de alta velocidad para nodos GPU sin descarga completa de DPU.
→NVIDIA ConnectX SmartNIC — adaptador InfiniBand/Ethernet de alto rendimiento con soporte para RDMA y GPUDirect.
Por qué: ConnectX proporciona RDMA a velocidad de línea; BlueField añade un subsistema Arm programable en la parte superior para una descarga completa de la infraestructura.
Referencia↗
Reducir la latencia moviendo datos a la memoria de la GPU sin pasar por la CPU/memoria del host.
→GPUDirect RDMA — las NICs leen/escriben directamente en la memoria de la GPU; GPUDirect Storage hace lo mismo para el almacenamiento NVMe.
Por qué: Omitir el búfer de rebote de la CPU elimina copias y latencia en la ruta de datos, vital para el rendimiento del entrenamiento multi-nodo.
Referencia↗
Elegir una arquitectura de GPU de centro de datos de generación actual para el entrenamiento de modelos grandes.
→Hopper (H100/H200) es la generación establecida con Transformer Engine + FP8; Blackwell (B200/GB200) es la generación más nueva con mayor rendimiento y FP4 para los modelos más grandes.
Por qué: Ambas se dirigen a cargas de trabajo de transformer; Blackwell impulsa aún más la escala y la inferencia de menor precisión (FP4). Coincide con el presupuesto y el tamaño del modelo.
Referencia↗
Identificar el hardware que acelera las operaciones matriciales de deep learning.
→Tensor Cores — unidades especializadas que realizan operaciones de multiplicación-acumulación de matrices fusionadas con precisión mixta (FP16/BF16/FP8/FP4).
Por qué: Ofrecen un rendimiento órdenes de magnitud superior en GEMM/convolución que los núcleos CUDA estándar, lo que impulsa el rendimiento de DL.
Referencia↗
Un modelo grande no encaja; el ancho de banda de la memoria, no la computación, es el cuello de botella.
→Elegir GPUs con más y más rápida HBM (ej. H200/B200 con HBM3e); usar paralelismo de modelo multi-GPU cuando la memoria de una GPU es insuficiente.
Por qué: El entrenamiento/inferencia de modelos grandes a menudo está limitado por la capacidad y el ancho de banda de la memoria; HBM proporciona el alto ancho de banda que las GPUs necesitan.
Implementar un superordenador de IA multi-rack "llave en mano" y validado para el entrenamiento empresarial.
→NVIDIA DGX SuperPOD — arquitectura de referencia de nodos DGX, tejido InfiniBand, almacenamiento y software Base Command.
Por qué: SuperPOD es el diseño de pila completa pre-validado; elimina las conjeturas de cablear el tejido, el almacenamiento y la orquestación a escala.
Referencia↗
Obtener capacidad de entrenamiento de clase DGX sin poseer el hardware.
→NVIDIA DGX Cloud — infraestructura de entrenamiento de IA gestionada alojada en los principales proveedores de la nube, a la que se accede como un servicio.
Por qué: OpEx vs. CapEx: DGX Cloud es adecuado para entrenamiento intermitente o a corto plazo; DGX/SuperPOD en las instalaciones es adecuado para una alta utilización sostenida y limitaciones de gravedad de datos.
Referencia↗
Elegir un clúster de GPU en las instalaciones frente a GPUs en la nube para cargas de trabajo de IA.
→Alta utilización sostenida, soberanía de datos, gasto predecible → DGX/SuperPOD en las instalaciones. Demanda variable/intermitente, inicio rápido, sin huella de centro de datos → nube o DGX Cloud.
Por qué: Las GPUs propias se amortizan bien solo con una alta utilización constante; el hardware propio inactivo es puro coste.
Un nuevo clúster de GPU excede el presupuesto de energía y refrigeración del rack de un centro de datos existente.
→Planificar para energía de alta densidad (decenas de kW/rack) y refrigeración líquida para las GPUs más nuevas; dimensionar PDUs, busways y capacidad térmica antes de la instalación.
Por qué: Los nodos de GPU modernos (y los racks GB200) consumen mucha más energía y generan más calor que los servidores heredados; la refrigeración por aire y las PDUs estándar a menudo no pueden seguir el ritmo.
El entrenamiento se detiene porque la tubería de datos no puede alimentar a las GPUs lo suficientemente rápido.
→Usar almacenamiento paralelo/NVMe de alto rendimiento con GPUDirect Storage; dimensionar para un ancho de banda de lectura sostenido para mantener las GPUs saturadas.
Por qué: Una E/S de almacenamiento insuficiente deja las costosas GPUs inactivas esperando datos; el nivel de almacenamiento debe coincidir con la demanda de lectura agregada de las GPUs.
Un modelo es demasiado grande para entrenar en un solo nodo en un tiempo aceptable.
→Escalar a múltiples nodos a través de InfiniBand utilizando paralelismo de datos/tensor/pipeline; NCCL gestiona la comunicación colectiva de GPU.
Por qué: El escalado multi-nodo necesita un tejido de baja latencia y una biblioteca de colectivos optimizada (NCCL); un tejido lento anula la eficiencia del escalado.
Referencia↗
Una sola A100/H100 es excesiva para trabajos de inferencia pequeños; se quieren divisiones aisladas por hardware.
→Multi-Instance GPU (MIG) — particionar una GPU en hasta 7 instancias aisladas, cada una con computación y memoria dedicadas.
Por qué: MIG proporciona un verdadero aislamiento de hardware y QoS predecible para la inferencia multi-inquilino, a diferencia del time-slicing suave.
Referencia↗