Decida se uma carga de trabalho deve ser executada em GPUs ou CPUs.
→Matemática massivamente paralela (treinamento/inferência de deep-learning, operações de matriz, simulação) → GPU. Lógica de controle serial com muitas ramificações, tarefas de SO, E/S leve → CPU.
Por quê: GPUs têm milhares de núcleos otimizados para throughput em trabalho SIMT paralelo; CPUs vencem em lógica serial sensível à latência. A maioria dos sistemas de IA emparelha ambos.
Escolha o bloco de construção NVIDIA: um appliance completo versus uma placa para sistemas OEM.
→Servidor de IA integrado pronto para uso (GPUs + CPUs + NVLink + rede + software) → DGX. Placa-base de GPU que OEMs/provedores de nuvem usam para construir servidores → HGX.
Por quê: DGX é o sistema de referência pronto para executar da NVIDIA; HGX é a placa multi-GPU que os hyperscalers integram por si mesmos.
Referência↗
GPUs em um servidor precisam de largura de banda GPU-para-GPU mais rápida do que a fornecida pelo barramento.
→Use NVLink (e NVSwitch para all-to-all) para interconexão de GPU intra-nó de alta largura de banda; PCIe é o fallback quando NVLink não está disponível.
Por quê: NVLink oferece largura de banda GPU-para-GPU muito maior e menor latência do que PCIe — crítico para treinamento model-parallel e com grandes lotes dentro de um nó.
Referência↗
Todas as 8 GPUs em um nó devem se comunicar entre si com largura de banda NVLink total simultaneamente.
→NVSwitch — uma malha de switch não-bloqueante que conecta cada GPU a todas as outras GPUs na velocidade total do NVLink.
Por quê: NVLink ponto-a-ponto sozinho não fornece largura de banda all-to-all; NVSwitch fornece o crossbar para comunicação GPU full-mesh.
Referência↗
Distinguir interconexão scale-up (dentro de um servidor) de scale-out (entre servidores).
→Interconexão de GPU scale-up dentro de um nó → NVLink/NVSwitch. Scale-out entre nós em um cluster → InfiniBand (ou RoCE Ethernet).
Por quê: NVLink é intra-nó; InfiniBand conecta nós em um cluster para treinamento distribuído multi-nó.
Referência↗
Escolha a malha de cluster para treinamento distribuído em larga escala onde a latência de operação coletiva é mais importante.
→Menor latência, computação na rede (SHARP), RDMA-native → InfiniBand. Familiar, menor custo, ecossistema amplo → RoCE em Spectrum-X Ethernet.
Por quê: InfiniBand com SHARP descarrega all-reduce para o switch, reduzindo a latência coletiva; Spectrum-X é a resposta Ethernet da NVIDIA para malhas de IA.
Referência↗
Descarregue o processamento de rede, armazenamento e segurança da CPU para que os núcleos sejam liberados para a computação de IA.
→NVIDIA BlueField DPU — unidade de processamento de dados programável que descarrega e isola serviços de infraestrutura da CPU/GPU hospedeira.
Por quê: DPUs aceleram a rede leste-oeste, armazenamento NVMe-oF e segurança zero-trust, aumentando a utilização efetiva da GPU/CPU e o isolamento de locatários.
Referência↗
Precisa de uma NIC RDMA de alta velocidade para nós GPU sem descarregamento DPU completo.
→NVIDIA ConnectX SmartNIC — adaptador InfiniBand/Ethernet de alta vazão com suporte a RDMA e GPUDirect.
Por quê: ConnectX oferece RDMA line-rate; BlueField adiciona um subsistema Arm programável para descarregamento completo da infraestrutura.
Referência↗
Reduza a latência movendo dados para a memória da GPU sem passar pela CPU/memória do host.
→GPUDirect RDMA — NICs leem/escrevem diretamente na memória da GPU; GPUDirect Storage faz o mesmo para armazenamento NVMe.
Por quê: Ignorar o buffer de salto da CPU remove cópias e latência no caminho dos dados, vital para o throughput de treinamento multi-nó.
Referência↗
Escolha uma arquitetura de GPU de data center de geração atual para treinamento de modelos grandes.
→Hopper (H100/H200) é a geração estabelecida com Transformer Engine + FP8; Blackwell (B200/GB200) é a geração mais recente com maior throughput e FP4 para os maiores modelos.
Por quê: Ambos visam cargas de trabalho transformer; Blackwell leva a escala e a inferência de menor precisão (FP4) mais longe. Correlacione com o orçamento e o tamanho do modelo.
Referência↗
Identifique o hardware que acelera a matemática de matrizes de deep-learning.
→Tensor Cores — unidades especializadas que realizam operações de multiplicação-acumulação de matrizes fundidas em precisão mista (FP16/BF16/FP8/FP4).
Por quê: Eles entregam throughput ordens de magnitude maior em GEMM/convolução do que os núcleos CUDA padrão, o que impulsiona o desempenho de DL.
Referência↗
Um modelo grande não cabe; a largura de banda da memória, não a computação, é o gargalo.
→Escolha GPUs com mais e mais rápida HBM (ex: H200/B200 com HBM3e); use paralelismo de modelo multi-GPU quando a memória de uma GPU for insuficiente.
Por quê: O treinamento/inferência de modelos grandes é frequentemente limitado pela capacidade e largura de banda da memória; HBM fornece a alta largura de banda que as GPUs precisam.
Monte um supercomputador de IA multi-rack pronto para uso e validado para treinamento empresarial.
→NVIDIA DGX SuperPOD — arquitetura de referência de nós DGX, malha InfiniBand, armazenamento e software Base Command.
Por quê: SuperPOD é o design full-stack pré-validado; ele remove a suposição da fiação da malha, armazenamento e orquestração em escala.
Referência↗
Obtenha capacidade de treinamento de classe DGX sem possuir o hardware.
→NVIDIA DGX Cloud — infraestrutura de treinamento de IA gerenciada hospedada em grandes provedores de nuvem, acessada como um serviço.
Por quê: OpEx vs. CapEx: DGX Cloud é adequado para treinamento intermitente ou de curto prazo; DGX/SuperPOD on-prem é adequado para alta utilização sustentada e restrições de data-gravity.
Referência↗
Escolha entre cluster GPU on-prem vs. GPUs em nuvem para cargas de trabalho de IA.
→Alta utilização sustentada, soberania de dados, gasto previsível → DGX/SuperPOD on-prem. Demanda variável/intermitente, início rápido, sem pegada de data center → nuvem ou DGX Cloud.
Por quê: GPUs próprias se amortizam bem apenas com alta utilização constante; hardware próprio ocioso é custo puro.
Um novo cluster de GPU excede o orçamento de energia e resfriamento do rack de um data center existente.
→Planeje energia de alta densidade (dezenas de kW/rack) e resfriamento líquido para as GPUs mais recentes; dimensione PDUs, barramentos e capacidade térmica antes da instalação.
Por quê: Nós de GPU modernos (e racks GB200) consomem muito mais energia e geram mais calor do que servidores legados; o resfriamento a ar e PDUs padrão muitas vezes não conseguem acompanhar.
O treinamento para porque o pipeline de dados não consegue alimentar as GPUs rápido o suficiente.
→Use armazenamento paralelo/NVMe de alta vazão com GPUDirect Storage; dimensione para largura de banda de leitura sustentada para manter as GPUs saturadas.
Por quê: E/S de armazenamento subprovisionada deixa GPUs caras ociosas esperando por dados; a camada de armazenamento deve corresponder à demanda agregada de leitura da GPU.
Um modelo é muito grande para ser treinado em um único nó em um tempo aceitável.
→Expanda para múltiplos nós via InfiniBand usando paralelismo de dados/tensor/pipeline; NCCL lida com a comunicação coletiva da GPU.
Por quê: O dimensionamento multi-nó precisa de uma malha de baixa latência e de uma biblioteca de coletivos otimizada (NCCL); uma malha lenta mata a eficiência do dimensionamento.
Referência↗
Uma única A100/H100 é um exagero para pequenos trabalhos de inferência; você quer fatias isoladas por hardware.
→Multi-Instance GPU (MIG) — particione uma GPU em até 7 instâncias isoladas, cada uma com computação e memória dedicadas.
Por quê: MIG oferece verdadeiro isolamento de hardware e QoS previsível para inferência multi-inquilino, ao contrário do fatiamento de tempo suave.
Referência↗