Определите, должна ли рабочая нагрузка выполняться на GPU или CPU.
→Массово параллельные вычисления (обучение/инференс глубокого обучения, матричные операции, симуляция) → GPU. Последовательная, сильно разветвленная логика управления, задачи ОС, легкий ввод/вывод → CPU.
Почему: GPU имеют тысячи ядер, оптимизированных для пропускной способности при параллельной работе SIMT; CPU выигрывают в чувствительной к задержкам последовательной логике. Большинство систем ИИ используют оба.
Выберите строительный блок NVIDIA: готовое устройство или плату для OEM-систем.
→Интегрированный сервер ИИ "под ключ" (GPU + CPU + NVLink + сеть + программное обеспечение) → DGX. Базовая плата GPU, вокруг которой OEM-производители/облачные провайдеры строят серверы → HGX.
Почему: DGX — это готовая к работе референсная система NVIDIA; HGX — это многопроцессорная плата, которую интегрируют гиперскейлеры.
Источник↗
GPU в одном сервере требуют более высокой пропускной способности между GPU, чем предоставляет шина.
→Используйте NVLink (и NVSwitch для связи "все со всеми") для высокоскоростного внутриузлового соединения GPU; PCIe является запасным вариантом, когда NVLink недоступен.
Почему: NVLink обеспечивает значительно более высокую пропускную способность между GPU и меньшую задержку, чем PCIe, что критически важно для параллельного обучения моделей и обучения больших пакетов внутри узла.
Источник↗
Все 8 GPU в узле должны обмениваться данными друг с другом на полной пропускной способности NVLink одновременно.
→NVSwitch — это неблокирующая коммутирующая структура, которая соединяет каждый GPU с каждым другим GPU на полной скорости NVLink.
Почему: Только лишь NVLink "точка-точка" не обеспечивает пропускную способность "все со всеми"; NVSwitch предоставляет кроссбар для полнофункциональной GPU-коммуникации.
Источник↗
Различайте наращивание производительности (внутри сервера) и масштабирование (между серверами) межсоединений.
→Наращивание производительности GPU внутри узла → NVLink/NVSwitch. Масштабирование между узлами в кластере → InfiniBand (или RoCE Ethernet).
Почему: NVLink — внутриузловой; InfiniBand соединяет узлы в кластер для распределенного обучения на нескольких узлах.
Источник↗
Выберите фабрику кластера для крупномасштабного распределенного обучения, где задержка коллективных операций имеет наибольшее значение.
→Минимальная задержка, вычисления в сети (SHARP), RDMA-native → InfiniBand. Привычная, более низкая стоимость, широкая экосистема → RoCE на Spectrum-X Ethernet.
Почему: InfiniBand с SHARP выгружает all-reduce в коммутатор, сокращая задержку коллективных операций; Spectrum-X — это ответ NVIDIA на Ethernet для ИИ-фабрик.
Источник↗
Передача сетевых, дисковых и безопасностных операций с CPU, чтобы ядра освободились для вычислений ИИ.
→NVIDIA BlueField DPU — программируемый блок обработки данных, который разгружает и изолирует инфраструктурные службы от хост-CPU/GPU.
Почему: DPU ускоряют "восток-запад" сетевые операции, хранилище NVMe-oF и безопасность с нулевым доверием, повышая эффективную утилизацию GPU/CPU и изоляцию арендаторов.
Источник↗
Требуется высокоскоростной RDMA NIC для узлов GPU без полной разгрузки DPU.
→NVIDIA ConnectX SmartNIC — высокопроизводительный адаптер InfiniBand/Ethernet с поддержкой RDMA и GPUDirect.
Почему: ConnectX обеспечивает RDMA на скорости линии; BlueField добавляет программируемую подсистему Arm сверху для полной разгрузки инфраструктуры.
Источник↗
Сокращение задержки путем перемещения данных в память GPU без промежуточного хранения в памяти CPU/хоста.
→GPUDirect RDMA — сетевые адаптеры напрямую читают/записывают память GPU; GPUDirect Storage делает то же самое для NVMe-хранилищ.
Почему: Обход буфера отскока CPU устраняет копирование и задержку на пути данных, что крайне важно для пропускной способности многоузлового обучения.
Источник↗
Выберите архитектуру GPU текущего поколения для центров обработки данных для обучения больших моделей.
→Hopper (H100/H200) — это устоявшееся поколение с Transformer Engine + FP8; Blackwell (B200/GB200) — это новое поколение с более высокой пропускной способностью и FP4 для самых больших моделей.
Почему: Обе архитектуры нацелены на трансформаторные рабочие нагрузки; Blackwell продвигает масштабирование и инференс с более низкой точностью (FP4) дальше. Сопоставляйте с бюджетом и размером модели.
Источник↗
Определите аппаратное обеспечение, которое ускоряет матричные вычисления глубокого обучения.
→Tensor Cores — специализированные блоки, которые выполняют совмещенные операции умножения-накопления матриц со смешанной точностью (FP16/BF16/FP8/FP4).
Почему: Они обеспечивают на порядок более высокую пропускную способность для GEMM/сверток, чем стандартные ядра CUDA, что значительно повышает производительность DL.
Источник↗
Большая модель не помещается; узким местом является пропускная способность памяти, а не вычисления.
→Выбирайте GPU с большим и быстрым HBM (например, H200/B200 с HBM3e); используйте многопроцессорный параллелизм моделей, когда памяти одного GPU недостаточно.
Почему: Обучение/инференс больших моделей часто ограничены объемом памяти и пропускной способностью; HBM обеспечивает высокую пропускную способность, необходимую GPU.
Разверните готовый, проверенный многостоечный суперкомпьютер ИИ для корпоративного обучения.
→NVIDIA DGX SuperPOD — референсная архитектура узлов DGX, фабрики InfiniBand, хранилища и программного обеспечения Base Command.
Почему: SuperPOD — это предварительно проверенная полнофункциональная конструкция; она устраняет догадки при подключении фабрики, хранилища и оркестрации в масштабе.
Источник↗
Получите вычислительную мощность DGX-класса для обучения без владения оборудованием.
→NVIDIA DGX Cloud — управляемая инфраструктура для обучения ИИ, размещенная у крупных облачных провайдеров, доступная как услуга.
Почему: OpEx против CapEx: DGX Cloud подходит для пиковых или краткосрочных тренировок; локальные DGX/SuperPOD подходят для постоянного высокого использования и ограничений, связанных с гравитацией данных.
Источник↗
Выберите между локальным GPU-кластером и облачными GPU для рабочих нагрузок ИИ.
→Постоянное высокое использование, суверенитет данных, предсказуемые расходы → локальный DGX/SuperPOD. Переменный/пиковый спрос, быстрый старт, отсутствие следа ЦОД → облако или DGX Cloud.
Почему: Приобретенные GPU хорошо окупаются только при постоянной высокой загрузке; простаивающее собственное оборудование — это чистые затраты.
Новый GPU-кластер превышает бюджет мощности и охлаждения стойки существующего центра обработки данных.
→Планируйте высокую плотность питания (десятки кВт/стойка) и жидкостное охлаждение для новейших GPU; рассчитывайте блоки распределения питания (PDU), шинопроводы и тепловую мощность перед установкой.
Почему: Современные узлы GPU (и стойки GB200) потребляют гораздо больше энергии и выделяют больше тепла, чем устаревшие серверы; воздушное охлаждение и стандартные PDU часто не справляются.
Обучение прерывается, потому что конвейер данных не может достаточно быстро подавать данные на GPU.
→Используйте высокопроизводительное параллельное/NVMe хранилище с GPUDirect Storage; рассчитывайте на постоянную пропускную способность чтения, чтобы GPU оставались насыщенными.
Почему: Недостаточное выделение ресурсов ввода/вывода хранилища приводит к простою дорогих GPU в ожидании данных; уровень хранилища должен соответствовать совокупному спросу на чтение GPU.
Модель слишком велика для обучения на одном узле в приемлемое время.
→Масштабируйте до нескольких узлов через InfiniBand, используя параллелизм данных/тензоров/конвейеров; NCCL обрабатывает коллективную связь GPU.
Почему: Для многоузлового масштабирования требуется низкоlatency фабрика и оптимизированная библиотека коллективных операций (NCCL); медленная фабрика убивает эффективность масштабирования.
Источник↗
Одиночный A100/H100 избыточен для небольших задач инференса; нужны аппаратно изолированные срезы.
→Multi-Instance GPU (MIG) — разделение одного GPU на до 7 изолированных экземпляров, каждый со своей выделенной вычислительной мощностью и памятью.
Почему: MIG обеспечивает истинную аппаратную изоляцию и предсказуемое качество обслуживания для многопользовательского инференса, в отличие от мягкого разделения по времени.
Источник↗