Infrastruktura

IB

2000AktywnyOpublikowano: 8 maja 2026Aktualizacja: 8 maja 2026Opublikowany

InfiniBand to standard sieci switched-fabric o bardzo wysokiej przepustowości i bardzo niskich opóźnieniach, używany w HPC i w klastrach AI – zapewnia natywne RDMA i lossless transport.

Kluczowa innowacja

Sieć switched fabric z natywnym RDMA, lossless link-level flow control (credit-based) i sub-mikrosekundowymi opóźnieniami – zaprojektowana od początku jako interconnect HPC/AI, nie nadbudowa nad istniejącym stosem.

Kategoria

Infrastruktura

Poziom abstrakcji

Pattern

Poziom operacji

TreningWdrożenieSystem

Zastosowania

Klastry treningowe LLM (NVIDIA SuperPOD, DGX, frontier compute)Superkomputery na liście TOP500Storage scale-out (Lustre, GPFS, NVMe-oF)Bazy danych Oracle ExadataSymulacje naukowe / CFD / klimat

Jak działa

Każdy host posiada Host Channel Adapter (HCA) – inteligentny NIC realizujący cały stos protokołu sprzętowo. Aplikacja przez verbs API (ibv_post_send) zleca operację typu RDMA WRITE/READ/SEND lub atomic; HCA bezpośrednio czyta/zapisuje pamięć zdalną z zerową kopią i bez udziału CPU drugiej strony. Switched fabric używa SubnetManagera do wyznaczania ścieżek (linear forwarding tables) i credit-based flow control, gdzie nadawca wysyła dopiero gdy odbiorca ma wolny bufor – to gwarantuje losslessness. Fizyczna warstwa: linki agregowane (1×/4×/8×/12×) z złączami QSFP (do HDR) i OSFP (NDR i nowsze), miedź do 10 m, światłowód do 10 km.

Rozwiązany problem

Tradycyjne sieci Ethernet oparte na TCP/IP wprowadzały zbyt wysokie opóźnienia, narzut CPU i były lossy, co dyskwalifikowało je jako interconnect HPC/AI. InfiniBand rozwiązuje to natywnym RDMA, lossless link-level flow control i topologią switched fabric od warstwy 1.

Komponenty

Host Channel Adapter (HCA)Hardware endpoint hosta

Karta sieciowa po stronie hosta, która implementuje stos transportowy IB w sprzęcie i obsługuje RDMA verbs (send, receive, write, read, atomic).

IB SwitchForwarding plane

Przełącznik fabric, który forwarduje pakiety IB między HCA na podstawie linear forwarding table konfigurowanej przez Subnet Manager.

Subnet Manager (SM)Control plane

Element control plane (zwykle uruchamiany na jednym z węzłów lub w switchu), który odkrywa topologię, przypisuje LID-y i programuje tabele routingu w switchach.

Oficjalna

Verbs APISoftware interface

Standaryzowany przez IBTA zestaw operacji programistycznych (ibv_post_send, ibv_open_device, ibv_reg_mr...) realizowany w bibliotece libibverbs (OFED).

Implementacja

Implementacje referencyjne

OpenFabrics Enterprise Distribution (OFED)

C · OpenFabrics Alliance

Oficjalna

NVIDIA MLNX_OFED

C · NVIDIA (Mellanox)

Oficjalna

libibverbs (rdma-core)

C · Linux RDMA community

Oficjalna

Pułapki implementacyjne

Vendor lock-in (NVIDIA/Mellanox)Wysoka

Po akwizycji Mellanox (2019) i wycofaniu się Intela (Omni-Path) NVIDIA jest praktycznie jedynym dostawcą sprzętu IB.

Rozwiązanie:Wybór RoCE / Ethernet jako alternatywy lub multi-vendor strategia z wykorzystaniem Ultra Ethernet.

Subnet Manager jako single point of failureŚrednia

Awaria głównego SM blokuje konfigurację nowych ścieżek; wymaga konfiguracji standby SM.

Rozwiązanie:Master/standby SM, monitoring, automatic failover.

Brak natywnego routingu IPŚrednia

IB jest siecią dedykowaną – wymaga IPoIB lub gateway, by współpracować z resztą infrastruktury IP.

Rozwiązanie:IPoIB, EoIB, gateway switches.

Koszt CapEx / OpExŚrednia

Sprzęt IB (HCA, switche, kable) jest zwykle droższy niż odpowiednik Ethernet o tej samej przepustowości.

Ewolucja

1999

Powstanie IBTA (z fuzji NGIO i Future I/O)

Połączenie inicjatyw NGIO (Intel) i Future I/O (Compaq, IBM, HP) tworzy InfiniBand Trade Association.

2000

Specyfikacja InfiniBand 1.0

Punkt przełomowy

Pierwsze wydanie specyfikacji architektury IB.

2001

Mellanox InfiniBridge — pierwszy produkt 10 Gbit/s

Mellanox dostarcza pierwsze komercyjne produkty InfiniBand na prędkościach 10 Gbit/s (SDR).

2005

Wsparcie InfiniBand w Linux Kernel 2.6.11

OpenIB Alliance (później OpenFabrics) integruje stack IB w mainline kernel.

2014

IB najpopularniejszym interconnectem TOP500

Punkt przełomowy

Po latach budowy ekosystemu HPC InfiniBand staje się dominującą technologią interconnect na liście TOP500.

2019

NVIDIA przejmuje Mellanox za 6.9 mld USD

Punkt przełomowy

Akwizycja czyni z IB strategiczny element platformy AI NVIDIA – linie Quantum (switche) i ConnectX (HCA).

2022

NDR — 400 Gbit/s

Wprowadzenie NDR (Quantum-2, ConnectX-7) – fabric scale-out frontier-class AI klastrów.

2024

XDR — 800 Gbit/s (Quantum-X800)

Punkt przełomowy

NVIDIA ogłasza Quantum-X800 i ConnectX-8 jako fabric następnej generacji dla GPU Blackwell.

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Data rate (SDR/DDR/QDR/FDR/EDR/HDR/NDR/XDR)Krytyczna

Generacja przepustowości pojedynczego linku – od 2.5 Gbit/s (SDR) do 200 Gbit/s (XDR) per lane.

EDR (100 Gbit/s 4×, 2014)

HDR (200 Gbit/s 4×, 2018)

NDR (400 Gbit/s 4×, 2022)

XDR (800 Gbit/s 4×, 2024)

Lane width (1×/4×/8×/12×)Wysoka

Liczba zagregowanych linii fizycznych w jednym porcie. 4× to standard, 12× używane w switch-to-switch.

Fabric topologyKrytyczna

Fat tree, dragonfly, torus – wpływa na bisekcję, koszt i diameter sieci.

MTUŚrednia

Rozmiar pakietu IB – zwykle 256 B do 4 KB (max).

Równoległość

Poziom równoległości

fully_parallel

Switched fabric z multi-rail HCA i adaptive routing umożliwia równoległą komunikację między tysiącami GPU bez bottlenecka pojedynczego linku.

Zakres

traininginferenceacross_devices

Wymagania sprzętowe

Podstawowe

IB jest podstawowym scale-out fabric platform NVIDIA DGX/SuperPOD dla klastrów GPU H100/H200/B200.

Źródła

InfiniBand — Wikipedia

article

Wikipedia

InfiniBand Trade Association (IBTA)

official_website

InfiniBand Trade Association

InfiniBand Roadmap

Dokumentacja

InfiniBand Trade Association

NVIDIA Announces New Switches Optimized for Trillion-Parameter GPU Computing

official_website

NVIDIA

Dissecting a Small InfiniBand Application Using the Verbs API

Paper

arXiv