IB
Jak działa
Każdy host posiada Host Channel Adapter (HCA) – inteligentny NIC realizujący cały stos protokołu sprzętowo. Aplikacja przez verbs API (ibv_post_send) zleca operację typu RDMA WRITE/READ/SEND lub atomic; HCA bezpośrednio czyta/zapisuje pamięć zdalną z zerową kopią i bez udziału CPU drugiej strony. Switched fabric używa SubnetManagera do wyznaczania ścieżek (linear forwarding tables) i credit-based flow control, gdzie nadawca wysyła dopiero gdy odbiorca ma wolny bufor – to gwarantuje losslessness. Fizyczna warstwa: linki agregowane (1×/4×/8×/12×) z złączami QSFP (do HDR) i OSFP (NDR i nowsze), miedź do 10 m, światłowód do 10 km.
Rozwiązany problem
Tradycyjne sieci Ethernet oparte na TCP/IP wprowadzały zbyt wysokie opóźnienia, narzut CPU i były lossy, co dyskwalifikowało je jako interconnect HPC/AI. InfiniBand rozwiązuje to natywnym RDMA, lossless link-level flow control i topologią switched fabric od warstwy 1.
Komponenty
Karta sieciowa po stronie hosta, która implementuje stos transportowy IB w sprzęcie i obsługuje RDMA verbs (send, receive, write, read, atomic).
Przełącznik fabric, który forwarduje pakiety IB między HCA na podstawie linear forwarding table konfigurowanej przez Subnet Manager.
Element control plane (zwykle uruchamiany na jednym z węzłów lub w switchu), który odkrywa topologię, przypisuje LID-y i programuje tabele routingu w switchach.
Oficjalna
Standaryzowany przez IBTA zestaw operacji programistycznych (ibv_post_send, ibv_open_device, ibv_reg_mr...) realizowany w bibliotece libibverbs (OFED).
Implementacja
Po akwizycji Mellanox (2019) i wycofaniu się Intela (Omni-Path) NVIDIA jest praktycznie jedynym dostawcą sprzętu IB.
Awaria głównego SM blokuje konfigurację nowych ścieżek; wymaga konfiguracji standby SM.
IB jest siecią dedykowaną – wymaga IPoIB lub gateway, by współpracować z resztą infrastruktury IP.
Sprzęt IB (HCA, switche, kable) jest zwykle droższy niż odpowiednik Ethernet o tej samej przepustowości.
Ewolucja
Połączenie inicjatyw NGIO (Intel) i Future I/O (Compaq, IBM, HP) tworzy InfiniBand Trade Association.
Pierwsze wydanie specyfikacji architektury IB.
Mellanox dostarcza pierwsze komercyjne produkty InfiniBand na prędkościach 10 Gbit/s (SDR).
OpenIB Alliance (później OpenFabrics) integruje stack IB w mainline kernel.
Po latach budowy ekosystemu HPC InfiniBand staje się dominującą technologią interconnect na liście TOP500.
Akwizycja czyni z IB strategiczny element platformy AI NVIDIA – linie Quantum (switche) i ConnectX (HCA).
Wprowadzenie NDR (Quantum-2, ConnectX-7) – fabric scale-out frontier-class AI klastrów.
NVIDIA ogłasza Quantum-X800 i ConnectX-8 jako fabric następnej generacji dla GPU Blackwell.
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Generacja przepustowości pojedynczego linku – od 2.5 Gbit/s (SDR) do 200 Gbit/s (XDR) per lane.
Liczba zagregowanych linii fizycznych w jednym porcie. 4× to standard, 12× używane w switch-to-switch.
Fat tree, dragonfly, torus – wpływa na bisekcję, koszt i diameter sieci.
Rozmiar pakietu IB – zwykle 256 B do 4 KB (max).
Równoległość
Switched fabric z multi-rail HCA i adaptive routing umożliwia równoległą komunikację między tysiącami GPU bez bottlenecka pojedynczego linku.
Wymagania sprzętowe
IB jest podstawowym scale-out fabric platform NVIDIA DGX/SuperPOD dla klastrów GPU H100/H200/B200.