Akcelerator AI · pełni rolę: Akceleracja AI, Wnioskowanie AI, Obliczenia, Obliczenia wysokiego poziomu.
Do jakiej grupy należy NVIDIA H100 i jak jest skonstruowany
Compute Modules to podkategoria komponentów sprzętowych dostarczających moc obliczeniową dla systemów robotycznych. Obejmuje komputery pokładowe, SBC, akceleratory AI, procesory embedded, moduły obliczeniowe GPU/NPU oraz inne jednostki przetwarzające dane z sensorów i wykonujące logikę sterowania. Moduły te są podstawą współczesnych robotów autonomicznych, humanoidalnych i percepcyjnych.
AI Accelerator to wyspecjalizowany komponent sprzętowy zaprojektowany do wydajnego wykonywania obliczeń związanych ze sztuczną inteligencją, w szczególności inferencji sieci neuronowych, przetwarzania wizji komputerowej i analizy danych sensorycznych. W robotyce akceleratory AI są używane do uruchamiania modeli percepcji, rozpoznawania obiektów, segmentacji obrazu, planowania i innych zadań wymagających wysokiej mocy obliczeniowej przy ograniczonych zasobach energetycznych. Mogą występować jako dedykowane układy NPU, TPU, VPU, GPU lub specjalizowane moduły embedded.
Karta akceleratora AI data-center to klasa konstrukcyjna opisująca budowę wysokowydajnych procesorów obliczeniowych (GPU/akceleratorów) przeznaczonych do montażu w serwerach centrów danych. Charakteryzuje się: form factorem SXM (moduł lutowany do płyty bazowej HGX/DGX) lub dwuslotową kartą PCIe; pamięcią o wysokiej przepustowości (HBM2e/HBM3/HBM3e) zintegrowaną na pakiecie; dedykowanymi łączami GPU-GPU (NVLink, Infinity Fabric) o przepustowości setek GB/s; wysokim TDP (350–1000 W) wymagającym chłodzenia powietrznego lub cieczowego; obsługą wirtualizacji/partycjonowania (MIG) oraz formatów obliczeniowych niskiej precyzji (FP8/FP16/BF16/INT8). Klasa obejmuje konstrukcje takie jak NVIDIA H100/H200/A100, AMD Instinct MI300, Google TPU, Intel Gaudi. Opisuje budowę i konfigurację fizyczną, nie rolę funkcjonalną (tą określa typ komponentu „Akcelerator AI").
NVIDIA H100 to flagowy akcelerator data-center AI generacji Hopper, zaprezentowany w marcu 2022 i dostępny komercyjnie od trzeciego kwartału 2022. Bazuje na chipie GH100 wytwarzanym w procesie TSMC 4N i zawiera ~80 mld tranzystorów na powierzchni 814 mm². W wariancie SXM5 osiąga TDP 700 W, w PCIe Gen5 — 350 W. Pojedynczy układ oferuje do 1 979 TFLOPS w FP16/BF16 i 3 958 TFLOPS w FP8 (z wykorzystaniem rzadkości), a w trybie HPC: 67 TFLOPS w FP32 i 34 TFLOPS w FP64.
Kluczowe innowacje H100 to 4. generacja Tensor Cores z formatem FP8 (E4M3/E5M2), dedykowany Transformer Engine adaptacyjnie skalujący FP8/FP16 dla warstw uwagi, NVLink 4 o przepustowości 900 GB/s do łączenia wielu GPU oraz NVSwitch zapewniający topologię all-to-all w klastrze 8×H100. Pamięć HBM3 80 GB oferuje 3,35 TB/s przepustowości — 1,5× więcej niż A100. Wariant H100 NVL łączy dwa układy w jeden moduł (188 GB pamięci, 7,8 TB/s), zoptymalizowany pod inferencję LLM rozmiaru 70B+.
H100 jest standardową jednostką w centrach treningowych modeli generatywnych — używany m.in. przez OpenAI, Anthropic, Meta, Microsoft Azure, AWS, Google Cloud (jako GPU partner) i CoreWeave. Większość dużych LLM 2023–2024 (GPT-4, Claude 3, Llama 3, Mixtral, DeepSeek-V3) była trenowana na klastrach 1 000–25 000 H100. Następcą w architekturze jest H200 (141 GB HBM3e), a generacją następną — Blackwell (B100/B200/GB200) z 2024 roku.