OpenAI MRC — otwarty protokół dla sieci superkomputerów AI

OpenAI opublikowało 5 maja 2026 roku specyfikację MRC (Multipath Reliable Connection) — nowego protokołu sieciowego dla klastrów GPU, opracowanego wspólnie z AMD, Broadcom, Intel, Microsoft i NVIDIA. Protokół, wdrożony już na superkomputerze Stargate w Teksasie, trafił do domeny publicznej za pośrednictwem Open Compute Project i ma umożliwić całemu sektorowi budowę bardziej niezawodnych sieci do trenowania modeli granicznych.

Najważniejsze w skrócie

MRC opracowano przez 2 lata we współpracy z AMD, Broadcom, Intel, Microsoft i NVIDIA
Protokół działa już na superkomputerach NVIDIA GB200 OpenAI — w tym Stargate (Abilene, TX, Oracle/OCI) i Microsoft Fairwater
Sieci wielopłaszczyznowe (multi-plane) pozwalają podłączyć ponad 100 000 GPU przy tylko 2 warstwach przełączników zamiast dotychczasowych 3–4
Packet spraying rozkłada jeden transfer na setki ścieżek jednocześnie — eliminując wąskie gardła w sieci rdzeniowej
Specyfikacja MRC 1.0 dostępna bezpłatnie przez Open Compute Project (OCP)

Sieć jako wąskie gardło trenowania AI

Trening dużych modeli językowych to w istocie problem koordynacji. Tysiące GPU muszą wymieniać dane w ściśle zsynchronizowanym rytmie — jeden spóźniony transfer może wstrzymać całą operację. Wraz ze wzrostem klastrów do setek tysięcy procesorów graficznych, sieć przestaje być tłem infrastruktury, a staje się czynnikiem krytycznym.

OpenAI przez kilka lat budowało własne superkomputery kolejnych generacji. Doświadczenia z trzech generacji klastrów, zdobyte przed uruchomieniem Stargate, doprowadziły zespół do jednego wniosku: dotychczasowe protokoły sieciowe nie skalują się dostatecznie. Przy milionach transferów na jeden krok trenowania, nawet krótkotrwałe awarie linków czy przeciążenia sieci oznaczały restarty zadań lub wielosekundowe przestoje.

Trzy filary MRC

MRC (Multipath Reliable Connection) to odpowiedź na trzy konkretne słabości klasycznych sieci obliczeniowych.

Sieci wielopłaszczyznowe

Zamiast traktować każdy interfejs sieciowy jako jedno łącze 800 Gb/s, MRC dzieli go na osiem łączy 100 Gb/s podłączonych do ośmiu różnych przełączników. Powstaje osiem równoległych płaszczyzn sieciowych. Kluczowa korzyść: przełącznik obsługujący 64 porty po 800 Gb/s może w tym modelu obsłużyć 512 portów po 100 Gb/s. Pozwala to połączyć ponad 131 000 GPU przy zaledwie dwóch warstwach przełączników — podczas gdy klasyczna sieć 800 Gb/s wymagałaby trzech lub czterech.

Packet spraying

Tradycyjne protokoły kierują każdy transfer jedną ścieżką, co powoduje kolizje i przeciążenia. MRC rozdziela pakiety z jednego transferu na setki ścieżek przez wszystkie płaszczyzny naraz. Pakiety mogą docierać w innej kolejności — każdy zawiera docelowy adres pamięci, więc odbiorca może je zapisać od razu po dotarciu. Jeśli jedna ścieżka zaczyna się przeciążać, MRC dynamicznie przełącza pakiety na alternatywne. Jeśli pakiet zaginie — protokół zakłada awarię i natychmiast przestaje używać tej ścieżki, zamiast czekać na reakcję dynamicznego routingu.

Source routing z SRv6

Zamiast klasycznego dynamicznego routingu (BGP), MRC korzysta z IPv6 Segment Routing (SRv6): nadawca koduje pełną ścieżkę dla każdego pakietu bezpośrednio w adresie docelowym. Przełączniki nie przeliczają tras — stosują statyczne tabele skonfigurowane raz przy uruchomieniu. Eliminuje to całą klasę błędów związanych z dynamicznym routingiem, który w praktyce bywał źródłem trudnych do zdiagnozowania awarii.

Stargate: protokół w warunkach produkcyjnych

MRC nie jest propozycją badawczą — jest wdrożony produkcyjnie. Działa na wszystkich największych klastrach NVIDIA GB200 OpenAI: na superkomputerze Stargate w Abilene w Teksasie (zarządzanym przez Oracle Cloud Infrastructure) i na superkomputerach Fairwater Microsoftu. Protokołu użyto do trenowania wielu modeli granicznych OpenAI, w tym tych stojących za ChatGPT i Codex.

Dane produkcyjne potwierdzają odporność systemu. Podczas jednego z przebiegów treningowych inżynierowie musieli zrebootować cztery przełączniki T1. Przed MRC wymagałoby to ścisłej koordynacji z zespołami prowadzącymi trening, by uniknąć przerwania zadania. Z MRC — reboot przeszedł niezauważony przez klaster. Podobnie, wielokrotne „link flap" (chwilowe zaniki łączy) między przełącznikami T0 i T1 nie miały mierzalnego wpływu na synchroniczne zadania pretrainingu.

Kiedy jeden port 8-portowego interfejsu GPU uległ awarii, MRC wykrył stratę, przeliczył ścieżki z pominięciem uszkodzonej płaszczyzny i poinformował peery, by nie kierowały ruchu przez tę płaszczyznę. Spowolnienie treningu było zauważalnie mniejsze niż proporcjonalna strata pojemności (1/8 przepustowości).

Otwarcie standardu

Specyfikacja MRC 1.0 została udostępniona bezpłatnie przez Open Compute Project — inicjatywę założoną przez Facebooka w 2011 roku, która od lat jest główną platformą wymiany otwartych standardów infrastruktury data center. Dołączony whitepaper techniczny, „Resilient AI Supercomputer Networking using MRC and SRv6", opisuje szczegóły implementacyjne.

MRC rozszerza istniejący standard RoCE (RDMA over Converged Ethernet), opracowany przez InfiniBand Trade Association (IBTA), i czerpie z technik wypracowanych przez Ultra Ethernet Consortium (UEC). Jego publikacja wpisuje się w szerszą strategię OpenAI: standaryzacja kluczowych warstw infrastruktury obliczeniowej ma ułatwić skalowanie AI poza zasoby jednej firmy.

Konkretnie: AMD opublikowało własny komentarz techniczny dotyczący MRC, Broadcom opisał jego implementację w swoich układach sieciowych, a NVIDIA i Intel potwierdziły wdrożenia w swoich infrastrukturach.

Dlaczego to ważne?

Przez wiele lat granica trenowania modeli AI wyznaczana była przez moc obliczeniową: więcej GPU, szybszy model. Coraz wyraźniej widać, że kolejnym wąskim gardłem jest sieć. Przy 900 milionach użytkowników ChatGPT tygodniowo, OpenAI stoi przed presją, której nie da się zaspokoić samym dokładaniem chipów.

MRC pokazuje, że firma traktuje infrastrukturę sieciową jako rdzeń swojej przewagi, a nie commodity do kupienia od zewnętrznego dostawcy. Otwarcie specyfikacji to zarazem move strategiczny: jeśli AMD, Broadcom, NVIDIA i Microsoft budują pod MRC, OpenAI staje się de facto definiującym głosem w projektowaniu sieci dla AI następnej generacji.

Dla reszty sektora — od hyperscalerów po startupy budujące klastry — MRC wyznacza nowy punkt odniesienia. Sieci dwupoziomowe zdolne łączyć 130 000 GPU były do tej pory poza zasięgiem standardowych rozwiązań. Opublikowanie otwartego standardu otwiera tę możliwość szerzej — choć kluczowe jest, że MRC wymaga najnowszych interfejsów sieciowych 800 Gb/s, co oznacza, że starsze klastry nie skorzystają z pełnych możliwości protokołu.

Co dalej?

Specyfikacja MRC 1.0 jest już dostępna przez OCP — partnerzy branżowi mogą implementować protokół we własnych produktach i klastrach; pierwsze komercyjne wdrożenia poza ekosystemem OpenAI/Microsoft/Oracle mogą pojawić się w ciągu 12–18 miesięcy
AMD, Broadcom i NVIDIA zapowiedziały wsparcie dla MRC w swoich kolejnych generacjach sprzętu sieciowego — szczegóły ogłaszane są na bieżąco przez blogi techniczne tych firm
Klastry Stargate mają docelowo przekroczyć 1 milion GPU zgodnie z ogłoszonym przez OpenAI planem rozbudowy infrastruktury — MRC będzie protokołem sieciowym tej infrastruktury

Źródła

OpenAI — Supercomputer networking to accelerate large scale AI training
OpenAI / OCP — MRC 1.0 Specification
OpenAI — Resilient AI Supercomputer Networking using MRC and SRv6 (whitepaper)
AMD — AMD Advances AI Networking at Scale with MRC
NVIDIA — Spectrum-X Ethernet MRC

OpenAI otwiera protokół MRC dla sieci superkomputerów AI