Sakana Fugu: orkiestracja wielu modeli AI z wydajnością klasy frontier

22 czerwca 2026 roku Sakana AI uruchomiło Fugu — system orkiestracji wieloagentowej dostępny przez jeden, kompatybilny z OpenAI API endpoint. Zamiast polegać na jednym modelu bazowym, Fugu deleguje zadania do wymiennej puli wyspecjalizowanych agentów i syntetyzuje wyniki. Na benchmarku LiveCodeBench system Fugu Ultra uzyskał 93,2 punktu, pokonując niedostępnego już Claude Fable 5 (89,8).

Najważniejsze w skrócie

Fugu Ultra na LiveCodeBench uzyskał 93,2 punktu — więcej niż Claude Fable 5 (89,8) i Claude Mythos Preview (94,6 na GPQA-D, które Fugu Ultra przewyższył wynikiem 95,5).
System działa przez jeden, kompatybilny z OpenAI API endpoint, ukrywając całą złożoność orkiestracji przed deweloperem.
Fugu Ultra: $5 za milion tokenów wejściowych, $30 za wyjściowe — cenowo na poziomie GPT-5.5, ale $25 taniej niż Claude Fable 5 ($60 łącznie).
Produkt jest niedostępny w Unii Europejskiej i Europejskim Obszarze Gospodarczym do czasu uregulowania zgodności z RODO.
Sakana AI zostało założone w 2023 roku przez Llion Jonesa (współautora "Attention Is All You Need") i Davida Ha, byłego szefa badań w Stability AI.

Czym jest Fugu i jak działa

Fugu to nie router modeli — to orkiestrator. Standardowe systemy routingu (Not Diamond, Martian, RouteLLM) analizują zapytanie i wysyłają je do jednego, najlepiej dopasowanego modelu. Fugu rozbija zadanie na podzadania, deleguje je równolegle lub sekwencyjnie do wielu modeli z zarządzanej puli, weryfikuje wyniki i syntetyzuje końcowy output.

Technologiczna podstawa to dwa opublikowane wcześniej prace Sakany: TRINITY i Conductor. System jest sam w sobie modelem językowym, który może rekurencyjnie wywoływać siebie i inne modele z puli. Konkretne modele w puli i reguły ich doboru to chronione informacje handlowe — Sakana nie ujawnia składu puli ani mechanizmu routingu.

Sakana oferuje dwa warianty systemu.

Fugu — wersja szybka, niskie opóźnienie, przeznaczona do codziennych zadań interaktywnych.

Fugu Ultra — wersja flagowa do złożonych zadań: analizy bezpieczeństwa, długich badań, wieloetapowych dochodzeń patentowych. Na SWE-Bench Pro Fugu Ultra uzyskał 73,7, pokonując Claude Opus 4.8 (69,2) i GPT-5.5 (58,6). Pozostaje jednak poniżej Claude Fable 5 (80,0) — modelu wycofanego 12 czerwca 2026 roku.

Cennik Fugu Ultra: $5/M tokenów wejściowych, $30/M wyjściowych (dla okna kontekstowego do 272K tokenów). Powyżej 272K: $10/$45. Claude Opus 4.8 kosztuje $5/$25, Claude Fable 5 kosztowało $10/$50 łącznie.

Benchmark: mocne strony i ograniczenia

Fugu wyprzedza konkurencję tam, gdzie liczy się koordynacja i weryfikacja między krokami. Na LiveCodeBench Fugu Ultra osiągnął 93,2, Fugu 92,9 — oba wyżej niż Fable 5 (89,8). Na GPQA-Diamond Fugu Ultra i Fugu osiągają 95,5, nieznacznie ponad Mythos Preview (94,6).

Jednak Fugu nie wygrywa bezwarunkowo. Na SWE-Bench Pro Claude Fable 5 (80,0) prowadzi nad Fugu Ultra (73,7). Na długim kontekście (MRCRv2) GPT-5.5 bierze 94,8 vs 93,6 Fugu Ultra. Na benchmarku cyberbezpieczeństwa CTI-REALM Claude Opus 4.8 uzyskuje 69,6 vs 69,4 Fugu Ultra. W tych domenach pojedynczy, wysoce wyspecjalizowany model nadal ma przewagę.

Geopolityczna motywacja

Sakana CEO David Ha wprost wskazał zagrożenie regulacyjne jako główny argument za Fugu. 12 czerwca 2026 roku Anthropic wyłączyło publicznie Claude Fable 5 i Mythos 5 w odpowiedzi na nakaz kontroli eksportu wydany przez administrację Trumpa. Firmy, które zbudowały pipeline na tych modelach, straciły dostęp z dnia na dzień.

Fugu obiecuje, że jeśli jeden model z puli staje się niedostępny — system go po prostu zastępuje innym. Architektura suwerenności obliczeniowej w praktyce: żaden dostawca nie jest warunkiem koniecznym dla działania systemu.

Krytyczny głos w dyskusji branżowej: Elie Bakouch z Prime Intellect zwrócił uwagę, że Fugu jest zamkniętym orkiestratorem na zamkniętych modelach. Użytkownik nie kontroluje ani tego, jakie modele działają, ani w jaki sposób — "suwerenność AI" to więc bardziej termin marketingowy niż techniczny fakt.

Dlaczego to ważne?

Fugu trafia w realny problem korporacyjny. Zależność od jednego dostawcy modeli frontierowych jest ryzykiem operacyjnym, które ujawniło się dramatycznie po blokadzie Fable i Mythos — największej jednorazowej niedostępności modeli w historii komercyjnego AI.

Orkiestracja wielu modeli przez jeden API to wzorzec znany od dawna (LangGraph, AutoGen, CrewAI), ale Fugu jest pierwszym produktem, który pakuje tę złożoność w czarną skrzynkę o cenie i wydajności konkurencyjnej wobec modeli monolitycznych. Dla dużych firm z rygorystycznymi wymaganiami compliance (opt-out z danych treningowych, opt-out konkretnych dostawców) taka oferta ma realną wartość.

Pytanie otwarte: kiedy Fugu pojawi się na rynku europejskim. Zgodność z RODO w kontekście architektury routingu, gdzie użytkownik nie wie dokładnie, który model przetwarza jego dane, jest technicznie skomplikowana. Do czasu rozwiązania tego problemu rynek UE pozostaje niedostępny.

Co dalej?

Fugu dostępne od 22 czerwca 2026 roku w większości regionów — z wyłączeniem UE/EOG — w modelu subskrypcji (od $20/mies.) i pay-as-you-go. Subskrybenci do 31 lipca 2026 roku otrzymują drugi miesiąc gratis.

Sakana pracuje nad zgodnością z RODO, niezbędną do uruchomienia Fugu w Unii Europejskiej.

Wyniki sześciomiesięczne w benchmarkach dynamicznych (LiveCodeBench, SWE-Bench Pro) będą kluczowym testem — czy orkiestracja puli utrzyma przewagę w miarę wydawania coraz mocniejszych modeli monolitycznych.