Robocikowo>ROBOCIKOWO
26 maja 2026 · 6 min lekturyCerebras SystemsKimi K2.6Moonshot AI

Cerebras uruchamia model bilionowy 7x szybciej niż GPU chmury

Cerebras uruchamia model bilionowy 7x szybciej niż GPU chmury

Cerebras Systems ogłosiło 20 maja 2026 roku, że uruchamia Kimi K2.6 — model bilionowy stworzony przez chińskie Moonshot AI — dla klientów enterprise z prędkością 981 tokenów na sekundę. Wynik niezależnie zweryfikowany przez firmę Artificial Analysis plasuje Cerebras 6,7 razy szybciej od kolejnego dostawcy opartego na GPU i 23 razy szybciej od mediany rynkowej. Ogłoszenie przyszło niecały tydzień po tym, jak Cerebras zaliczyło największe IPO w branży technologicznej 2026 roku.

Najważniejsze w skrócie

  • 981 tokenów/s dla modelu Kimi K2.6 — 6,7x szybciej niż kolejny dostawca GPU
  • Odpowiedź na 500 tokenów w 5,6 sekundy wobec 163,7 sekundy na oficjalnym endpoincie Kimi
  • Kimi K2.6: model MoE z 1 bln parametrów, 32 mld aktywowanych na token, okno kontekstu 256 tys. tokenów
  • Cerebras ma wycenę 95 mld USD po IPO i 5,55 mld USD ze sprzedaży akcji
  • OpenAI podpisało z Cerebras kontrakt na infrastrukturę o wartości ponad 20 mld USD

Kimi K2.6 — dlaczego model z Pekinu

Wybór Kimi K2.6 to zarówno kamień milowy techniczny, jak i decyzja handlowa. Model wypuściło 20 kwietnia 2026 roku Moonshot AI — firma z Pekinu założona w 2023 roku przez absolwentów Tsinghua University. K2.6 to architektura Mixture of Experts (MoE) z łączną liczbą 1 biliona parametrów, z których na każdy token aktywowane jest 32 miliardy (8 ekspertów + 1 współdzielony z puli 384). Okno kontekstu wynosi 256 tysięcy tokenów.

Na benchmarku SWE-Bench Pro model uzyskał 58,6 punktu, bijąc Claude Opus 4.6 i osiągając poziom GPT-5.4. Wyróżnia się też na benchmarkach agentycznych — Humanity's Last Exam oraz DeepSearchQA. Wersja K2.6 rozszerza możliwości poprzedniej iteracji z front-endu na pełen stack: autentykacja, operacje na bazach danych, długoterminowe zadania agentowe.

James Wang, dyrektor ds. marketingu produktowego w Cerebras, wyjaśnił, co przyciąga klientów enterprise. Według niego firmy szukają przede wszystkim alternatywy dla Anthropic — modeli wysokiej jakości, ale kosztownych i regularnie niedostępnych z powodu braku wolnych mocy. Jako przykład podał aplikację, która „padła" w weekend właśnie z powodu wyczerpania limitów API Anthropic.

Jak wafer-scale pokonuje klastry GPU

Prędkość Cerebras wynika z fundamentalnie innej architektury sprzętowej. Standardowy cluster GPU to zwykle 72 układy — jak w konfiguracji NVL72 od NVIDIA — połączone siecią o wysokiej przepustowości. Model musi być rozproszony między wiele chipów, a dane stale przesyłane po łączach, które stają się wąskim gardłem przy modelach bilionowych.

Cerebras Wafer-Scale Engine 3 (WSE-3) to pojedynczy chip wielkości całego wafla krzemowego — z 44 GB pamięci SRAM bezpośrednio na matrycy procesora. SRAM (zamiast HBM stosowanej w GPU) oznacza dramatycznie niższe opóźnienia i wyższą przepustowość. Dla Kimi K2.6: wagi przechowywane w precyzji 4-bitowej, obliczenia w 16-bit, rozmieszczone na klastrze ok. 20 systemów CS-3. Kluczowy szczegół: wszystkie eksperci dla danej warstwy MoE siedzą na tym samym waferze, więc komunikacja all-to-all przy routingu ekspertów zachodzi z prędkością SRAM. Wewnętrzna sieć wafera dostarcza ponad 200-krotnie wyższą przepustowość niż NVLink w NVL72.

Wang opisał to analogią: każda warstwa transformera obsługuje innego użytkownika jednocześnie — jak kolejka. Ponieważ dane przepływają przez hardware tak szybko, indywidualny użytkownik doświadcza pełnej prędkości modelu. W połączeniu z własnymi kernelami i speculative decoding wynik to blisko 1000 tokenów/s.

Enterprise najpierw, reszta później

Cerebras nie otwiera Kimi K2.6 dla ogółu. Dostęp mają firmy z listy Fortune 500 w sektorach software, usług finansowych i opieki zdrowotnej. Wang potwierdził, że chodzi o „loga, które każdy zna", nie podając nazw z powodu umów NDA.

Podejście enterprise-first jest celowe. Przy ograniczonej pojemności sprzętowej Cerebras woli obsługiwać dużych klientów z przewidywalnym ruchem niż API konsumenckie, gdzie pojedynczy użytkownik może zająć cały klaster. Serwowanie modelu bilionowego wyklucza też możliwość jednoczesnego uruchamiania innych dużych modeli: „Nie możemy mieć równocześnie sześciu innych modeli", przyznał Wang.

Cennik nie jest publiczny, ale Wang zaznaczył, że jest „porównywalny z GPU — może w górnym środku przedziału". Firma nie celuje w najtańszy segment: „Jesteśmy producentem samochodów na rynku pickupów. Nie robimy tamtego rynku". Wartość jest dla workloadów wymagających szybkości — szczególnie kodowania agentowego, gdzie deweloper czeka w czasie rzeczywistym.

Groq za 20 mld USD i wyścig o inference

Ogłoszenie Cerebras wpisuje się w moment, gdy rynek inference zaczyna przerastać training jako najważniejszy komercyjnie segment AI. Największym sygnałem była akwizycja Groq przez NVIDIA za 20 mld USD — transakcja, która dała liderowi GPU bezpośredni dostęp do specjalizowanej technologii Language Processing Units. Wang skomentował wprost: „Nvidia teraz zdaje sobie sprawę, że szybkie inference to niezwykle ważny rynek. Dlatego są gotowi wydać 20 mld na przejęcie".

Osobna nitka to relacja z OpenAI. Na początku 2026 roku obie firmy podpisały kontrakt na moc obliczeniową wart ponad 20 mld USD. Cerebras ma uruchamiać „wewnętrzne modele kodowania" OpenAI — szczegółów technicznych żadna ze stron nie ujawniła.

Dlaczego to ważne?

Cerebras przez lata zmagało się z przekonaniem rynku, że wafer-scale chips świetnie nadają się do małych i średnich modeli, ale nie do prawdziwych frontierów. Kimi K2.6 — pierwszy model bilionowy obsługiwany w środowisku produkcyjnym — jest bezpośrednią odpowiedzią na ten zarzut.

Bardziej fundamentalnie: wynik 981 tokenów/s przy bilionowym modelu MoE zmienia rachunek ekonomiczny agentycznych workloadów. Dla kodowania agentycznego, gdzie deweloper dosłownie czeka na każdy token, 29-krotna różnica w czasie odpowiedzi (5,6 vs 163,7 sekundy na 500-tokenowy request) przekłada się bezpośrednio na produktywność. Jeśli kluczowe zastosowania AI to agenci działający w czasie rzeczywistym — w kodowaniu, analizie finansowej, diagnostyce medycznej — to dostawca, który potrafi obsłużyć model bilionowy w sekundach zamiast minut, ma argument trudny do zbicia.

Niepewność pozostaje po stronie geopolitycznej: Kimi K2.6 to model z Pekinu obsługiwany przez amerykańskiego dostawcę dla amerykańskich klientów enterprise. Dla firm z sektora finansowego, ochrony zdrowia czy obrony to dodatkowa warstwa compliance, którą każdy kupujący będzie musiał ocenić samodzielnie.

Co dalej?

  • Cerebras zapowiada własne nowe ogłoszenie sprzętowe — „usłyszycie od nas wiadomości wkrótce" według słów Wanga — prawdopodobnie nowa generacja WSE lub zwiększone klastry CS
  • Firma deklaruje, że w ciągu 2026 roku zacznie obsługiwać „prawdziwe frontier modele" — w domyśle zamknięte modele Anthropic lub OpenAI na tych samych prędkościach
  • Rynek będzie uważnie śledzić, jak NVIDIA zintegruje Groq do swojego portfolio inference i czy wyeliminuje przepaść prędkości, która dziś daje Cerebras przewagę

Źródła

Udostępnij ten artykuł