Cerebras: 981 tokenów/s dla modelu bilionowego Kimi K2.6

Cerebras Systems ogłosiło 20 maja 2026 roku, że uruchamia Kimi K2.6 — model bilionowy stworzony przez chińskie Moonshot AI — dla klientów enterprise z prędkością 981 tokenów na sekundę. Wynik niezależnie zweryfikowany przez firmę Artificial Analysis plasuje Cerebras 6,7 razy szybciej od kolejnego dostawcy opartego na GPU i 23 razy szybciej od mediany rynkowej. Ogłoszenie przyszło niecały tydzień po tym, jak Cerebras zaliczyło największe IPO w branży technologicznej 2026 roku.

Najważniejsze w skrócie

981 tokenów/s dla modelu Kimi K2.6 — 6,7x szybciej niż kolejny dostawca GPU
Odpowiedź na 500 tokenów w 5,6 sekundy wobec 163,7 sekundy na oficjalnym endpoincie Kimi
Kimi K2.6: model MoE z 1 bln parametrów, 32 mld aktywowanych na token, okno kontekstu 256 tys. tokenów
Cerebras ma wycenę 95 mld USD po IPO i 5,55 mld USD ze sprzedaży akcji
OpenAI podpisało z Cerebras kontrakt na infrastrukturę o wartości ponad 20 mld USD

Kimi K2.6 — dlaczego model z Pekinu

Wybór Kimi K2.6 to zarówno kamień milowy techniczny, jak i decyzja handlowa. Model wypuściło 20 kwietnia 2026 roku Moonshot AI — firma z Pekinu założona w 2023 roku przez absolwentów Tsinghua University. K2.6 to architektura Mixture of Experts (MoE) z łączną liczbą 1 biliona parametrów, z których na każdy token aktywowane jest 32 miliardy (8 ekspertów + 1 współdzielony z puli 384). Okno kontekstu wynosi 256 tysięcy tokenów.

Na benchmarku SWE-Bench Pro model uzyskał 58,6 punktu, bijąc Claude Opus 4.6 i osiągając poziom GPT-5.4. Wyróżnia się też na benchmarkach agentycznych — Humanity's Last Exam oraz DeepSearchQA. Wersja K2.6 rozszerza możliwości poprzedniej iteracji z front-endu na pełen stack: autentykacja, operacje na bazach danych, długoterminowe zadania agentowe.

James Wang, dyrektor ds. marketingu produktowego w Cerebras, wyjaśnił, co przyciąga klientów enterprise. Według niego firmy szukają przede wszystkim alternatywy dla Anthropic — modeli wysokiej jakości, ale kosztownych i regularnie niedostępnych z powodu braku wolnych mocy. Jako przykład podał aplikację, która „padła" w weekend właśnie z powodu wyczerpania limitów API Anthropic.

Jak wafer-scale pokonuje klastry GPU

Prędkość Cerebras wynika z fundamentalnie innej architektury sprzętowej. Standardowy cluster GPU to zwykle 72 układy — jak w konfiguracji NVL72 od NVIDIA — połączone siecią o wysokiej przepustowości. Model musi być rozproszony między wiele chipów, a dane stale przesyłane po łączach, które stają się wąskim gardłem przy modelach bilionowych.

Cerebras Wafer-Scale Engine 3 (WSE-3) to pojedynczy chip wielkości całego wafla krzemowego — z 44 GB pamięci SRAM bezpośrednio na matrycy procesora. SRAM (zamiast HBM stosowanej w GPU) oznacza dramatycznie niższe opóźnienia i wyższą przepustowość. Dla Kimi K2.6: wagi przechowywane w precyzji 4-bitowej, obliczenia w 16-bit, rozmieszczone na klastrze ok. 20 systemów CS-3. Kluczowy szczegół: wszystkie eksperci dla danej warstwy MoE siedzą na tym samym waferze, więc komunikacja all-to-all przy routingu ekspertów zachodzi z prędkością SRAM. Wewnętrzna sieć wafera dostarcza ponad 200-krotnie wyższą przepustowość niż NVLink w NVL72.

Wang opisał to analogią: każda warstwa transformera obsługuje innego użytkownika jednocześnie — jak kolejka. Ponieważ dane przepływają przez hardware tak szybko, indywidualny użytkownik doświadcza pełnej prędkości modelu. W połączeniu z własnymi kernelami i speculative decoding wynik to blisko 1000 tokenów/s.

Enterprise najpierw, reszta później

Cerebras nie otwiera Kimi K2.6 dla ogółu. Dostęp mają firmy z listy Fortune 500 w sektorach software, usług finansowych i opieki zdrowotnej. Wang potwierdził, że chodzi o „loga, które każdy zna", nie podając nazw z powodu umów NDA.

Podejście enterprise-first jest celowe. Przy ograniczonej pojemności sprzętowej Cerebras woli obsługiwać dużych klientów z przewidywalnym ruchem niż API konsumenckie, gdzie pojedynczy użytkownik może zająć cały klaster. Serwowanie modelu bilionowego wyklucza też możliwość jednoczesnego uruchamiania innych dużych modeli: „Nie możemy mieć równocześnie sześciu innych modeli", przyznał Wang.

Cennik nie jest publiczny, ale Wang zaznaczył, że jest „porównywalny z GPU — może w górnym środku przedziału". Firma nie celuje w najtańszy segment: „Jesteśmy producentem samochodów na rynku pickupów. Nie robimy tamtego rynku". Wartość jest dla workloadów wymagających szybkości — szczególnie kodowania agentowego, gdzie deweloper czeka w czasie rzeczywistym.

Groq za 20 mld USD i wyścig o inference

Ogłoszenie Cerebras wpisuje się w moment, gdy rynek inference zaczyna przerastać training jako najważniejszy komercyjnie segment AI. Największym sygnałem była akwizycja Groq przez NVIDIA za 20 mld USD — transakcja, która dała liderowi GPU bezpośredni dostęp do specjalizowanej technologii Language Processing Units. Wang skomentował wprost: „Nvidia teraz zdaje sobie sprawę, że szybkie inference to niezwykle ważny rynek. Dlatego są gotowi wydać 20 mld na przejęcie".

Osobna nitka to relacja z OpenAI. Na początku 2026 roku obie firmy podpisały kontrakt na moc obliczeniową wart ponad 20 mld USD. Cerebras ma uruchamiać „wewnętrzne modele kodowania" OpenAI — szczegółów technicznych żadna ze stron nie ujawniła.

Dlaczego to ważne?

Cerebras przez lata zmagało się z przekonaniem rynku, że wafer-scale chips świetnie nadają się do małych i średnich modeli, ale nie do prawdziwych frontierów. Kimi K2.6 — pierwszy model bilionowy obsługiwany w środowisku produkcyjnym — jest bezpośrednią odpowiedzią na ten zarzut.

Bardziej fundamentalnie: wynik 981 tokenów/s przy bilionowym modelu MoE zmienia rachunek ekonomiczny agentycznych workloadów. Dla kodowania agentycznego, gdzie deweloper dosłownie czeka na każdy token, 29-krotna różnica w czasie odpowiedzi (5,6 vs 163,7 sekundy na 500-tokenowy request) przekłada się bezpośrednio na produktywność. Jeśli kluczowe zastosowania AI to agenci działający w czasie rzeczywistym — w kodowaniu, analizie finansowej, diagnostyce medycznej — to dostawca, który potrafi obsłużyć model bilionowy w sekundach zamiast minut, ma argument trudny do zbicia.

Niepewność pozostaje po stronie geopolitycznej: Kimi K2.6 to model z Pekinu obsługiwany przez amerykańskiego dostawcę dla amerykańskich klientów enterprise. Dla firm z sektora finansowego, ochrony zdrowia czy obrony to dodatkowa warstwa compliance, którą każdy kupujący będzie musiał ocenić samodzielnie.

Co dalej?

Cerebras zapowiada własne nowe ogłoszenie sprzętowe — „usłyszycie od nas wiadomości wkrótce" według słów Wanga — prawdopodobnie nowa generacja WSE lub zwiększone klastry CS
Firma deklaruje, że w ciągu 2026 roku zacznie obsługiwać „prawdziwe frontier modele" — w domyśle zamknięte modele Anthropic lub OpenAI na tych samych prędkościach
Rynek będzie uważnie śledzić, jak NVIDIA zintegruje Groq do swojego portfolio inference i czy wyeliminuje przepaść prędkości, która dziś daje Cerebras przewagę