Cerebras Systems ogłosiło 20 maja 2026 roku, że uruchamia Kimi K2.6 — model bilionowy stworzony przez chińskie Moonshot AI — dla klientów enterprise z prędkością 981 tokenów na sekundę. Wynik niezależnie zweryfikowany przez firmę Artificial Analysis plasuje Cerebras 6,7 razy szybciej od kolejnego dostawcy opartego na GPU i 23 razy szybciej od mediany rynkowej. Ogłoszenie przyszło niecały tydzień po tym, jak Cerebras zaliczyło największe IPO w branży technologicznej 2026 roku.
Najważniejsze w skrócie
- 981 tokenów/s dla modelu Kimi K2.6 — 6,7x szybciej niż kolejny dostawca GPU
- Odpowiedź na 500 tokenów w 5,6 sekundy wobec 163,7 sekundy na oficjalnym endpoincie Kimi
- Kimi K2.6: model MoE z 1 bln parametrów, 32 mld aktywowanych na token, okno kontekstu 256 tys. tokenów
- Cerebras ma wycenę 95 mld USD po IPO i 5,55 mld USD ze sprzedaży akcji
- OpenAI podpisało z Cerebras kontrakt na infrastrukturę o wartości ponad 20 mld USD
Kimi K2.6 — dlaczego model z Pekinu
Wybór Kimi K2.6 to zarówno kamień milowy techniczny, jak i decyzja handlowa. Model wypuściło 20 kwietnia 2026 roku Moonshot AI — firma z Pekinu założona w 2023 roku przez absolwentów Tsinghua University. K2.6 to architektura Mixture of Experts (MoE) z łączną liczbą 1 biliona parametrów, z których na każdy token aktywowane jest 32 miliardy (8 ekspertów + 1 współdzielony z puli 384). Okno kontekstu wynosi 256 tysięcy tokenów.
Na benchmarku SWE-Bench Pro model uzyskał 58,6 punktu, bijąc Claude Opus 4.6 i osiągając poziom GPT-5.4. Wyróżnia się też na benchmarkach agentycznych — Humanity's Last Exam oraz DeepSearchQA. Wersja K2.6 rozszerza możliwości poprzedniej iteracji z front-endu na pełen stack: autentykacja, operacje na bazach danych, długoterminowe zadania agentowe.
James Wang, dyrektor ds. marketingu produktowego w Cerebras, wyjaśnił, co przyciąga klientów enterprise. Według niego firmy szukają przede wszystkim alternatywy dla Anthropic — modeli wysokiej jakości, ale kosztownych i regularnie niedostępnych z powodu braku wolnych mocy. Jako przykład podał aplikację, która „padła" w weekend właśnie z powodu wyczerpania limitów API Anthropic.
Jak wafer-scale pokonuje klastry GPU
Prędkość Cerebras wynika z fundamentalnie innej architektury sprzętowej. Standardowy cluster GPU to zwykle 72 układy — jak w konfiguracji NVL72 od NVIDIA — połączone siecią o wysokiej przepustowości. Model musi być rozproszony między wiele chipów, a dane stale przesyłane po łączach, które stają się wąskim gardłem przy modelach bilionowych.
Cerebras Wafer-Scale Engine 3 (WSE-3) to pojedynczy chip wielkości całego wafla krzemowego — z 44 GB pamięci SRAM bezpośrednio na matrycy procesora. SRAM (zamiast HBM stosowanej w GPU) oznacza dramatycznie niższe opóźnienia i wyższą przepustowość. Dla Kimi K2.6: wagi przechowywane w precyzji 4-bitowej, obliczenia w 16-bit, rozmieszczone na klastrze ok. 20 systemów CS-3. Kluczowy szczegół: wszystkie eksperci dla danej warstwy MoE siedzą na tym samym waferze, więc komunikacja all-to-all przy routingu ekspertów zachodzi z prędkością SRAM. Wewnętrzna sieć wafera dostarcza ponad 200-krotnie wyższą przepustowość niż NVLink w NVL72.
Wang opisał to analogią: każda warstwa transformera obsługuje innego użytkownika jednocześnie — jak kolejka. Ponieważ dane przepływają przez hardware tak szybko, indywidualny użytkownik doświadcza pełnej prędkości modelu. W połączeniu z własnymi kernelami i speculative decoding wynik to blisko 1000 tokenów/s.
Enterprise najpierw, reszta później
Cerebras nie otwiera Kimi K2.6 dla ogółu. Dostęp mają firmy z listy Fortune 500 w sektorach software, usług finansowych i opieki zdrowotnej. Wang potwierdził, że chodzi o „loga, które każdy zna", nie podając nazw z powodu umów NDA.
Podejście enterprise-first jest celowe. Przy ograniczonej pojemności sprzętowej Cerebras woli obsługiwać dużych klientów z przewidywalnym ruchem niż API konsumenckie, gdzie pojedynczy użytkownik może zająć cały klaster. Serwowanie modelu bilionowego wyklucza też możliwość jednoczesnego uruchamiania innych dużych modeli: „Nie możemy mieć równocześnie sześciu innych modeli", przyznał Wang.
Cennik nie jest publiczny, ale Wang zaznaczył, że jest „porównywalny z GPU — może w górnym środku przedziału". Firma nie celuje w najtańszy segment: „Jesteśmy producentem samochodów na rynku pickupów. Nie robimy tamtego rynku". Wartość jest dla workloadów wymagających szybkości — szczególnie kodowania agentowego, gdzie deweloper czeka w czasie rzeczywistym.
Groq za 20 mld USD i wyścig o inference
Ogłoszenie Cerebras wpisuje się w moment, gdy rynek inference zaczyna przerastać training jako najważniejszy komercyjnie segment AI. Największym sygnałem była akwizycja Groq przez NVIDIA za 20 mld USD — transakcja, która dała liderowi GPU bezpośredni dostęp do specjalizowanej technologii Language Processing Units. Wang skomentował wprost: „Nvidia teraz zdaje sobie sprawę, że szybkie inference to niezwykle ważny rynek. Dlatego są gotowi wydać 20 mld na przejęcie".
Osobna nitka to relacja z OpenAI. Na początku 2026 roku obie firmy podpisały kontrakt na moc obliczeniową wart ponad 20 mld USD. Cerebras ma uruchamiać „wewnętrzne modele kodowania" OpenAI — szczegółów technicznych żadna ze stron nie ujawniła.
Dlaczego to ważne?
Cerebras przez lata zmagało się z przekonaniem rynku, że wafer-scale chips świetnie nadają się do małych i średnich modeli, ale nie do prawdziwych frontierów. Kimi K2.6 — pierwszy model bilionowy obsługiwany w środowisku produkcyjnym — jest bezpośrednią odpowiedzią na ten zarzut.
Bardziej fundamentalnie: wynik 981 tokenów/s przy bilionowym modelu MoE zmienia rachunek ekonomiczny agentycznych workloadów. Dla kodowania agentycznego, gdzie deweloper dosłownie czeka na każdy token, 29-krotna różnica w czasie odpowiedzi (5,6 vs 163,7 sekundy na 500-tokenowy request) przekłada się bezpośrednio na produktywność. Jeśli kluczowe zastosowania AI to agenci działający w czasie rzeczywistym — w kodowaniu, analizie finansowej, diagnostyce medycznej — to dostawca, który potrafi obsłużyć model bilionowy w sekundach zamiast minut, ma argument trudny do zbicia.
Niepewność pozostaje po stronie geopolitycznej: Kimi K2.6 to model z Pekinu obsługiwany przez amerykańskiego dostawcę dla amerykańskich klientów enterprise. Dla firm z sektora finansowego, ochrony zdrowia czy obrony to dodatkowa warstwa compliance, którą każdy kupujący będzie musiał ocenić samodzielnie.
Co dalej?
- Cerebras zapowiada własne nowe ogłoszenie sprzętowe — „usłyszycie od nas wiadomości wkrótce" według słów Wanga — prawdopodobnie nowa generacja WSE lub zwiększone klastry CS
- Firma deklaruje, że w ciągu 2026 roku zacznie obsługiwać „prawdziwe frontier modele" — w domyśle zamknięte modele Anthropic lub OpenAI na tych samych prędkościach
- Rynek będzie uważnie śledzić, jak NVIDIA zintegruje Groq do swojego portfolio inference i czy wyeliminuje przepaść prędkości, która dziś daje Cerebras przewagę
Źródła
- VentureBeat — Cerebras says its chips run a trillion-parameter AI model nearly 7 times faster than GPU clouds
- Artificial Analysis — AI Model Performance Benchmarks
- Cerebras — Cerebras + Kimi K2.6 Enterprise Announcement


