Grok 4.3: xAI bije cenę GPT-5.5 10-krotnie, ale jakość to tylko 8. miejsce

xAI, firma Elona Muska, wydała 2 maja 2026 roku model Grok 4.3 — tańszą i szybszą propozycję dla deweloperów i firm, która trafia na Pareto frontier kosztów i jakości. Wraz z modelem xAI uruchomiło beta-wersję Grok Imagine Agent Mode — narzędzia do wieloetapowych projektów kreatywnych. Grok 4.3 kosztuje dziesięciokrotnie mniej niż GPT-5.5 przy porównywalnych zadaniach, ale w najważniejszych benchmarkach nadal plasuje się poniżej czołówki rynku.

Najważniejsze w skrócie

Cena: $1,25/mln tokenów wejściowych i $2,50/mln tokenów wyjściowych — ok. 40–60% taniej niż poprzedni Grok 4.20
Intelligence Index (Artificial Analysis): 53 pkt — 8. miejsce, za GPT-5.5 (60 pkt) i Claude Opus 4.7 (57 pkt)
Benchmark cost: $395 za pełny przebieg testów vs $3 959 dla GPT-5.5 i $4 811 dla Claude Opus 4.7
xAI uruchomiło Grok Imagine Agent Mode (beta) — agentyczny tryb do projektów kreatywnych: filmy, manga, materiały produktowe
Model dostępny przez OpenRouter, xAI API i Hermes agent (Nous Research)

Model dla deweloperów: szybkość, cena i narzędzia

Według xAI developera Erica Jianga, xAI zbudowało Grok 4.3 z myślą o konkretnych zastosowaniach biznesowych: szybkości, niskim koszcie i sprawnych wywołaniach narzędzi. Model osiąga 100 tokenów na sekundę i oferuje okno kontekstu 1 miliona tokenów. Obsługuje web search, wyszukiwanie w serwisie X, wykonanie kodu Python, przeszukiwanie plików (RAG) oraz samodzielne generowanie dokumentów Excel, PDF i PowerPoint. Reasoning jest wbudowany domyślnie: Grok 4.3 "myśli" przed każdą odpowiedzią, a tokeny reasoning są rozliczane w tej samej stawce co zwykłe tokeny wyjściowe. Cutoff wiedzy modelu to grudzień 2025.

Ceny modelu spadły znacząco w porównaniu z poprzednikiem: input tańszy o ok. 40%, output o ok. 60% wobec Grok 4.20. Przy $1,25 za milion tokenów wejściowych i $2,50 za wyjściowe Grok 4.3 trafia na tzw. Pareto frontier — według niezależnego serwisu Artificial Analysis jest to model, który najlepiej łączy jakość z kosztem pełnego przebiegu benchmarku ($395), podczas gdy GPT-5.5 kosztuje $3 959, a Claude Opus 4.7 aż $4 811 przy tym samym teście.

Benchmarki: dobry stosunek ceny do jakości, słabszy w trudnych zadaniach

Na Intelligence Index Artificial Analysis Grok 4.3 uzyskał 53 punkty — nieznacznie powyżej Muse Spark i Claude Opus 4.6 oraz o 4 punkty powyżej poprzedniego Grok 4.20. Wciąż jednak wyraźnie poniżej flagowych modeli: GPT-5.5 ma 60 punktów, Claude Opus 4.7 i Gemini 3.1 Pro po 57 punktów.

Na GDPval-AA — benchmarku mierzącym skuteczność na rzeczywistych zadaniach związanych z pracą wiedzy — Grok 4.3 zanotował wzrost Elo o 321 punktów do poziomu 1500, wyprzedzając Google Gemini 3.1, ale nadal 276 punktów Elo za GPT-5.5. Mieszane wyniki przynoszą wyspecjalizowane testy: serwis Val's AI umieszcza model na 1. miejscu w CaseLaw i 1. miejscu w CorpFin (finanse korporacyjne), ale na 13. miejscu w trudnym kodowaniu i trudnej matematyce.

Niezależne testy Andon Labs — które sprawdzają modele na symulatorze automatycznego wydawania przekąsek — ujawniły problem z autonomicznym działaniem. Laboratorium opisało zachowanie modelu słowami: "Zdaje się cierpieć na narkolepsję — woli spać przez wiele dni z rzędu zamiast podejmować działania." To istotna słabość dla modelu promowanego jako agentyczny.

Grok Imagine Agent Mode: kreatywność w trybie agentycznym

Równolegle z modelem xAI wydało beta-wersję Grok Imagine Agent Mode — interfejs do projektów kreatywnych oparty na architekturze agentycznej. Zamiast obsługi pojedynczych promptów tryb ten zarządza dłuższymi sesjami: AI agent planuje, generuje, edytuje i poprawia treści w otwartej przestrzeni roboczej. xAI wymienia jako przykładowe zastosowania: minutowy film, zestaw mang lub materiały produktowe.

Tryb dostępny jest przez interfejs Grok na grok.com/imagine i wymaga płatnego konta. Agent Mode można aktywować w polu wejściowym w lewym dolnym rogu interfejsu. Funkcja jest w fazie beta — xAI nie podało harmonogramu ogólnej dostępności.

Kontekst: gdzie Grok 4.3 wypada na tle rynku?

Grok 4.3 to kolejny dowód na polaryzację rynku modeli językowych: z jednej strony super-mocne (i super-drogie) modele flagowe od OpenAI i Anthropic, z drugiej szybko rosnąca klasa modeli z wysokim stosunkiem jakości do ceny. Grok 4.3 wyraźnie celuje w tę drugą niszę — i robi to skutecznie w zadaniach z zakresu prawa i finansów, gdzie osiąga czołowe wyniki. Jednak gap jakościowy wobec GPT-5.5 i Claude Opus 4.7 jest realny i istotny w zastosowaniach wymagających rozumowania ogólnego, trudnej matematyki czy złożonego kodowania.

Strategia cenowa xAI jest agresywna: model dostępny przez OpenRouter i xAI API bez blokad, z reasoning w cenie tokenu — bez osobnych tier'ów za "myślenie". To inaczej niż np. OpenAI, które rozdziela modele reasoning na osobne produkty. Grok 4.3 dostępny jest też przez Hermes agent firmy Nous Research — co wskazuje, że xAI aktywnie buduje ekosystem partnerów w segmencie narzędzi agentycznych.

Dlaczego to ważne?

Grok 4.3 ilustruje dojrzewanie rynku modeli AI: nie każda firma musi gonić za absolutnym liderem jakościowym. Są zastosowania — prawo, dokumenty korporacyjne, szybka analiza treści — gdzie koszt i przepustowość mają większe znaczenie niż wynik na trudnym benchmarku matematycznym. Jeśli Grok 4.3 faktycznie utrzyma 1. miejsce w CaseLaw i CorpFin, dla pewnej klasy zastosowań prawnych i finansowych stanie się wyborem domyślnym.

Jednocześnie ujawniony problem z "narkolepsją" agentyczną jest sygnałem ostrzegawczym. Model promowany przez xAI jako narzędzie agentyczne powinien być oceniany właśnie w tym wymiarze — a tu wyniki nie są jednoznacznie pozytywne. Dla deweloperów budujących aplikacje wymagające długofalowego autonomicznego działania to ważna informacja przed wdrożeniem. Grok Imagine Agent Mode trafił do beta dokładnie w momencie, gdy ta wada stała się publicznie widoczna — co może być przypadkiem albo próbą zarządzania narracją.

Co dalej?

Grok Imagine Agent Mode jest w fazie beta bez ogłoszonej daty premiery produkcyjnej — xAI nie podało harmonogramu ogólnej dostępności
Andon Labs zapowiedziało dalsze testy Grok 4.3 na symulatorach agentycznych — wyniki zdecydują o tym, czy problem "narkolepsji" jest systemowy czy zależy od konkretnego zadania
Artificial Analysis monitoruje model na bieżąco — kolejne aktualizacje benchmarku Intelligence Index mogą zmienić pozycję Grok 4.3 w rankingu, zwłaszcza jeśli xAI wyda szybką aktualizację