Grok-2

2 · Rodzina: Grok

Drugi flagowy model xAI z możliwościami multimodalnymi i generowaniem obrazów przez FLUX (Black Forest Labs). Wagi udostępnione na HuggingFace (ok. 500 GB, 42 pliki). Wymaga 8× GPU z >40 GB pamięci.

⚠ Deprecated✓ Publiczny dostęp⚖ Open weightsLLMModel multimodalny📁 Grok

Okno kontekstowe

131K

tokenów

Parametry

nieujawnione

parametrów

Data premiery

20 sierpnia 2024

🏢SpaceXAIProducent

Dostęp:APIDownloadHostedWdrożenie:☁ Cloud💻 Lokalnie

Przegląd

Grok-2 to multimodalny frontierowy model językowy xAI ogłoszony 13 sierpnia 2024 r. i dostępny dla subskrybentów X Premium oraz Premium+. W oficjalnych benchmarkach xAI (sierpień 2024) osiągnął m.in. GPQA 56,0%, MMLU 87,5%, MMLU-Pro 75,5%, MATH 76,1%, HumanEval 88,4%, MMMU 66,1%, MathVista 69,0% i DocVQA 93,6%. Wczesna wersja testowana w LMSYS Chatbot Arena pod kryptonimem "sus-column-r" przewyższała wówczas Claude 3.5 Sonnet i GPT-4-Turbo w ogólnym Elo. Model integruje generację obrazów dzięki współpracy z Black Forest Labs (FLUX.1). W sierpniu 2025 r. wagi Grok-2 zostały udostępnione na Hugging Face na licencji xAI Community License Agreement (źródło-available, ograniczenia komercyjne) — checkpoint waży ~500 GB w 42 plikach i wymaga 8 GPU >40 GB każda do uruchomienia (TP=8, kwantyzacja FP8). Liczba parametrów nie została oficjalnie ujawniona przez xAI.

Klasyfikacja

LLMModel multimodalny

Rodzina: Grok

Dostęp i wdrożenie

APIPobieranieHostowane

ChmuraLokalnie

Wagi: Open weights

Kluczowe parametry

📏 Kontekst: 131K

🧩 Parametry: nieujawnione

📥 Wejście: tekst, obraz

Specyfikacja techniczna

Okno kontekstowe

131K

tokenów

Parametry

nieujawnione

parametrów

Licencja

xAI Community License Agreement

Modalności

⬇ Wejście (Input)

textimage

⬆ Wyjście (Output)

textimage

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Programowanie

Generowanie, analizowanie i modyfikowanie kodu w wielu językach programowania. Obejmuje pisanie funkcji, debugowanie, refaktoryzację, code review, tworzenie testów. Mierzone benchmarkami takimi jak HumanEval, SWE-bench.

Kategoria: coding

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Wielojęzyczność

Kompetencje w wielu językach naturalnych (od kilku do stu+): rozumienie, generowanie, tłumaczenie, code-switching w obrębie jednej rozmowy. Modele frontier obsługują szeroki wachlarz języków ze zbliżoną jakością.

Kategoria: language

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Wyniki benchmarków

8 benchmarków

GPQA

0-shot CoT (xAI eval, Aug 2024)

56.0%