Qwen3-8B

3-8B · Rodzina: Qwen3

Model językowy Qwen3-8B od Alibaba (8,2 mld param., Apache 2.0) z hybrydowym trybem myślenia. Kontekst 128K, wsparcie 119 języków, silny w matematyce, kodowaniu i zadaniach agentowych.

✓ Aktywny✓ Publiczny dostęp⚖ Open sourceLLMModel rozumowaniaModel używający narzędzi📁 Qwen3

Okno kontekstowe

128K

tokenów

Parametry

8.2B

parametrów

Max output

32 768

tokenów

Data premiery

29 kwietnia 2025

🏢AlibabaProducent

Dostęp:DownloadAPIHostedWdrożenie:💻 Lokalnie☁ Cloud📱 Na urządzeniu

Przegląd

Qwen3-8B to post-trenowany (instruct) model językowy z rodziny Qwen3 opracowany przez Qwen Team w Alibaba Group i opublikowany 29 kwietnia 2025 r. z licencją Apache 2.0. Jest to gęsty model (dense) o 8,2 mld parametrów (6,95 mld bez embeddingów), zbudowany na 36 warstwach Transformer z GQA (32 głowy Q, 8 głów KV). Model wchodzi w skład serii Qwen3, obejmującej modele gęste 0,6B–32B oraz MoE 30B–235B.

Hybrydowy tryb myślenia

Kluczową innowacją Qwen3 jest obsługa dwóch trybów w ramach jednego modelu: tryb myślenia (thinking mode, enable_thinking=True) — model generuje rozumowanie krok po kroku wewnątrz bloku <think>…</think>, a następnie finalną odpowiedź. Tryb niezhinkingowy (non-thinking mode, enable_thinking=False) — odpowiedź bezpośrednia, bez rozumowania, podobna do tradycyjnych modeli chat. Tryb można zmieniać dynamicznie przez flagi /think i /no_think w promptcie lub parametr enable_thinking w chat template. Dla trybu myślenia zalecane: Temperature=0,6, TopP=0,95, TopK=20. Dla trybu niezhinkingowego: Temperature=0,7, TopP=0,8, TopK=20.

Architektura i pretrening

Architektura opiera się na Transformerze z GQA, SwiGLU, RoPE i RMSNorm (podobnie jak Qwen2.5), ale bez QKV-bias i z dodanym QK-Norm dla stabilności treningu. Model obsługuje 128K tokenów kontekstu natywnie (rozszerzalne do 131K przez YaRN). Pretrening obejmował ok. 36 bilionów tokenów w trzech etapach: bazowy (30T tokenów), etap wzmocnienia STEM/code (5T) i etap długiego kontekstu (do 32K, z rozszerzeniem do 128K). Rozszerzone dane syntetyczne generowano modelami Qwen2.5-VL, Qwen2.5-Math i Qwen2.5-Coder.

Post-trening (4 etapy)

Post-trening modelu obejmował 4 etapy: (1) Long-CoT cold start — fine-tuning na danych CoT z matematyki, kodu i STEM. (2) Reasoning RL — reinforcement learning z regułowymi nagrodami (GRPO). (3) Thinking Mode Fusion — integracja trybu niezhinkingowego przez SFT na danych mixed CoT + instrukcje. (4) General RL — RL na 20+ ogólnych zadaniach (instruction following, format, agent). Mniejsze modele (w tym 8B) trenowano przez silną dystrybucję wiedzy od większych modeli zamiast pełnego 4-etapowego pipeline.

Wielojęzyczność i możliwości agentowe

Model obsługuje 119 języków i dialektów (vs. 29 w Qwen2.5), obejmujących rodziny indo-europejskie, sino-tybetańskie, afroazjatyckie, austronezyjskie i inne. W zakresie możliwości agentowych Qwen3-8B doskonale integruje się z zewnętrznymi narzędziami przez MCP (Model Context Protocol), obsługując wywołania funkcji zarówno w trybie myślenia, jak i niezhinkingowym. Zalecanym frameworkiem agentowym jest Qwen-Agent.

Klasyfikacja

LLMModel rozumowaniaModel używający narzędzi

Rodzina: Qwen3

Zastosowania

Kodowanie Asystent badawczy Analiza danych Chatboty Pisanie kreatywne Burza mózgów

Dostęp i wdrożenie

PobieranieAPIHostowane

LokalnieChmuraNa urządzeniu

Wagi: Open source

Kluczowe parametry

📏 Kontekst: 128K

🧩 Parametry: 8.2B

✓ Narzędzia · ✓ Fine-tuning

📥 Wejście: tekst

Specyfikacja techniczna

Okno kontekstowe

128K

tokenów

Parametry

8.2B

parametrów

Max output tokens

32 768

tokenów na odpowiedź

Knowledge cutoff

1 kwi 2025

Data graniczna wiedzy

Licencja

Apache 2.0

Wymagania sprzętowe

GPU z min. ~16 GB VRAM (BF16). Zalecane Flash Attention 2. Obsługa: Transformers (>=4.51.0), vLLM (>=0.8.5), SGLang (>=0.4.6.post1), llama.cpp (>=b5401), Ollama.

Funkcje:✓ Używanie narzędzi✓ Fine-tuning

Modalności

⬇ Wejście (Input)

text

⬆ Wyjście (Output)

textcode

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Rozumowanie matematyczne

Zdolność modelu do rozwiązywania zadań matematycznych wymagających wieloetapowego rozumowania — równania, dowody, kombinatoryka, geometria, rachunek różniczkowy, zadania konkursowe.

Kategoria: reasoning

Programowanie

Generowanie, analiza i modyfikacja kodu źródłowego.

Kategoria: coding

Wielojęzyczność

Rozumienie i generowanie tekstu w wielu językach.

Kategoria: language

Długi kontekst

Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.

Kategoria: language

Zdolności agentowe

Zdolność modelu do autonomicznego planowania i wykonywania wieloetapowych zadań poprzez sekwencyjne użycie narzędzi, utrzymywanie kontekstu i adaptację do wyników pośrednich.

Kategoria: planning

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Modelowanie języka

Zdolność przewidywania kolejnych tokenów i generowania spójnego tekstu w języku naturalnym na podstawie poprzedzającego kontekstu.

Kategoria: language

Dziedziny zastosowań

Kodowanie Asystent badawczy Analiza danych Chatboty Pisanie kreatywne Burza mózgów

Wyniki benchmarków

12 benchmarków

MMMU

accuracy · 5-shot, model bazowy Qwen3-8B-Base

76.89%