Robocikowo>ROBOCIKOWO
QW

Qwen3-8B

3-8B · Rodzina: Qwen3
Model językowy Qwen3-8B od Alibaba (8,2 mld param., Apache 2.0) z hybrydowym trybem myślenia. Kontekst 128K, wsparcie 119 języków, silny w matematyce, kodowaniu i zadaniach agentowych.
✓ Aktywny✓ Publiczny dostęp⚖ Open sourceLLMModel rozumowaniaModel używający narzędzi📁 Qwen3
Okno kontekstowe
128K
tokenów
Parametry
8.2B
parametrów
Max output
32 768
tokenów
Data premiery
29 kwietnia 2025
Dostęp:DownloadAPIHostedWdrożenie:💻 Lokalnie☁ Cloud📱 Na urządzeniu

Przegląd

Qwen3-8B to post-trenowany (instruct) model językowy z rodziny Qwen3 opracowany przez Qwen Team w Alibaba Group i opublikowany 29 kwietnia 2025 r. z licencją Apache 2.0. Jest to gęsty model (dense) o 8,2 mld parametrów (6,95 mld bez embeddingów), zbudowany na 36 warstwach Transformer z GQA (32 głowy Q, 8 głów KV). Model wchodzi w skład serii Qwen3, obejmującej modele gęste 0,6B–32B oraz MoE 30B–235B.

Hybrydowy tryb myślenia

Kluczową innowacją Qwen3 jest obsługa dwóch trybów w ramach jednego modelu: tryb myślenia (thinking mode, enable_thinking=True) — model generuje rozumowanie krok po kroku wewnątrz bloku <think>…</think>, a następnie finalną odpowiedź. Tryb niezhinkingowy (non-thinking mode, enable_thinking=False) — odpowiedź bezpośrednia, bez rozumowania, podobna do tradycyjnych modeli chat. Tryb można zmieniać dynamicznie przez flagi /think i /no_think w promptcie lub parametr enable_thinking w chat template. Dla trybu myślenia zalecane: Temperature=0,6, TopP=0,95, TopK=20. Dla trybu niezhinkingowego: Temperature=0,7, TopP=0,8, TopK=20.

Architektura i pretrening

Architektura opiera się na Transformerze z GQA, SwiGLU, RoPE i RMSNorm (podobnie jak Qwen2.5), ale bez QKV-bias i z dodanym QK-Norm dla stabilności treningu. Model obsługuje 128K tokenów kontekstu natywnie (rozszerzalne do 131K przez YaRN). Pretrening obejmował ok. 36 bilionów tokenów w trzech etapach: bazowy (30T tokenów), etap wzmocnienia STEM/code (5T) i etap długiego kontekstu (do 32K, z rozszerzeniem do 128K). Rozszerzone dane syntetyczne generowano modelami Qwen2.5-VL, Qwen2.5-Math i Qwen2.5-Coder.

Post-trening (4 etapy)

Post-trening modelu obejmował 4 etapy: (1) Long-CoT cold start — fine-tuning na danych CoT z matematyki, kodu i STEM. (2) Reasoning RL — reinforcement learning z regułowymi nagrodami (GRPO). (3) Thinking Mode Fusion — integracja trybu niezhinkingowego przez SFT na danych mixed CoT + instrukcje. (4) General RL — RL na 20+ ogólnych zadaniach (instruction following, format, agent). Mniejsze modele (w tym 8B) trenowano przez silną dystrybucję wiedzy od większych modeli zamiast pełnego 4-etapowego pipeline.

Wielojęzyczność i możliwości agentowe

Model obsługuje 119 języków i dialektów (vs. 29 w Qwen2.5), obejmujących rodziny indo-europejskie, sino-tybetańskie, afroazjatyckie, austronezyjskie i inne. W zakresie możliwości agentowych Qwen3-8B doskonale integruje się z zewnętrznymi narzędziami przez MCP (Model Context Protocol), obsługując wywołania funkcji zarówno w trybie myślenia, jak i niezhinkingowym. Zalecanym frameworkiem agentowym jest Qwen-Agent.

Klasyfikacja
LLMModel rozumowaniaModel używający narzędzi
Rodzina: Qwen3
Dostęp i wdrożenie
PobieranieAPIHostowane
LokalnieChmuraNa urządzeniu
Wagi: Open source
Kluczowe parametry
📏 Kontekst: 128K
🧩 Parametry: 8.2B
Narzędzia · ✓ Fine-tuning
📥 Wejście: tekst

Specyfikacja techniczna

Okno kontekstowe
128K
tokenów
Parametry
8.2B
parametrów
Max output tokens
32 768
tokenów na odpowiedź
Knowledge cutoff
1 kwi 2025
Data graniczna wiedzy
Licencja
Apache 2.0
Wymagania sprzętowe
GPU z min. ~16 GB VRAM (BF16). Zalecane Flash Attention 2. Obsługa: Transformers (>=4.51.0), vLLM (>=0.8.5), SGLang (>=0.4.6.post1), llama.cpp (>=b5401), Ollama.
Funkcje:Używanie narzędziFine-tuning
Modalności
⬇ Wejście (Input)
text
⬆ Wyjście (Output)
textcode

Możliwości i zastosowania

Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Rozumowanie wieloetapowe
Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.
Kategoria: reasoning
Rozumowanie matematyczne
Zdolność modelu do rozwiązywania zadań matematycznych wymagających wieloetapowego rozumowania — równania, dowody, kombinatoryka, geometria, rachunek różniczkowy, zadania konkursowe.
Kategoria: reasoning
Programowanie
Generowanie, analiza i modyfikacja kodu źródłowego.
Kategoria: coding
Wielojęzyczność
Rozumienie i generowanie tekstu w wielu językach.
Kategoria: language
Długi kontekst
Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.
Kategoria: language
Zdolności agentowe
Zdolność modelu do autonomicznego planowania i wykonywania wieloetapowych zadań poprzez sekwencyjne użycie narzędzi, utrzymywanie kontekstu i adaptację do wyników pośrednich.
Kategoria: planning
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wyjście strukturyzowane
Generowanie danych w ustrukturyzowanych formatach, np. JSON.
Kategoria: structured_generation
Modelowanie języka
Zdolność przewidywania kolejnych tokenów i generowania spójnego tekstu w języku naturalnym na podstawie poprzedzającego kontekstu.
Kategoria: language

Wyniki benchmarków

12 benchmarków
MMMU
accuracy · 5-shot, model bazowy Qwen3-8B-Base
76.89%
📅 14 maj 2025📄 Qwen3 Technical Report, Table 6 (arXiv 2505.09388)
Wynik modelu bazowego (Qwen3-8B-Base). Wyniki modelu instruct dostępne w technical report.
MMLU-Pro
accuracy · 5-shot CoT, model bazowy Qwen3-8B-Base
56.73%
📅 14 maj 2025📄 Qwen3 Technical Report, Table 6 (arXiv 2505.09388)
GPQA
accuracy · 5-shot CoT, model bazowy Qwen3-8B-Base
44.44%
📅 14 maj 2025📄 Qwen3 Technical Report, Table 6 (arXiv 2505.09388)
MATH
accuracy · 4-shot CoT, model bazowy Qwen3-8B-Base
60.80%
📅 14 maj 2025📄 Qwen3 Technical Report, Table 6 (arXiv 2505.09388)
Pełny benchmark MATH (full dataset). MATH-500 (podzbiór) w trybie thinking może dawać wyższe wyniki.
GSM8K
accuracy · 4-shot CoT, model bazowy Qwen3-8B-Base
89.84%
📅 14 maj 2025📄 Qwen3 Technical Report, Table 6 (arXiv 2505.09388)
MGSM
accuracy · 8-shot CoT, wielojęzyczna matematyka, model bazowy Qwen3-8B-Base
76.02%
📅 14 maj 2025📄 Qwen3 Technical Report, Table 6 (arXiv 2505.09388)
SWE-bench
pass@1 · post-trening, tryb thinking
%
📅 14 maj 2025📄 Qwen3 Technical Report (arXiv 2505.09388) — patrz wyniki instruktu
Konkretny wynik dla 8B nie jest udostępniony osobno w dostępnych źródłach.
LiveCodeBench
pass@1 · post-trening, tryb thinking
%
📅 14 maj 2025📄 Qwen3 Technical Report (arXiv 2505.09388)
Flagship Qwen3-235B osiąga 70.7. Wynik 8B nie jest opublikowany osobno.
BFCL (Berkeley Function-Calling Leaderboard)
accuracy · post-trening, function calling
%
📅 14 maj 2025📄 Qwen3 Technical Report (arXiv 2505.09388)
Flagship Qwen3-235B osiąga 70.8. Wynik 8B nie jest opublikowany osobno.
IFEval
accuracy · post-trening, tryb non-thinking
%
📅 14 maj 2025📄 Qwen3 Technical Report (arXiv 2505.09388)
Wynik 8B nie jest opublikowany osobno w dostępnych źródłach.
AIME 2024
pass@1 · post-trening, tryb thinking
%
📅 14 maj 2025📄 Qwen3 Technical Report (arXiv 2505.09388)
Flagship Qwen3-235B osiąga 85.7. Wynik 8B nie jest opublikowany osobno.
AIME 2025
pass@1 · post-trening, tryb thinking
%
📅 14 maj 2025📄 Qwen3 Technical Report (arXiv 2505.09388)
Flagship Qwen3-235B osiąga 81.5. Wynik 8B nie jest opublikowany osobno.

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)