Multimodalny VLM od Alibaba Qwen Team (7 mld param., Apache 2.0). Przetwarza obrazy, wideo i dokumenty. SOTA na DocVQA (95,7), ChartQA (87,3), OCRBench (864). Możliwości agenta GUI.
Okno kontekstowe
32K
tokenów
Parametry
7B
parametrów
Max output
32 768
tokenów
Data premiery
1 stycznia 2025
Dostęp:DownloadAPIHostedWdrożenie:💻 Lokalnie☁ Cloud
Przegląd
Zastosowania
Dostęp i wdrożenie
PobieranieAPIHostowane
LokalnieChmura
Wagi: Open source
Kluczowe parametry
📏 Kontekst: 32K
🧩 Parametry: 7B
✓ Narzędzia · ✓ Fine-tuning
📥 Wejście: tekst, obraz, wideo, dokumenty…
Specyfikacja techniczna
Okno kontekstowe
32K
tokenów
Parametry
7B
parametrów
Max output tokens
32 768
tokenów na odpowiedź
Licencja
Apache 2.0
Wymagania sprzętowe
GPU z min. ~16 GB VRAM (BF16). Zalecana Flash Attention 2. Obsługa: Transformers, vLLM, SGLang.
Funkcje:✓ Używanie narzędzi✓ Fine-tuning
Modalności
⬇ Wejście (Input)
textimagevideodocumentsstructured_data
⬆ Wyjście (Output)
textcodestructured_data
Możliwości i zastosowania
Natywne możliwości modelu
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Rozumienie obrazu
Analiza i interpretacja treści obrazów.
Kategoria: vision
Rozumienie wideo
Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.
Kategoria: video
OCR
Rozpoznawanie tekstu na obrazach i w dokumentach.
Kategoria: vision
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Rozumowanie wieloetapowe
Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.
Kategoria: reasoning
Rozumowanie po diagramach
Zdolność modelu do analizowania diagramów, schematów i relacji przedstawionych wizualnie.
Kategoria: reasoning
Programowanie
Generowanie, analiza i modyfikacja kodu źródłowego.
Kategoria: coding
Zdolności agentowe
Zdolność modelu do autonomicznego planowania i wykonywania wieloetapowych zadań poprzez sekwencyjne użycie narzędzi, utrzymywanie kontekstu i adaptację do wyników pośrednich.
Kategoria: planning
Obsługa komputera
Zdolność modelu do obsługi interfejsu komputera poprzez interpretację zrzutów ekranu oraz generowanie akcji takich jak kliknięcia, wpisywanie tekstu i nawigacja po aplikacjach.
Kategoria: planning
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Długi kontekst
Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.
Kategoria: language
Wyjście strukturyzowane
Generowanie danych w ustrukturyzowanych formatach, np. JSON.
Kategoria: structured_generation
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Enkoder wizyjny
Zdolność modelu do kodowania obrazów i klatek wideo w gęste reprezentacje (embeddingi), wykorzystywane do dalszych zadań lub jako backbone dla modeli wizyjno-językowych.
Kategoria: vision
Przeplatane wejście multimodalne
Zdolność do dowolnego łączenia tekstu i obrazu w dowolnej kolejności w ramach jednego polecenia.
Kategoria: reasoning
Ugruntowanie wizualno-językowo-akcyjne
Zdolność modelu VLA do łączenia percepcji wizualnej i polecenia językowego z konkretnym działaniem fizycznym robota. Model rozumie scenę i intencję, a następnie generuje sekwencję akcji wykonawczych, zamykając pętlę od obserwacji do ruchu.
Kategoria: robotics
Wyniki benchmarków
15 benchmarków
MMMU
accuracy · val split, zero-shot
58.6%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card (val split)
MMMU-Pro
accuracy · val split
41.0%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
DocVQA
ANLS · test split
95.7%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
ChartQA
relaxed accuracy · test split
87.3%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
TextVQA
accuracy · val split
84.9%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
OCRBench
score · test split
864/ 1000
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
MathVista
accuracy · testmini split
68.2%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
MMStar
accuracy · test split
63.9%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
MMBench
accuracy · test split, English
82.6%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
Video-MME
accuracy · bez napisów / z napisami
65.1 / 71.6% (wo/ w/ subs)
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
ScreenSpot
accuracy · GUI element localization, overall
84.7%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card (agent benchmark)
OSWorld
success rate · AndroidWorld_SR
25.5%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card (agent benchmark)
Wynik dotyczy podzadania AndroidWorld_SR; model osiąga 93,7% na Android Control Low_EM.
MVBench
accuracy · video reasoning, multiple choice
69.6%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
MMVet
score · GPT-4-Turbo as judge
67.1
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
InfoVQA
ANLS · test split
82.6%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)
Źródła i powiązane strony
4 źródła
DocsQwen2.5-VL-7B-Instruct — HuggingFace model cardBlogQwen2.5-VL blog post (Qwen Team, January 2025)PaperQwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution (arXiv 2409.12191)PaperQwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities (arXiv 2308.12966)