Robocikowo>ROBOCIKOWO
QW

Qwen2.5-VL-7B-Instruct

2.5-VL-7B-Instruct · Rodzina: Qwen
Multimodalny VLM od Alibaba Qwen Team (7 mld param., Apache 2.0). Przetwarza obrazy, wideo i dokumenty. SOTA na DocVQA (95,7), ChartQA (87,3), OCRBench (864). Możliwości agenta GUI.
✓ Aktywny✓ Publiczny dostęp⚖ Open sourceModel multimodalnyModel używający narzędzi📁 Qwen
Okno kontekstowe
32K
tokenów
Parametry
7B
parametrów
Max output
32 768
tokenów
Data premiery
1 stycznia 2025
Dostęp:DownloadAPIHostedWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

Qwen2.5-VL-7B-Instruct to instruktowane wydanie 7-miliardowego modelu z rodziny Qwen2.5-VL opracowanego przez Qwen Team w Alibaba Group. Jest to model klasy VLM (Vision-Language Model), przeznaczony do przetwarzania wielomodalnych danych wejściowych: tekstu, obrazów statycznych i filmów wideo. Wagi modelu są dostępne publicznie na licencji Apache 2.0.

Architektura

Model oparty jest na architekturze Transformer z dołączonym koderem wizyjnym ViT (Vision Transformer). Koder wizyjny zoptymalizowano za pomocą uwagi okienkowej (window attention), SwiGLU i RMSNorm — co przyspiesza trening i inferencję przy zachowaniu wydajności. Do przetwarzania wideo zastosowano dynamiczne próbkowanie FPS (Dynamic FPS Sampling) oraz mRoPE z wyrównaniem bezwzględnego czasu — umożliwia to rozumienie filmów o różnych długościach i prędkościach. Model standardowo obsługuje okno kontekstowe 32 768 tokenów (z możliwością rozszerzenia przez YaRN). Dynamiczna rozdzielczość wejściowa (Dynamic Resolution): obrazy przetwarzane są bez zmiany proporcji, a liczba tokenów wizualnych dostosowuje się do zawartości (domyślnie 4–16 384 tokeny na obraz).

Kluczowe możliwości

Model wyróżnia się w pięciu obszarach: (1) rozumienie dokumentów — analiza wykresów, tabel, faktur, formularzy i skanów z generowaniem ustrukturyzowanego JSON; (2) OCR wielopoziomowe — rozpoznawanie tekstu na zdjęciach scen, w dokumentach i w piśmie odręcznym; (3) rozumienie długich wideo — filmy ponad 1 godziny z precyzyjnym wskazywaniem timestampów zdarzeń; (4) lokalizacja wizualna — wykrywanie obiektów przez bounding box lub punkt z wyjściem JSON; (5) możliwości agentowe — obsługa komputera i telefonu jako agent wizualny (ScreenSpot 84,7, AndroidControl Low_EM 93,7).

Dostępność

Model dostępny jest do pobrania z Hugging Face i ModelScope pod licencją Apache 2.0. Obsługuje biblioteki Transformers, vLLM i SGLang. Do efektywnej inferencji zalecana Flash Attention 2. Model jest formatem BF16 i wymaga GPU z co najmniej ~16 GB VRAM. Dostępne są konfiguracje z dynamicznym min_pixels/max_pixels pozwalające balansować jakość i szybkość inferencji.

Klasyfikacja
Model multimodalnyModel używający narzędzi
Rodzina: Qwen
Dostęp i wdrożenie
PobieranieAPIHostowane
LokalnieChmura
Wagi: Open source
Kluczowe parametry
📏 Kontekst: 32K
🧩 Parametry: 7B
Narzędzia · ✓ Fine-tuning
📥 Wejście: tekst, obraz, wideo, dokumenty

Specyfikacja techniczna

Okno kontekstowe
32K
tokenów
Parametry
7B
parametrów
Max output tokens
32 768
tokenów na odpowiedź
Licencja
Apache 2.0
Wymagania sprzętowe
GPU z min. ~16 GB VRAM (BF16). Zalecana Flash Attention 2. Obsługa: Transformers, vLLM, SGLang.
Funkcje:Używanie narzędziFine-tuning
Modalności
⬇ Wejście (Input)
textimagevideodocumentsstructured_data
⬆ Wyjście (Output)
textcodestructured_data

Możliwości i zastosowania

Natywne możliwości modelu
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Rozumienie obrazu
Analiza i interpretacja treści obrazów.
Kategoria: vision
Rozumienie wideo
Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.
Kategoria: video
OCR
Rozpoznawanie tekstu na obrazach i w dokumentach.
Kategoria: vision
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Rozumowanie wieloetapowe
Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.
Kategoria: reasoning
Rozumowanie po diagramach
Zdolność modelu do analizowania diagramów, schematów i relacji przedstawionych wizualnie.
Kategoria: reasoning
Programowanie
Generowanie, analiza i modyfikacja kodu źródłowego.
Kategoria: coding
Zdolności agentowe
Zdolność modelu do autonomicznego planowania i wykonywania wieloetapowych zadań poprzez sekwencyjne użycie narzędzi, utrzymywanie kontekstu i adaptację do wyników pośrednich.
Kategoria: planning
Obsługa komputera
Zdolność modelu do obsługi interfejsu komputera poprzez interpretację zrzutów ekranu oraz generowanie akcji takich jak kliknięcia, wpisywanie tekstu i nawigacja po aplikacjach.
Kategoria: planning
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Długi kontekst
Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.
Kategoria: language
Wyjście strukturyzowane
Generowanie danych w ustrukturyzowanych formatach, np. JSON.
Kategoria: structured_generation
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Enkoder wizyjny
Zdolność modelu do kodowania obrazów i klatek wideo w gęste reprezentacje (embeddingi), wykorzystywane do dalszych zadań lub jako backbone dla modeli wizyjno-językowych.
Kategoria: vision
Przeplatane wejście multimodalne
Zdolność do dowolnego łączenia tekstu i obrazu w dowolnej kolejności w ramach jednego polecenia.
Kategoria: reasoning
Ugruntowanie wizualno-językowo-akcyjne
Zdolność modelu VLA do łączenia percepcji wizualnej i polecenia językowego z konkretnym działaniem fizycznym robota. Model rozumie scenę i intencję, a następnie generuje sekwencję akcji wykonawczych, zamykając pętlę od obserwacji do ruchu.
Kategoria: robotics

Wyniki benchmarków

15 benchmarków
MMMU
accuracy · val split, zero-shot
58.6%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card (val split)
MMMU-Pro
accuracy · val split
41.0%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
DocVQA
ANLS · test split
95.7%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
ChartQA
relaxed accuracy · test split
87.3%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
TextVQA
accuracy · val split
84.9%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
OCRBench
score · test split
864/ 1000
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
MathVista
accuracy · testmini split
68.2%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
MMStar
accuracy · test split
63.9%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
MMBench
accuracy · test split, English
82.6%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
Video-MME
accuracy · bez napisów / z napisami
65.1 / 71.6% (wo/ w/ subs)
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
ScreenSpot
accuracy · GUI element localization, overall
84.7%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card (agent benchmark)
OSWorld
success rate · AndroidWorld_SR
25.5%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card (agent benchmark)
Wynik dotyczy podzadania AndroidWorld_SR; model osiąga 93,7% na Android Control Low_EM.
MVBench
accuracy · video reasoning, multiple choice
69.6%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
MMVet
score · GPT-4-Turbo as judge
67.1
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card
InfoVQA
ANLS · test split
82.6%
📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)