Qwen2.5-VL-7B-Instruct

2.5-VL-7B-Instruct · Rodzina: Qwen

Multimodalny VLM od Alibaba Qwen Team (7 mld param., Apache 2.0). Przetwarza obrazy, wideo i dokumenty. SOTA na DocVQA (95,7), ChartQA (87,3), OCRBench (864). Możliwości agenta GUI.

✓ Aktywny✓ Publiczny dostęp⚖ Open sourceModel multimodalnyModel używający narzędzi📁 Qwen

Okno kontekstowe

32K

tokenów

Parametry

parametrów

Max output

32 768

tokenów

Data premiery

1 stycznia 2025

🏢AlibabaProducent

Dostęp:DownloadAPIHostedWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

Qwen2.5-VL-7B-Instruct to instruktowane wydanie 7-miliardowego modelu z rodziny Qwen2.5-VL opracowanego przez Qwen Team w Alibaba Group. Jest to model klasy VLM (Vision-Language Model), przeznaczony do przetwarzania wielomodalnych danych wejściowych: tekstu, obrazów statycznych i filmów wideo. Wagi modelu są dostępne publicznie na licencji Apache 2.0.

Architektura

Model oparty jest na architekturze Transformer z dołączonym koderem wizyjnym ViT (Vision Transformer). Koder wizyjny zoptymalizowano za pomocą uwagi okienkowej (window attention), SwiGLU i RMSNorm — co przyspiesza trening i inferencję przy zachowaniu wydajności. Do przetwarzania wideo zastosowano dynamiczne próbkowanie FPS (Dynamic FPS Sampling) oraz mRoPE z wyrównaniem bezwzględnego czasu — umożliwia to rozumienie filmów o różnych długościach i prędkościach. Model standardowo obsługuje okno kontekstowe 32 768 tokenów (z możliwością rozszerzenia przez YaRN). Dynamiczna rozdzielczość wejściowa (Dynamic Resolution): obrazy przetwarzane są bez zmiany proporcji, a liczba tokenów wizualnych dostosowuje się do zawartości (domyślnie 4–16 384 tokeny na obraz).

Kluczowe możliwości

Model wyróżnia się w pięciu obszarach: (1) rozumienie dokumentów — analiza wykresów, tabel, faktur, formularzy i skanów z generowaniem ustrukturyzowanego JSON; (2) OCR wielopoziomowe — rozpoznawanie tekstu na zdjęciach scen, w dokumentach i w piśmie odręcznym; (3) rozumienie długich wideo — filmy ponad 1 godziny z precyzyjnym wskazywaniem timestampów zdarzeń; (4) lokalizacja wizualna — wykrywanie obiektów przez bounding box lub punkt z wyjściem JSON; (5) możliwości agentowe — obsługa komputera i telefonu jako agent wizualny (ScreenSpot 84,7, AndroidControl Low_EM 93,7).

Dostępność

Model dostępny jest do pobrania z Hugging Face i ModelScope pod licencją Apache 2.0. Obsługuje biblioteki Transformers, vLLM i SGLang. Do efektywnej inferencji zalecana Flash Attention 2. Model jest formatem BF16 i wymaga GPU z co najmniej ~16 GB VRAM. Dostępne są konfiguracje z dynamicznym min_pixels/max_pixels pozwalające balansować jakość i szybkość inferencji.

Klasyfikacja

Model multimodalnyModel używający narzędzi

Rodzina: Qwen

Zastosowania

Kodowanie Analiza dokumentów Multimodalne rozumienie dokumentów Analiza wideo (Video analytics)

Dostęp i wdrożenie

PobieranieAPIHostowane

LokalnieChmura

Wagi: Open source

Kluczowe parametry

📏 Kontekst: 32K

🧩 Parametry: 7B

✓ Narzędzia · ✓ Fine-tuning

📥 Wejście: tekst, obraz, wideo, dokumenty…

Specyfikacja techniczna

Okno kontekstowe

32K

tokenów

Parametry

parametrów

Max output tokens

32 768

tokenów na odpowiedź

Licencja

Apache 2.0

Wymagania sprzętowe

GPU z min. ~16 GB VRAM (BF16). Zalecana Flash Attention 2. Obsługa: Transformers, vLLM, SGLang.

Funkcje:✓ Używanie narzędzi✓ Fine-tuning

Modalności

⬇ Wejście (Input)

textimagevideodocumentsstructured_data

⬆ Wyjście (Output)

textcodestructured_data

Możliwości i zastosowania

Natywne możliwości modelu

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie wideo

Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.

Kategoria: video

OCR

Rozpoznawanie tekstu na obrazach i w dokumentach.

Kategoria: vision

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Rozumowanie po diagramach

Zdolność modelu do analizowania diagramów, schematów i relacji przedstawionych wizualnie.

Kategoria: reasoning

Programowanie

Generowanie, analiza i modyfikacja kodu źródłowego.

Kategoria: coding

Zdolności agentowe

Zdolność modelu do autonomicznego planowania i wykonywania wieloetapowych zadań poprzez sekwencyjne użycie narzędzi, utrzymywanie kontekstu i adaptację do wyników pośrednich.

Kategoria: planning

Obsługa komputera

Zdolność modelu do obsługi interfejsu komputera poprzez interpretację zrzutów ekranu oraz generowanie akcji takich jak kliknięcia, wpisywanie tekstu i nawigacja po aplikacjach.

Kategoria: planning

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Długi kontekst

Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.

Kategoria: language

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Enkoder wizyjny

Zdolność modelu do kodowania obrazów i klatek wideo w gęste reprezentacje (embeddingi), wykorzystywane do dalszych zadań lub jako backbone dla modeli wizyjno-językowych.

Kategoria: vision

Przeplatane wejście multimodalne

Zdolność do dowolnego łączenia tekstu i obrazu w dowolnej kolejności w ramach jednego polecenia.

Kategoria: reasoning

Ugruntowanie wizualno-językowo-akcyjne

Zdolność modelu VLA do łączenia percepcji wizualnej i polecenia językowego z konkretnym działaniem fizycznym robota. Model rozumie scenę i intencję, a następnie generuje sekwencję akcji wykonawczych, zamykając pętlę od obserwacji do ruchu.

Kategoria: robotics

Dziedziny zastosowań

Kodowanie Analiza dokumentów Multimodalne rozumienie dokumentów Analiza wideo (Video analytics)

Wyniki benchmarków

15 benchmarków

MMMU

accuracy · val split, zero-shot

58.6%

📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card (val split)

MMMU-Pro

accuracy · val split

41.0%

📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card

DocVQA

ANLS · test split

95.7%

📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card

ChartQA

relaxed accuracy · test split

87.3%

📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card

TextVQA

accuracy · val split

84.9%

📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card

OCRBench

score · test split

864/ 1000

📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card

MathVista

accuracy · testmini split

68.2%

📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card

MMStar

accuracy · test split

63.9%

📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card

MMBench

accuracy · test split, English

82.6%

📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card

Video-MME

accuracy · bez napisów / z napisami

65.1 / 71.6% (wo/ w/ subs)

📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card

ScreenSpot

accuracy · GUI element localization, overall

84.7%

📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card (agent benchmark)

OSWorld

success rate · AndroidWorld_SR

25.5%

📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card (agent benchmark)

Wynik dotyczy podzadania AndroidWorld_SR; model osiąga 93,7% na Android Control Low_EM.

MVBench

accuracy · video reasoning, multiple choice

69.6%

📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card

MMVet

score · GPT-4-Turbo as judge

67.1

📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card

InfoVQA

ANLS · test split

82.6%

📅 1 sty 2025📄 Qwen2.5-VL official HuggingFace model card

Architektura techniczna

Rdzeń architektury (Core Architecture)

TRTransformer VIViT

Forma modelu (Model Form)

MLMultimodal LLM LLLLM

Techniki trenowania (Training Techniques)

ITInstruction Tuning

Źródła i powiązane strony

4 źródła

DocsQwen2.5-VL-7B-Instruct — HuggingFace model cardhuggingface.co BlogQwen2.5-VL blog post (Qwen Team, January 2025)qwenlm.github.io PaperQwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution (arXiv 2409.12191)arxiv.org PaperQwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities (arXiv 2308.12966)arxiv.org

Przeglądaj powiązane tematy

📁 Qwen 🌐 Kodowanie 🌐 Analiza dokumentów 🌐 Multimodalne rozumienie dokumentów 🌐 Analiza wideo (Video analytics)🧠 Transformer 🧠 ViT 🧠 Multimodal LLM Wszystkie modele multimodal model Wszystkie modele tool using model