Robocikowo>ROBOCIKOWO
DeepEyes-V2

DeepEyes-V2

V2
Agentowy model multimodalny od Xiaohongshu (RedNote-hilab) integrujący rozumienie obrazów, wyszukiwanie web i wykonywanie kodu w jednym łańcuchu rozumowania.
🔬 Research🔬 Research only⚖ Open sourceModel multimodalnyModel używający narzędziModel agentowyModel wzrokowy
Parametry
7B / 32B
parametrów
Data premiery
7 listopada 2025
Dostęp:DownloadWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

DeepEyes-V2 to agentowy model multimodalny opracowany przez rednote-hilab (laboratorium AI chińskiej platformy społecznościowej Xiaohongshu / RedNote). Model rozszerza koncepcję "Thinking with Images" z DeepEyes v1 o pełną zdolność wywoływania zewnętrznych narzędzi: środowiska wykonawczego kodu Python oraz wyszukiwarki internetowej. Integruje te operacje w pojedynczy łańcuch rozumowania end-to-end.

Trening wykorzystuje dwustopniowy pipeline: faza cold-start ustanawia wzorce użycia narzędzi (przez supervised fine-tuning na starannie dobranych przykładach), po której następuje faza reinforcement learning rafinująca decyzje o wywołaniu narzędzi. Autorzy obserwują, że samo RL bez cold-start nie wystarcza do wzbudzenia stabilnych zachowań narzędziowych. Model bazuje na Qwen-2.5-VL-7B-Instruct lub Qwen-2.5-VL-32B-Instruct jako modelu fundamentowym.

Wraz z modelem zespół wprowadził RealX-Bench — benchmark ewaluacyjny wymuszający integrację percepcji, wyszukiwania i rozumowania w zadaniach z rzeczywistego świata. DeepEyes-V2 wykazuje adaptacyjny dobór narzędzi: dla zadań percepcyjnych częściej wybiera operacje na obrazach (zoom-in), dla zadań matematycznych — obliczenia numeryczne w kodzie. Po treningu RL model potrafi łączyć narzędzia w złożone sekwencje.

Klasyfikacja
Model multimodalnyModel używający narzędziModel agentowyModel wzrokowy
Dostęp i wdrożenie
Pobieranie
LokalnieChmura
Wagi: Open source
Kluczowe parametry
🧩 Parametry: 7B / 32B
Narzędzia · ✓ Fine-tuning
📥 Wejście: tekst, obraz

Specyfikacja techniczna

Parametry
7B / 32B
parametrów
Licencja
Apache-2.0
Wymagania sprzętowe
Trening: 32+ GPU (4 nodes × 8) dla wariantu 7B; 64+ GPU (8 nodes × 8) dla 32B. Min. 1200 GB RAM na node ze względu na obrazy w wysokiej rozdzielczości w datasetach V* i ArxivQA.
Funkcje:Używanie narzędziFine-tuning
Modalności
⬇ Wejście (Input)
textimage
⬆ Wyjście (Output)
textcode

Możliwości i zastosowania

Natywne możliwości modelu
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal

Wyniki benchmarków

1 benchmark
RealX-Bench
n/d
📄 DeepEyesV2 paper (arXiv:2511.05271)
Własny benchmark zespołu, wprowadzony razem z modelem; ewaluuje integrację percepcji, wyszukiwania i rozumowania na zadaniach real-world.

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)