DeepEyes-V2

Agentowy model multimodalny od Xiaohongshu (RedNote-hilab) integrujący rozumienie obrazów, wyszukiwanie web i wykonywanie kodu w jednym łańcuchu rozumowania.

🔬 Research🔬 Research only⚖ Open sourceModel multimodalnyModel używający narzędziModel agentowyModel wzrokowy

Parametry

7B / 32B

parametrów

Data premiery

7 listopada 2025

🔬XiaohongshuLab badawczy

Dostęp:DownloadWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

DeepEyes-V2 to agentowy model multimodalny opracowany przez rednote-hilab (laboratorium AI chińskiej platformy społecznościowej Xiaohongshu / RedNote). Model rozszerza koncepcję "Thinking with Images" z DeepEyes v1 o pełną zdolność wywoływania zewnętrznych narzędzi: środowiska wykonawczego kodu Python oraz wyszukiwarki internetowej. Integruje te operacje w pojedynczy łańcuch rozumowania end-to-end.

Trening wykorzystuje dwustopniowy pipeline: faza cold-start ustanawia wzorce użycia narzędzi (przez supervised fine-tuning na starannie dobranych przykładach), po której następuje faza reinforcement learning rafinująca decyzje o wywołaniu narzędzi. Autorzy obserwują, że samo RL bez cold-start nie wystarcza do wzbudzenia stabilnych zachowań narzędziowych. Model bazuje na Qwen-2.5-VL-7B-Instruct lub Qwen-2.5-VL-32B-Instruct jako modelu fundamentowym.

Wraz z modelem zespół wprowadził RealX-Bench — benchmark ewaluacyjny wymuszający integrację percepcji, wyszukiwania i rozumowania w zadaniach z rzeczywistego świata. DeepEyes-V2 wykazuje adaptacyjny dobór narzędzi: dla zadań percepcyjnych częściej wybiera operacje na obrazach (zoom-in), dla zadań matematycznych — obliczenia numeryczne w kodzie. Po treningu RL model potrafi łączyć narzędzia w złożone sekwencje.

Klasyfikacja

Model multimodalnyModel używający narzędziModel agentowyModel wzrokowy

Dostęp i wdrożenie

Pobieranie

LokalnieChmura

Wagi: Open source

Kluczowe parametry

🧩 Parametry: 7B / 32B

✓ Narzędzia · ✓ Fine-tuning

📥 Wejście: tekst, obraz

Specyfikacja techniczna

Parametry

7B / 32B

parametrów

Licencja

Apache-2.0

Wymagania sprzętowe

Trening: 32+ GPU (4 nodes × 8) dla wariantu 7B; 64+ GPU (8 nodes × 8) dla 32B. Min. 1200 GB RAM na node ze względu na obrazy w wysokiej rozdzielczości w datasetach V* i ArxivQA.

Funkcje:✓ Używanie narzędzi✓ Fine-tuning

Modalności

⬇ Wejście (Input)

textimage

⬆ Wyjście (Output)

textcode