
Agentowy model multimodalny od Xiaohongshu (RedNote-hilab) integrujący rozumienie obrazów, wyszukiwanie web i wykonywanie kodu w jednym łańcuchu rozumowania.
🔬 Research🔬 Research only⚖ Open sourceModel multimodalnyModel używający narzędziModel agentowyModel wzrokowy
Parametry
7B / 32B
parametrów
Data premiery
7 listopada 2025
Dostęp:DownloadWdrożenie:💻 Lokalnie☁ Cloud
Przegląd
Klasyfikacja
Model multimodalnyModel używający narzędziModel agentowyModel wzrokowy
Dostęp i wdrożenie
Pobieranie
LokalnieChmura
Wagi: Open source
Kluczowe parametry
🧩 Parametry: 7B / 32B
✓ Narzędzia · ✓ Fine-tuning
📥 Wejście: tekst, obraz
Specyfikacja techniczna
Parametry
7B / 32B
parametrów
Licencja
Apache-2.0
Wymagania sprzętowe
Trening: 32+ GPU (4 nodes × 8) dla wariantu 7B; 64+ GPU (8 nodes × 8) dla 32B. Min. 1200 GB RAM na node ze względu na obrazy w wysokiej rozdzielczości w datasetach V* i ArxivQA.
Funkcje:✓ Używanie narzędzi✓ Fine-tuning
Modalności
⬇ Wejście (Input)
textimage
⬆ Wyjście (Output)
textcode
Możliwości i zastosowania
Natywne możliwości modelu
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Wyniki benchmarków
1 benchmark
RealX-Bench
n/d
📄 DeepEyesV2 paper (arXiv:2511.05271)
Własny benchmark zespołu, wprowadzony razem z modelem; ewaluuje integrację percepcji, wyszukiwania i rozumowania na zadaniach real-world.
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)