Badacze z uniwersytetów Tsinghua oraz CUHK MMLab stworzyli Vision-DeepResearch – nowy, multimodalny paradygmat wyszukiwania, który drastycznie zmienia sposób, w jaki agenci AI przetwarzają informacje wizualne. Zamiast jednorazowo zgadywać kontekst z całego obrazka, nowy system aktywnie wycina jego fragmenty, weryfikuje je w sieci i łączy z wieloetapową analizą tekstu. To przełom, który eliminuje problem sztucznych halucynacji na rzecz rzetelnej weryfikacji faktów, deklasując dotychczasowe rynkowe standardy.
Najważniejsze w skrócie
- Skuteczność małych modeli: Model Vision-DeepResearch o parametrach 30B znacząco przewyższa potężne agentowe przepływy oparte na technologiach od OpenAI, a także Gemini 1.5 Pro czy Claude 4.
- Koniec z „leniwym wyszukiwaniem”: Model jest zmuszany do wielokrotnego kadrowania obrazu (Multi-turn Visual Forcing) i krzyżowej weryfikacji dowodów, zamiast polegać wyłącznie na wbudowanej wiedzy.
- Nowy benchmark rynkowy: Wprowadzono VDR-Bench – zestaw 2000 skomplikowanych pytań z 10 różnych dziedzin wizualnych, który uniemożliwia modelom „oszukiwanie” samą analizą tekstu.
- Skok wydajności o ponad 10%: W kategorii modeli 8B, nowa architektura poprawiła średnie wyniki o 10,4% w porównaniu do Qwen2-VL-8B-Instruct.
Jak agenci AI uczą się wnikliwości
Obecne multimodalne modele językowe cierpią na dość prozaiczny problem: próbują objąć całe zdjęcie jednym „rzutem oka”. Prowadzi to do ogromnego szumu informacyjnego oraz drastycznego spadku wskaźnika trafień (hit-rate) w przypadku drobnych, istotnych szczegółów. Co więcej, ich interakcje z narzędziami zewnętrznymi są zazwyczaj zbyt płytkie, by sprostać złożonym zapytaniom analitycznym.
Vision-DeepResearch całkowicie przebudowuje ten proces. Zamiast analizować jedno gigantyczne ujęcie, model działa jak człowiek wpatrujący się w chaotyczne środowisko. Automatycznie identyfikuje i kadruje kluczowe elementy (Multi-scale Visual Cropping), a następnie przeprowadza niezależne wyszukiwania wizualne dla każdego detalu. Odwiedza strony internetowe, weryfikuje tekst pod kątem zgodności z obrazem odrzucając błędne wyniki, a na koniec integruje wszystko w spójną odpowiedź. Ten wieloetapowy proces pozwala na zachowanie ciągłości logicznej.
Trening oparty na eksploracji i karaniu „lenistwa”
Autorzy udowodnili, że dotychczasowe modele cierpiały na zjawisko „Lazy Search” – polegały na wcześniejszej wiedzy pre-treningowej i niechętnie korzystały z zewnętrznego wyszukiwania wizualnego. Rozwiązaniem okazała się innowacyjna faza trenowania. Wymagała ona nałożenia SFT (Supervised Fine-Tuning) dla chłodnego startu długich trajektorii działania, a następnie wzmocnienia poprzez algorytmy uczenia ze wzmocnieniem (RL). Dzięki temu model został niejako zmuszony do systematycznego drążenia tematu aż do znalezienia poprawnych dowodów empirycznych z sieci.
Dlaczego to ważne?
Przełom polega na tym, że przenosimy ciężar dowodowy z pamięci wewnętrznej modelu na zewnętrzne, rzeczywiste dowody wizualne. Do tej pory systemy AI próbowały odgadywać fakty na podstawie pobieżnego spojrzenia na całe zdjęcie lub krótki prompt użytkownika. Często prowadziło to do groźnych halucynacji w kontekstach, które wymagały inżynieryjnej precyzji. Multimodalna sztuczna inteligencja oparta o architekturę Vision-DeepResearch zmienia ten układ sił, wymuszając proces weryfikacji znany dotąd z zaawansowanego OSINT-u.
Gdy system widzi dziś skomplikowany schemat, unikalny zabytek czy nieoznaczoną część maszynową, nie zgaduje. Aktywnie wycina interesujący go fragment, inicjuje wyszukiwanie obrazem, konfrontuje uzyskane wyniki ze specjalistycznymi stronami, a dopiero na końcu formułuje jednoznaczny, wiarygodny wniosek. To gigantyczna zmiana dla branż takich jak e-commerce, diagnostyka techniczna, wsparcie serwisowe czy medycyna, gdzie detale na poziomie pikseli decydują o użyteczności rozwiązania. Ponadto badacze pokazali wyraźnie, że odpowiednio zaprojektowany przepływ weryfikacji i skupienie na logice kadrowania pozwalają stosunkowo niedużym modelom (klasy 30B) konkurować, a nawet wygrywać z gigantami technologicznymi. Oznacza to potencjalnie dużo tańsze, bardziej niezawodne i wyspecjalizowane agenty w niedalekiej przyszłości.
Co dalej?
- Adaptacja mniejszych modeli do złożonych zadań: Udowodnienie, że model 30B z architekturą agentową potrafi deklasować zamknięte modele największych firm zwiastuje rynkowy wysyp wysoce optymalizowanych rozwiązań Open Source dla analityków.
- Rozszerzenie na analitykę wideo: Sukces metody wycinania i weryfikowania statycznych obrazów najpewniej zostanie wkrótce zintegrowany z ramkami wideo, co pozwoli AI na samodzielny przegląd długich zapisów z monitoringu czy materiałów instruktażowych.
- Nowy standard testowania sztucznej inteligencji: VDR-Bench ma szansę stać się nowym branżowym standardem oceny modeli (zastępując przestarzałe, oparte tylko na tekście zbiory) – wymuszającym udowodnienie tezy wizualnej poprzez wyodrębnienie konkretnego kadru z rzeczywistego szumu.





