Dwa zespoły z Tsinghua University opublikowały w maju 2026 roku zestawy testowe EgoIntrospect i IPIBench, mierzące zdolność dużych modeli multimodalnych do rozumienia stanów wewnętrznych użytkownika i proaktywnego działania w czasie rzeczywistym. Wyniki są jednoznaczne: żaden z testowanych modeli nie zdał obu egzaminów.
Najważniejsze w skrócie
- EgoIntrospect: pierwszy egocentryczny dataset do rozumienia wewnętrznych stanów użytkownika — 180 godzin nagrań od 60 uczestników z synchronizowanym wideo, dźwiękiem, spojrzeniem, ruchem i sygnałami fizjologicznymi
- IPIBench: pierwszy benchmark oceniający proaktywną inteligencję MLLM w strumieniach wideo — trzy kategorie zadań: monitorowanie, zarządzanie zadaniami oraz przeplatane zapytania reaktywne i proaktywne
- Oba zestawy testów ujawniają te same dwie słabości modeli: niezdolność do wnioskowania o stanach wewnętrznych użytkownika i niestabilne wyzwalanie proaktywnych reakcji
- IPI-Agent — framework działający bez dodatkowego treningu, zaproponowany przez autorów IPIBench — poprawia wyniki wszystkich testowanych modeli we wszystkich kategoriach
- Dataset EgoIntrospect będzie publicznie dostępny. IPIBench opisano w prepryncie arXiv:2605.27074
Czego brakuje dzisiejszym asystentom AI
Dzisiejsze duże modele językowe są zaprojektowane jako systemy reaktywne — czekają na pytanie, odpowiadają, kończą. Taki model sprawdza się w chatbocie na stronie internetowej, ale zupełnie nie nadaje się do inteligentnych okularów AR, asystenta domowego czy robota humanoidalnego. Tam nie ma ekranu ani klawiatury — jest użytkownik w ruchu, ze zmieniającym się nastrojem, celem i kontekstem.
Badacze z laboratorium MEOW na Tsinghua University postawili to pytanie wprost: czy współczesne modele multimodalne potrafią zrozumieć, czego użytkownik potrzebuje, zanim sam o to zapyta? I kiedy powinny się odezwać bez zaproszenia? Odpowiedzi szukali w dwóch niezależnych projektach badawczych, opublikowanych w maju 2026 roku.
EgoIntrospect: nagrać człowieka od środka
Pierwsza praca — EgoIntrospect (arXiv:2605.17262, złożona 17 maja 2026) — skupia się na etapie wcześniejszym: czy model w ogóle rozumie, co dzieje się w głowie użytkownika?
Zespół zebrał 180 godzin nagrań od 60 uczestników, każdy nagrywał się średnio przez 3 godziny. Kluczową innowacją jest wielomodalność źródła — każde nagranie synchronizuje pięć strumieni danych jednocześnie: wideo z pierwszej osoby (egocentric), dźwięk otoczenia, śledzenie spojrzenia, ruch ciała oraz sygnały fizjologiczne. Uczestnicy sami oznaczali swoje stany wewnętrzne — które momenty były emocjonalnie znaczące, kiedy mieli określone intencje interakcji z asystentem, kiedy sięgali po pamięć krótko- lub długoterminową.
Na bazie tych danych badacze zbudowali benchmark w trzech obszarach. Pierwszy testuje, czy model potrafi rozpoznać stan emocjonalny użytkownika z danych egocentrycznych. Drugi sprawdza rozumienie intencji — czy model wie, kiedy użytkownik chce uzyskać pomoc i jakiego rodzaju. Trzeci dotyczy pamięci poznawczej — czy model rozumie, że użytkownik zapomniał lub potrzebuje przypomnienia bez wyraźnej prośby.
Wyniki są jednoznaczne: żaden z testowanych modeli multimodalnych nie radzi sobie skutecznie z wnioskowaniem o subiektywnych stanach wewnętrznych użytkownika. Modele tracą na połączeniu wielu modalności — same nagrania wideo dają im zbyt mało — gdy dodaje się spojrzenie i sygnały fizjologiczne, modele nie potrafią ich zintegrować.
IPIBench: AI na żywo, nie na replay
Druga praca — IPIBench (arXiv:2605.27074, złożona 26 maja 2026) — przenosi problem do bardziej dynamicznego środowiska: co się dzieje, gdy model musi monitorować ciągły strumień wideo i jednocześnie reagować proaktywnie i reaktywnie?
Istniejące testy oceniają modele na izolowanych, skończonych fragmentach wideo — model oglądał klip, potem odpowiadał na pytania. W IPIBench wideo jest ciągłym strumieniem, a instrukcje użytkownika mogą się pojawiać w dowolnym momencie i zmieniać wcześniejsze zadania. Wyobraź sobie: użytkownik mówi „przypomnij mi, gdy woda się zagotuje" — a chwilę później zmienia zdanie i prosi o przypomnienie o leku. Model musi anulować pierwsze zadanie, zarejestrować nowe i pilnować obu kontekstów jednocześnie.
Benchmark pokrywa trzy typy zadań. Proaktywne monitorowanie to przypadki, gdzie model sam powinien zainicjować reakcję w odpowiednim momencie — bez pytania. Zarządzanie proaktywnymi zadaniami obejmuje modyfikację, anulowanie i śledzenie wielu równoległych poleceń. Trzecia kategoria miesza zadania reaktywne z proaktywnymi — i tu modele tracą koordynację najsilniej.
Ocena reprezentatywnych modeli multimodalnych ujawnia dwie powtarzające się słabości. Po pierwsze: niestabilne wyzwalanie proaktywne — modele albo nie reagują wcale, albo reagują zbyt wcześnie lub zbyt późno. Po drugie: słaba koordynacja między trybem reaktywnym i proaktywnym — gdy użytkownik zadaje nowe pytanie, model traci wątek aktywnego zadania proaktywnego.
IPI-Agent jako remedium
Autorzy IPIBench nie poprzestali na diagnozie. Zaproponowali IPI-Agent — framework działający bez potrzeby dodatkowego treningu. Działa na dwóch warstwach. Pierwsza to warstwa zarządzania interakcją, która rozdziela sygnały wejściowe na dwa strumienie: reaktywny (to, co użytkownik właśnie powiedział) i proaktywny (zadania zarejestrowane wcześniej, oczekujące na wyzwolenie). Druga to mechanizm bramkowania temporalnego — zanim model zdecyduje się odezwać proaktywnie, sprawdza historię poprzednich zadań i aktualną zawartość wideo. Eksperymenty pokazują, że IPI-Agent konsekwentnie poprawia wyniki wszystkich testowanych modeli w każdej z trzech kategorii — bez modyfikacji wag.
Dlaczego to ważne?
Obydwa zestawy badań dotykają tego samego problemu z dwóch stron. EgoIntrospect pyta: czy AI rozumie człowieka? IPIBench pyta: czy AI umie działać we właściwym momencie? Dopóki modele nie zdadzą obu testów, nie będą nadawać się do niczego więcej niż standardowy chatbot.
To nie jest problem mocy obliczeniowej — modele już teraz przetwarzają wideo w czasie rzeczywistym. Problem jest głębszy: istniejące modele multimodalne traktują człowieka jak obiekt w kadrze, nie jak podmiot z emocjami, intencjami i pamięcią. EgoIntrospect kwantyfikuje lukę w rozumieniu. IPIBench kwantyfikuje lukę w koordynacji. Razem dają społeczności badawczej dwa konkretne punkty pomiaru, których do tej pory brakowało.
Dla branży urządzeń wearable i robotyki domowej konsekwencja jest bezpośrednia: hardware jest coraz bardziej gotowy, modele — nie. Luka benchmarkowa jest teraz precyzyjnie zdefiniowana, co jest warunkiem koniecznym do jej zamknięcia.
Co dalej?
- Dataset EgoIntrospect zostanie publicznie udostępniony według zapowiedzi w prepryncie — autorzy opublikowali stronę projektu — konkretna data nie została ogłoszona
- IPI-Agent działa bez potrzeby retreningu — Google DeepMind, Meta AI i Anthropic mogą zintegrować framework z istniejącymi modelami bez kosztów dodatkowego treningu
- Oba benchmarki wyznaczają nowe minimum oceny asystentów AI dla scenariuszy wearable i robotyki domowej — kolejne generacje modeli będą mierzone tymi testami





