Inteligencja przestrzenna realizowana jest przez modele świata (world models), które uczą się reprezentacji 3D z danych wielomodalnych - obrazów, wideo, danych z czujników głębokości, opisów tekstowych i interakcji. Typowy pipeline łączy: (1) percepcję 3D (np. NeRF, Gaussian Splatting, modele głębokości) odzyskującą geometrię z danych 2D, (2) reprezentację świata jako utajoną przestrzeń lub wprost siatkę 3D, (3) rozumowanie i predykcję dynamiki w tej przestrzeni przy użyciu transformerów lub modeli dyfuzyjnych, oraz (4) działanie poprzez generowanie obrazów, scen 3D lub akcji robota (Vision-Language-Action). Modele te trenowane są na ogromnych zbiorach wideo i danych ucieleśnionych, co pozwala im uchwycić zarówno wygląd, jak i fizykę świata.
Klasyczne modele AI rozumieją tekst i obrazy 2D, ale słabo radzą sobie z trójwymiarową strukturą świata, fizyką, geometrią sceny i konsekwencjami działań fizycznych. Inteligencja przestrzenna adresuje tę lukę, dostarczając maszynom reprezentacji 3D wystarczających do wnioskowania, planowania i działania w przestrzeni - co jest warunkiem koniecznym dla robotyki ogólnego przeznaczenia, środowisk immersyjnych i generatywnej grafiki 3D.
Termin 'spatial intelligence' pojawia się w psychologii poznawczej jako jeden z typów inteligencji w teorii Gardnera.
Mildenhall et al. publikują NeRF - przełom w neuralnej rekonstrukcji 3D z obrazów 2D. Ben Mildenhall później współzakłada World Labs.
Kerbl et al. wprowadzają szybką, fotorealistyczną reprezentację 3D istotną dla skalowalnej percepcji przestrzennej.
W kwietniu 2024 Fei-Fei Li wygłasza TED Talk 'With Spatial Intelligence, AI Will Understand the Real World'. We wrześniu 2024 ogłasza World Labs jako spółkę spatial intelligence, co kanonizuje termin w branży AI.
DeepMind prezentuje generatywne modele światów interaktywnych jako równoległą realizację paradygmatu spatial intelligence.
World Labs wypuszcza Marble - produkt generujący spójne, persistentne światy 3D z pojedynczego obrazu, wideo lub promptu tekstowego.