Obsługa wielu formatów danych

Spatial Intelligence

2024AktywnyOpublikowany

Inteligencja przestrzenna (spatial intelligence) to paradygmat AI, w którym maszyny postrzegają, rozumują, generują i działają w trójwymiarowym świecie, łącząc wizję komputerową, język i interakcję fizyczną.

Kluczowa innowacja

Przeniesienie inteligencji maszynowej z płaskiego rozumienia obrazu i tekstu do percepcji, wnioskowania, generowania i interakcji w trójwymiarowej przestrzeni - łączące widzenie komputerowe, modele językowe, grafikę 3D i sterowanie ucieleśnione w jeden paradygmat world models.

Kategoria

Obsługa wielu formatów danych

Poziom abstrakcji

Paradygmat

Poziom operacji

ModelSystemSterowanie robotem

Zastosowania

Robotyka humanoidalna i manipulacjaAutonomiczna jazdaGeneratywne modele 3D / światy wirtualneAugmented Reality / Virtual RealitySymulacja i trening robotówEmbodied AI agentsProjektowanie i wizualizacja przestrzenna

Jak działa

Inteligencja przestrzenna realizowana jest przez modele świata (world models), które uczą się reprezentacji 3D z danych wielomodalnych - obrazów, wideo, danych z czujników głębokości, opisów tekstowych i interakcji. Typowy pipeline łączy: (1) percepcję 3D (np. NeRF, Gaussian Splatting, modele głębokości) odzyskującą geometrię z danych 2D, (2) reprezentację świata jako utajoną przestrzeń lub wprost siatkę 3D, (3) rozumowanie i predykcję dynamiki w tej przestrzeni przy użyciu transformerów lub modeli dyfuzyjnych, oraz (4) działanie poprzez generowanie obrazów, scen 3D lub akcji robota (Vision-Language-Action). Modele te trenowane są na ogromnych zbiorach wideo i danych ucieleśnionych, co pozwala im uchwycić zarówno wygląd, jak i fizykę świata.

Rozwiązany problem

Klasyczne modele AI rozumieją tekst i obrazy 2D, ale słabo radzą sobie z trójwymiarową strukturą świata, fizyką, geometrią sceny i konsekwencjami działań fizycznych. Inteligencja przestrzenna adresuje tę lukę, dostarczając maszynom reprezentacji 3D wystarczających do wnioskowania, planowania i działania w przestrzeni - co jest warunkiem koniecznym dla robotyki ogólnego przeznaczenia, środowisk immersyjnych i generatywnej grafiki 3D.

Ewolucja

1983

Howard Gardner - teoria inteligencji wielorakich

Termin 'spatial intelligence' pojawia się w psychologii poznawczej jako jeden z typów inteligencji w teorii Gardnera.

2020

NeRF (Neural Radiance Fields)

Punkt przełomowy

Mildenhall et al. publikują NeRF - przełom w neuralnej rekonstrukcji 3D z obrazów 2D. Ben Mildenhall później współzakłada World Labs.

2023

3D Gaussian Splatting

Kerbl et al. wprowadzają szybką, fotorealistyczną reprezentację 3D istotną dla skalowalnej percepcji przestrzennej.

2024

TED Talk Fei-Fei Li i powstanie World Labs

Punkt przełomowy

W kwietniu 2024 Fei-Fei Li wygłasza TED Talk 'With Spatial Intelligence, AI Will Understand the Real World'. We wrześniu 2024 ogłasza World Labs jako spółkę spatial intelligence, co kanonizuje termin w branży AI.

2024

Google DeepMind Genie 1/2

DeepMind prezentuje generatywne modele światów interaktywnych jako równoległą realizację paradygmatu spatial intelligence.

2025

World Labs Marble

World Labs wypuszcza Marble - produkt generujący spójne, persistentne światy 3D z pojedynczego obrazu, wideo lub promptu tekstowego.

Źródła

With spatial intelligence, AI will understand the real world