InSpatio-WorldFM: Otwarty model 3D rzuca wyzwanie imperium Fei-Fei Li

Chiński zespół badawczy InSpatio, wywodzący się z Uniwersytetu Zhejiang, udostępnił na licencji open-source model WorldFM – interaktywny generator światów 3D działający w czasie rzeczywistym. To bezpośrednie uderzenie w zamknięty, wyceniany na 5 miliardów dolarów projekt World Labs, które ma szansę zdemokratyzować rozwój inteligencji przestrzennej (spatial intelligence) i zrewolucjonizować rynek technologii haptycznych, XR oraz robotyki.

Najważniejsze w skrócie:

Otwarty dostęp: InSpatio-WorldFM udostępnia swój kod na GitHubie, przeciwstawiając się zamkniętemu, komercyjnemu podejściu dominujących graczy z Doliny Krzemowej.
Natywne 3D: Model odchodzi od generowania klatek wideo 2D na rzecz budowania spójnych, trójwymiarowych środowisk z pełną fizyką i oświetleniem.
Nieskończona eksploracja: Dzięki hybrydowemu systemowi pamięci, użytkownicy mogą swobodnie przemieszczać się po wygenerowanym świecie bez utraty spójności geometrycznej środowiska.
Optymalizacja sprzętowa: Narzędzie nie wymaga potężnych klastrów obliczeniowych – renderowanie w czasie rzeczywistym jest możliwe na konsumenckich kartach graficznych klasy RTX 4090.
Drastyczna redukcja kosztów: Trening modelu wymaga zaledwie ułamka zasobów (około 1%) w porównaniu do gigantów generatywnego wideo.

Koniec iluzji wideo. Czas na prawdziwe, natywne środowiska 3D

Ostatnie miesiące w branży sztucznej inteligencji upłynęły pod znakiem fascynacji modelami potrafiącymi generować wideo na podstawie tekstu, takimi jak rozwiązania od OpenAI czy Genie 3. Branża szybko jednak zderzyła się z brutalną rzeczywistością: te modele, choć imponujące wizualnie, w gruncie rzeczy jedynie "zgadują" kolejne piksele na dwuwymiarowej płaszczyźnie (tzw. predykcja 2D oparta na prawdopodobieństwie).

Jak wielokrotnie podkreślał wybitny badacz AI, Yann LeCun, takie systemy nie posiadają faktycznego zrozumienia otaczającego nas świata. Nie znają zasad fizyki, nie rozumieją perspektywy ani trwałości obiektów po ich zniknięciu z kadru. Gdy kamera w wygenerowanym wideo obraca się o 360 stopni, środowisko często ulega całkowitej, halucynogennej transformacji.

Projekt InSpatio-WorldFM (Interactive Spatial World Foundation Model) całkowicie odrzuca to podejście. Zamiast uczyć algorytmu malowania ruchomych obrazków, badacze z Uniwersytetu Zhejiang zmusili go do rekonstrukcji "pierwszych zasad" przestrzeni. Model buduje środowiska 3D, z którymi użytkownik lub agent AI może wchodzić w interakcję: zaglądać pod meble, cofać się, badać tekstury z bliska i manipulować perspektywą. Świat wygenerowany raz, pozostaje spójny geometrycznie i świetlnie. To nie jest już tylko generator mediów; to w pełni funkcjonalny, wirtualny silnik fizyczny. (Kontekst rozszerzony o architekturę modeli generatywnych).

Dawid kontra Goliat: Filozofia Open Source w walce o inteligencję przestrzenną

Wydarzenie to ma ogromne znaczenie ze względu na tło rynkowe. Zaledwie w 2024 roku, ikona sztucznej inteligencji Fei-Fei Li, powołała do życia World Labs – startup skupiający się właśnie na tzw. inteligencji przestrzennej (Spatial Intelligence). Inicjatywa ta błyskawicznie zebrała ogromne fundusze, osiągając astronomiczną wycenę rzędu 5 miliardów dolarów. World Labs działa jednak w modelu zamkniętym, traktując swoją technologię jako ekskluzywny produkt komercyjny, co przypomina wczesne kroki takich gigantów jak Microsoft czy Meta w dziedzinie dużych modeli językowych.

Zespół InSpatio, kierowany przez uznanych profesorów i ekspertów z 20-letnim doświadczeniem w widzeniu komputerowym i algorytmach SLAM (Simultaneous Localization and Mapping), wybrał diametralnie inną drogę. Publikując kod swojego modelu oraz demonstracje na GitHubie, udowodnili, że przyszłość inteligencji przestrzennej nie musi być dyktowana przez korporacyjne silosy. Otwarcie kodu wywołało poruszenie w globalnej społeczności deweloperów, stając się katalizatorem innowacji dla mniejszych zespołów badawczych, które dotychczas były odcięte od technologii tego kalibru.

Technologia pod maską: Pamięć i radykalna optymalizacja

Rozwiązanie problemu braku spójności w długich sekwencjach to inżynieryjny majstersztyk InSpatio. Badacze zastosowali architekturę opartą na tokenach (podobnie jak w LLM), ale przystosowaną do natywnego 3D. Kluczem do sukcesu okazał się system "pamięci hybrydowej".

W tradycyjnych modelach, w miarę wydłużania się czasu generowania, ilość danych przytłacza algorytm, prowadząc do załamania obrazu. InSpatio-WorldFM wykorzystuje jawne "punkty kotwiczenia" w trójwymiarowej przestrzeni (ang. explicit spatial anchor points) połączone z uogólnioną, ukrytą pamięcią referencyjną z przeszłości. Gdy kamera (lub robot) odwraca wzrok od obiektu i wraca do niego po dłuższym czasie, system odwołuje się do geometrycznych kotwic, przypominając sobie dokładny układ pomieszczenia. Daje to modelowi swoisty zmysł "trzech wymiarów", niezależny od aktualnego kąta widzenia.

Co równie istotne, model nie wymaga do działania farm serwerowych wyposażonych w tysiące układów NVIDIA H100. Koszt jego wytrenowania szacuje się na zaledwie 1% kosztów potrzebnych do stworzenia zaawansowanych modeli wideo 2D. Architektura została tak zoptymalizowana, aby renderowanie przestrzeni i odpytywanie przestrzenne (spatial reasoning) mogło odbywać się w czasie rzeczywistym na urządzeniach brzegowych, sprzęcie XR czy standardowych układach GPU takich jak RTX 4090.

Dlaczego to ważne?

Stworzenie otwartego, spójnego modelu 3D to potężny przełom, który wykracza daleko poza generowanie ładnych widokówek w wirtualnej rzeczywistości. Obecnie największym wąskim gardłem w rozwoju sztucznej inteligencji, a w szczególności dziedziny znanej jako Physical AI (fizycznej sztucznej inteligencji i robotyki ucieleśnionej), jest drastyczny deficyt danych 3D. O ile internet jest pełen tekstów i płaskich materiałów wideo, o tyle wysokiej jakości, oznaczonych interakcji w trzech wymiarach drastycznie brakuje.

InSpatio-WorldFM działa jak maszynka do produkcji syntetycznych, ale fizycznie poprawnych światów. Pozwala to na symulowanie milionów scenariuszy dla autonomicznych pojazdów, dronów ratunkowych czy robotów humanoidalnych w ułamku sekundy, bez ryzyka uszkodzenia sprzętu w świecie rzeczywistym. Model staje się swego rodzaju "silnikiem danych 3D", przełamując wieloletni impas w branży.

Z biznesowego punktu widzenia, udostępnienie tego narzędzia na licencji open-source dramatycznie zmienia ROI dla firm technologicznych. Startup, który chce stworzyć aplikację dla inteligentnych okularów (jak np. Meta Ray-Ban), nie musi już licencjonować drogich API od korporacji z Doliny Krzemowej ani budować własnego silnika od zera. Demokratyzacja technologii na tym poziomie oznacza, że kolejne rewolucyjne aplikacje w obszarze cyfrowych bliźniaków (digital twins) czy metawersum powstaną szybciej i będą znacznie tańsze we wdrożeniu.

Co dalej?

Kolejne kroki dla projektu i całej branży rysują się bardzo konkretnie:

Wzbogacenie szczegółowości: InSpatio planuje w niedalekiej przyszłości opublikować więcej detali technicznych, udostępnić zaktualizowane, powiększone wagi modeli oraz narzędzia do głębszej edycji tekstur.
Aplikacje ucieleśnione (Embodied AI): Oczekuje się wysypu nowych projektów z zakresu robotyki, które wykorzystają otwarty model WorldFM jako swój wirtualny poligon doświadczalny do nauki nawigacji i manipulacji obiektami.
Integracja z systemami czasu rzeczywistego: Społeczność open-source prawdopodobnie szybko zaadaptuje technologię jako silnik symulacyjny w zaawansowanych systemach rozszerzonej rzeczywistości (XR), pozwalając na płynne, dynamiczne interakcje ze środowiskiem bez opóźnień (lagów). Opowieść o sztucznej inteligencji rozumiejącej naszą przestrzeń właśnie wkroczyła w zupełnie nowy rozdział.

Źródło: Informacje oparte na publikacjach i materiałach prasowych projektów InSpatio-WorldFM oraz World Labs, GitHub.