AGIBOT ogłasza Genie Envisioner 2.0: modele świata stają się symulatorem fizyki

Szanghajska firma AGIBOT zaprezentowała Genie Envisioner 2.0 (GE 2-Sim) — system, który ma przekształcić modele świata z narzędzi predykcji wideo w pełnoprawne, interaktywne środowiska do szkolenia robotów. To kolejny krok w serii otwartych platform, którymi firma systematycznie buduje infrastrukturę dla ucieleśnionej AI.

Najważniejsze w skrócie

AGIBOT ogłosił GE 2-Sim w ramach tygodnia AGIBOT AI Week (10 kwietnia 2026) jako część szerszego programu open-source dla robotyki ucieleśnionej
System opiera się na frameworku World Action Model (WAM), rozszerzającym tradycyjne modele o akcję jako pierwszoklasową zmienną stanu
Trzy nowe komponenty: EnerVerse-AC (prognoza stanów 4D), GE-Sim (symulator zamkniętej pętli) i EWMBench (benchmark wielowymiarowy)
Mechanizm Real2Edit2Real umożliwia edycję rzeczywistych nagrań i przekształcanie ich w dane treningowe bez fizycznego zbierania nowych danych
Kod i wagi modeli dostępne w repozytorium GitHub projektu Genie Envisioner

Od reprezentacji do operacyjnego środowiska

Standardowe podejście do modeli świata w robotyce koncentrowało się na jednym zadaniu: przewidywaniu następnej klatki wideo na podstawie obserwacji wizualnej. Dla robota uczącego się manipulacji to za mało — samo patrzenie na to, co się stanie, nie zastępuje aktywnego działania i korekty w czasie rzeczywistym.

AGIBOT od kilku lat buduje alternatywę. Oryginalna platforma Genie Envisioner, opisana w raporcie technicznym z sierpnia 2025, zintegrowała naukę polityki działania, ewaluację i symulację w jednym generatywnym frameworku wideo — z modelem bazowym GE-Base wytrenowanym na ponad milionie epizodów manipulacji z zestawu AgiBotWorld. arXiv

GE 2-Sim idzie dalej. Według materiałów opublikowanych przez Humanoids Daily i The Robot Report, firma określa nowy system jako „silnik ewolucji fizycznej" — środowisko, w którym robot może nie tylko obserwować symulowany świat, ale uczyć się w nim w zamkniętej pętli, bez kosztownego zbierania danych w świecie rzeczywistym.

Framework WAM: akcja jako zmienna stanu

Fundamentem technicznym GE 2-Sim jest World Action Model (WAM). Platforma obejmuje trzy rdzennie powiązane moduły zbudowane na wspólnej architekturze modelu fundacyjnego: GE-Base (World Foundation Model), GE-Act (World Action Model) i GE-Sim (World Simulator), uzupełnione frameworkiem ewaluacyjnym EWMBench. alphaXiv

Kluczowa różnica wobec tradycyjnych modeli: WAM traktuje akcję nie jako wyjście polityki, ale jako zmienną w pętli State → Action → State Evolution. Dzięki temu symulator może przewidywać, jak konkretna sekwencja ruchów ramienia robota zmieni stan środowiska — z uwzględnieniem fizycznych i semantycznych spójności sceny.

GE-Act osiąga sterowanie w czasie rzeczywistym, generując 54-krokowe trajektorie momentów obrotowych w ciągu 200 ms na procesorze graficznym klasy konsumenckiej, i wykazuje silną generalizację na różne platformy sprzętowe — w tym Dual Franka i Agilex Cobot Magic — przy zaledwie jednej godzinie demonstracji teleoperacyjnych. arXiv

Trzy nowe komponenty systemu

Genie Envisioner 2.0 wprowadza trzy moduły operacyjne, opisane w materiałach firmy i potwierdzonych w screenshotach z portali branżowych:

EnerVerse-AC (Action-Conditioned Modeling) — to model, który rozumie świat w czterech wymiarach: przestrzeń (3D) plus czas. Jego główna rola to przewidywanie — na podstawie tego, co robot widzi i co zamierza zrobić, model prognozuje, jak środowisko będzie wyglądać po wykonaniu akcji. Dzięki temu robot może „w głowie" sprawdzić skutki swoich ruchów, zanim je wykona.

GE-Sim (Genie Envisioner Sim) — to symulator zamkniętej pętli — środowisko, w którym robot może ćwiczyć miliony razy bez kontaktu z rzeczywistością. Działa jak wirtualny poligon: robot wykonuje akcję, symulator odpowiada tym, co stałoby się w prawdziwym świecie, robot uczy się na wyniku. Najnowsza wersja oparta jest na architekturze Cosmos2 od Nvidia, wstępnie wytrenowanej na zbiorze AgiBotWorld.

EWMBench — o narzędzie pomiarowe — benchmark, który ocenia, jak dobry jest symulator. Sprawdza trzy rzeczy: czy generowane obrazy wyglądają realistycznie, czy akcje robota mają sens fizyczny, oraz czy scena pozostaje spójna w czasie. Bez takiego narzędzia trudno byłoby obiektywnie porównywać różne symulatory i mierzyć postęp. Agibot

Real2Edit2Real: dane bez fizycznego zbierania

Osobnym elementem jest mechanizm Real2Edit2Real. Tradycyjnie rozszerzenie zbioru danych treningowych wymagało wysyłania robotów do nowych środowisk, ręcznego ustawiania scen i zbierania kolejnych nagrań. Real2Edit2Real pozwala na edycję istniejących nagrań z rzeczywistości — zmianę oświetlenia, dodanie przeszkód, modyfikację rozmieszczenia obiektów — i generowanie nowych epizodów treningowych bez fizycznej ingerencji. Firma określa tę funkcję jako „Fidelity-Aware Data Composition", łączącą dane rzeczywiste i syntetyczne w celu zwiększenia zakresu i różnorodności bez proporcjonalnego wzrostu kosztów zbierania.

Kontekst: ekosystem AGIBOT w 2026 roku

GE 2-Sim to część sekwencji ogłoszeń w ramach AGIBOT AI Week, które obejmowały również premierę zestawu danych AGIBOT WORLD 2026 i, wcześniej w tym roku, Genie Sim 3.0. W styczniu 2026, podczas CES, firma zaprezentowała Genie Sim 3.0 — platformę symulacyjną zintegrowaną z NVIDIA Isaac Sim, udostępniającą ponad 10 000 godzin syntetycznych danych i ponad 100 000 scenariuszy symulacyjnych do ewaluacji robotów. PR Newswire

O ile Genie Sim 3.0 koncentruje się na generowaniu środowisk i standaryzacji benchmarków, GE 2-Sim działa na niższym poziomie stosu: to model fundacyjny i symulator odpowiedzialny za uczenie się polityki i zrozumienie dynamiki fizycznej.

Zbliżony kierunek obrały inne firmy — Google DeepMind z projektem Genesis, Boston Dynamics ze środowiskami Isaac Lab czy Physical Intelligence (Pi) z własnym frameworkiem π₀. Różnicą strategiczną AGIBOT jest pełna otwartość kodu: zarówno wagi modeli, jak i kod symulacyjny są publicznie dostępne na GitHub.

Dlaczego to ważne?

Przejście od pasywnych modeli predykcji wideo do aktywnych symulatorów świata jest technicznie nietrywialny. Model, który przewiduje, jak będzie wyglądać scena po ruchu ramienia, to nie to samo co system, który może wielokrotnie testować polityki w tym środowisku, oceniać je według zdefiniowanych metryk i zwracać gradient do aktualizacji modelu.

GE 2-Sim próbuje zamknąć tę lukę, łącząc generatywny model wideo z modułem ewaluacyjnym i pętlą uczenia przez wzmacnianie wewnątrz symulatora. Jeśli tak zdefiniowane środowiska osiągną wystarczającą wierność fizyczną, pozwoli to trenować roboty głównie w syntetyce, a przenosić nauczone polityki do świata rzeczywistego ze znacznie mniejszą liczbą prób fizycznych.

Otwartość całego stosu — od modeli bazowych, przez kod symulatora, aż po benchmark — jest istotna dla ekosystemu badań. Dotychczasowe komercyjne platformy symulacyjne (NVIDIA Isaac, MuJoCo) oferowały albo środowiska fizyczne bez zintegrowanego modelu generatywnego, albo modele generatywne bez zamkniętej pętli ewaluacji. AGIBOT twierdzi, że GE 2-Sim łączy obie strony. Potwierdzenie tej tezy wymagać będzie niezależnych testów porównawczych — dotychczas dostępne wyniki pochodzą przede wszystkim od samej firmy i dotyczą platformy AgiBot G1.

Co dalej?

Niezależna ewaluacja GE-Sim na standardowych benchmarkach manipulacyjnych (Calvin, RoboSuite) pozwoli ocenić, czy deklarowana wierność fizyczna przekłada się na skuteczne transfery Sim2Real
AGIBOT World Challenge na konferencji ICRA 2026 w Wiedniu (maj 2026) z pulą nagród $530 000 USD (ok. 2,1 mln zł) będzie pierwszym zewnętrznym testem jakości zestawu danych AGIBOT WORLD i modeli bazowych
Weryfikacja zarzutu o „embodied scaling law" — czy skalowanie mocy obliczeniowej i danych treningowych w GE 2-Sim rzeczywiście daje przewidywalne, monotonicznie rosnące wyniki robotyki, tak jak w modeli językowych