Yann LeCun, laureat Nagrody Turinga i założyciel AMI Labs, w podcaście Unsupervised Learning opublikowanym w maju 2026 r. ogłosił, że obecne architektury robotyczne oparte na dużych modelach językowych są „ślepą uliczką". Przewiduje, że konieczność zmiany paradygmatu stanie się „zupełnie oczywista" dla całej branży do początku 2027 roku.
Najważniejsze w skrócie
- LeCun określił modele Vision-Language-Action (VLA) jako „kruche" i fundamentalnie nieefektywne pod względem danych
- AMI Labs, jego nowy startup z rundą 1,03 mld USD, opracowuje architekturę JEPA i model LeWorldModel (LeWM)
- Model LeWM ma 15 mln parametrów i używa nowego regularyzatora SIGReg, który rozwiązuje problem kolapsowania reprezentacji
- LeCun ocenił agentyczne LLM jako „z gruntu niebezpieczne" — brak wewnętrznego modelu świata uniemożliwia przewidywanie konsekwencji działań
- Cel AMI Labs: demonstracja hierarchicznych modeli świata w ciągu 12–18 miesięcy
VLA — dlaczego to nie działa
Branża robotyczna przez ostatnie dwa lata postawiła na modele Vision-Language-Action. Idea jest prosta: robot widzi obraz z kamery, interpretuje go przez duży model językowy i wydaje komendy silnikom. Figure AI, Physical Intelligence, Google DeepMind — wszyscy budują na tej koncepcji.
LeCun twierdzi, że to podejście ma fundamentalną wadę. VLA modele wymagają ogromnych ilości danych treningowych i mimo to zawodzą przy drobnych zmianach środowiska. Porównał sytuację z branżą autonomicznej jazdy: mimo milionów godzin danych treningowych problem wciąż nie jest rozwiązany. Tymczasem 17-latek uczy się prowadzić samochód w kilkadziesiąt godzin.
Źródłem problemu jest, według LeCuna, brak wewnętrznego modelu świata. Modele autoregresywne — zarówno językowe jak i akcji — przewidują kolejne tokeny lub ruchy, ale nie rozumieją fizycznych przyczyn i skutków. W środowisku ciągłym, zaszumionym i wielowymiarowym taka architektura nie skaluje się do prawdziwej autonomii.
JEPA zamiast generatywnych modeli
Alternatywą proponowaną przez LeCuna jest Joint Embedding Predictive Architecture (JEPA). Zamiast generować piksele lub tokeny, JEPA operuje w przestrzeni abstrakcyjnych reprezentacji — ignoruje „szum pikselowy" i skupia się na kauzalnej fizyce sceny.
Nowy model AMI Labs — LeWorldModel (LeWM) — ma 15 milionów parametrów. Dla porównania: modele VLA stosowane przez czołowe firmy robotyczne mają zazwyczaj od kilku do kilkunastu miliardów parametrów. Efektywność obliczeniowa to jeden z kluczowych argumentów LeCuna za JEPA.
Krytycznym elementem LeWM jest SIGReg — Sketched-Isotropic-Gaussian Regularizer. To mechanizm, który wymusza na enkoderze maksymalizację informacji w wyjściowych reprezentacjach, zamiast kolapsowania do stałej wartości. Kolapsowanie reprezentacji to chroniczny problem modeli JEPA — enkoder uczy się zwracać tę samą odpowiedź dla wszystkich wejść, co niszczy zdolność do rozróżniania stanów świata. SIGReg ma ten problem rozwiązywać bez uciekania się do generowania pełnych reprezentacji.
Agentyczne LLM jako zagrożenie bezpieczeństwa
LeCun poszedł dalej niż krytyka wydajności — zaatakował bezpieczeństwo agentycznych LLM. Jego teza: modele autoregresywne są „z natury niebezpieczne" w zastosowaniach fizycznych.
Dlaczego? Model językowy działa świetnie w domenach zdyskretyzowanych — matematyce, kodowaniu, tłumaczeniu — gdzie język jest nośnikiem wnioskowania. Świat fizyczny jest inny: ciągły, zaszumiony, wymaga planowania z optymalizacją funkcji kosztów. LLM bez wewnętrznego modelu świata nie może przewidzieć, jakie fizyczne konsekwencje wywołają jego decyzje.
Konsekwencja praktyczna: takich systemów nie można zdaniem LeCuna wdrażać w środowiskach wysokiego ryzyka — specjalistycznej opiece zdrowotnej, produkcji przemysłowej, robotyce usługowej. To bezpośrednie uderzenie w strategie firm takich jak Figure AI czy Apptronik, które budują na modelach zbliżonych do VLA.
AMI Labs kontra „LLM-pill"
AMI Labs zebrało 1,03 mld USD rundy seed — jedną z największych w historii AI. LeCun zapowiada demonstrację ogólnych metodologii treningowych dla hierarchicznych modeli świata w ciągu 12–18 miesięcy od momentu wywiadu.
Cel jest ambitny. Hierarchiczny model świata to system, który potrafi planować na wielu poziomach abstrakcji jednocześnie — od niskopoziomowych ruchów motorycznych do wysokopoziomowych celów zadania. To brakujący element, który oddziela dzisiejsze roboty od prawdziwie generalnych maszyn.
Rynek na razie stawia na skalowanie transformerów. Większość inwestycji w robotykę płynie do firm budujących na Large Language Models i architekturach zbliżonych do GPT. LeCun jest w wyraźnej mniejszości — i to jest dokładnie ten scenariusz, w którym w historii AI najciekawsze przewidywania się sprawdzają. Albo nie sprawdzają.
Dlaczego to ważne?
LeCun nie jest outsiderem. Jest laureatem Nagrody Turinga, jednym z ojców głębokiego uczenia i przez lata kierował badaniami AI w Meta. Kiedy mówi, że całe podejście branży jest błędne — warto słuchać, nawet jeśli się nie zgadzać.
Jego argumenty mają konkretną bazę techniczną. Problem danych w robotyce jest realny — firmy takie jak Generalist AI inwestują setki milionów dolarów w zbieranie danych, a modele wciąż są kruche poza wąsko zdefiniowanymi środowiskami. Problem bezpieczeństwa agentycznych LLM w fizycznych systemach jest przedmiotem coraz poważniejszych dyskusji w środowiskach bezpieczeństwa AI.
Jeżeli LeCun ma rację choćby częściowo — a branża to rozpozna do 2027 roku — konsekwencje będą gigantyczne dla firm, które postawiły całe roadmapy na architekturach VLA. AMI Labs z 1 mld USD za sobą jest gotowe na tę zmianę.
Co dalej?
- 12–18 miesięcy (od maja 2026): AMI Labs ma zaprezentować ogólne metodologie treningowe dla hierarchicznych modeli świata
- Trwające prace nad LeWorldModel: kolejne wersje z lepszym SIGReg i rozszerzeniem na środowiska 3D
- Weryfikacja przez rynek: Figure AI, Physical Intelligence i Google DeepMind kontynuują skalowanie VLA — wyniki wdrożeń w 2026–2027 będą empirycznym testem tezy LeCuna





