Rekurencyjne doskonalenie AI — czym jest RSI i jak działa

Czym jest rekurencyjne doskonalenie AI

Pojęcie RSI sięga 1966 roku, gdy matematyk I. J. Good sformułował ideę „ultrainteligentnej maszyny", która potrafiłaby projektować jeszcze lepsze maszyny — prowadząc do wybuchu inteligencji, który pozostawiłby człowieka daleko w tyle. Przez dekady RSI pozostawało bardziej filozoficznym eksperymentem myślowym niż inżynierskim wyzwaniem.

Dziś sytuacja jest inna. Large Language Modele (LLM) — takie jak GPT, Gemini, Claude czy Grok — piszą kod na potrzeby kolejnych wersji siebie. W lutym 2026 roku OpenAI poinformował, że GPT‑5.3‑Codex pomógł w tworzeniu samego siebie: debugował trening, zarządzał wdrożeniem, analizował wyniki ewaluacji. Anthropic twierdzi, że większość kodu firmy jest teraz pisana przez Claude Code. Oba systemy nadal wymagają ludzkiego nadzoru.

RSI to jednak spektrum, a nie stan binarny. W najścisłszym sensie oznacza systemy, które potrafią ulepszać nie tylko swoje wyjścia, ale sam proces doskonalenia się — generować pomysły, oceniać wyniki i modyfikować własne metody bez żadnego ludzkiego kierowania. Według tej definicji żaden z obecnych systemów nie spełnia kryteriów w pełni.

Jak działa RSI — etapy zamykania pętli

Badacze od dekad kładli podwaliny pod RSI. Algorytmy uczenia maszynowego automatycznie dostrajają parametry programów. Algorytmy ewolucyjne dywersyfikują i iterują rozwiązania projektowe. AutoML zautomatyzował aspekty pipelinu, w którym modele są strukturyzowane, trenowane i oceniane.

Dziś wyróżnia się kilka poziomów zamknięcia pętli:

Poziom wyjść — model pomaga pisać kod kolejnej wersji siebie (GPT-5.3-Codex, Claude Code). Ludzie nadzorują każdy krok.
Poziom odkrywania algorytmów — system automatycznie eksploruje przestrzeń rozwiązań (AlphaEvolve). Ludzie ustalają cele i metryki.
Poziom samej architektury agenta — agent może modyfikować własny kod i mechanizmy uczenia się (Darwin Gödel Machines). Pętla jest bliżej zamknięcia.
Poziom pełnego cyklu badań — od hipotezy, przez eksperyment, po recenzję (AI Scientist). Integracja z systemem wiedzy.

Kluczowe projekty i komponenty

AlphaEvolve (Google DeepMind) to agent kodujący do odkryć naukowych i algorytmicznych. Używa LLMów do kierowania ewolucją rozwiązań — od optymalizacji architektur sieci neuronowych, przez harmonogramowanie centrów danych, po projektowanie chipów. Matej Balog z Google DeepMind podkreśla, że system wielokrotnie zaskoczył swój własny zespół odkryciami nieobejmującymi ludzkiej intuicji.

Darwin Gödel Machines (DGM) — projekt badaczy z University of British Columbia i Sakana AI. Agenty używają algorytmów ewolucyjnych do doskonalenia agentów kodujących opartych na LLM. Co kluczowe: agenty mogą zmieniać własny kod (choć nie bazowy LLM), a nowsza wersja potrafi nawet modyfikować swoje meta-mechanizmy samodoskonalenia.

AI Scientist to projekt tego samego zespołu z University of British Columbia i Sakana AI, opublikowany w Nature w marcu 2026. Idzie o krok dalej niż DGM: zamiast doskonalić tylko kod agenta, automatyzuje cały cykl naukowy — od wygenerowania hipotezy, przez przeprowadzenie eksperymentów w oprogramowaniu i napisanie artykułu, aż po jego autonomiczną recenzję. To istotne, bo w klasycznym RSI wąskim gardłem jest właśnie ocena: ktoś musi zdecydować, czy wynik jest dobry. AI Scientist próbuje zamknąć tę pętlę bez człowieka.

Ricursive Intelligence to startup założony przez współtwórców AlphaChip — wcześniejszego systemu Google DeepMind do projektowania układów scalonych. Misja: używać AI do projektowania lepszych chipów, na których trenuje się jeszcze lepsza AI. To szczególnie wyraźny przykład RSI w sprzęcie: mocniejszy chip → szybszy trening → lepszy model → lepszy projekt chipa. Współzałożycielka Azalia Mirhoseini zapowiada skrócenie cyklu projektowania z 1–2 lat do dni. Plan zakłada trzy fazy: najpierw wspomaganie ludzkich projektantów, następnie pełna automatyzacja dla firm bez własnych zespołów hardware, a w fazie trzeciej — rekurencyjne zamknięcie pętli, wciąż pod nadzorem człowieka.

Różnice względem innych podejść

RSI różni się od standardowego AutoML i podejść finetuningowych kilkoma kluczowymi aspektami. AutoML automatyzuje architekturę sieci i hiperparametry — ale cel definiuje człowiek. RLHF dostosowuje zachowanie modelu na danych ludzkich. AlphaEvolve i DGM idą dalej: generują nowe algorytmy i modyfikują kod agenta. Pełne RSI (teoretyczne) wymagałoby systemu zdolnego do redefinicji samej przestrzeni problemu — włącznie z celami i metrykami sukcesu.

Zastosowania

Optymalizacja algorytmów — AlphaEvolve odkrywa algorytmy przewyższające ludzkie rozwiązania w matematyce, harmonogramowaniu i projektowaniu chipów.
Automatyzacja badań naukowych — AI Scientist zamyka pętlę od hipotezy po recenzję artykułu.
Tworzenie oprogramowania — Claude Code i GPT-5.3-Codex skracają czas debugowania i wdrożenia.
Projektowanie sprzętu AI — Ricursive Intelligence dąży do redukcji cyklu projektowania chipów z lat do dni.

Ograniczenia

Bariery są znaczące. Jeff Clune z University of British Columbia przyznaje, że AI jest „jedynie przyzwoite" w generowaniu, implementowaniu i ocenianiu pomysłów. Dean Ball z Foundation for American Innovation zwraca uwagę, że systemy AI wciąż nie dorównują najlepszym ludzkim naukowcom: „Może w końcu zautomatyzują geniuszy — ale nie w przyszłym roku."

Nathan Lambert z Allen Institute for AI wprowadza pojęcie lossy self-improvement (LSI) — „stratnego doskonalenia". Argumentuje, że rosnąca złożoność dużych systemów AI powoduje coraz większe tarcia w procesie doskonalenia, spowalniając koło zamachowe zamiast je przyspieszać.

Pełne RSI wymaga nie tylko projektowania oprogramowania i chipów, ale budowania centrów danych, zasilania elektrowni, wydobycia metali. Wiedza jest rozproszona i często milcząca: zdolności producenta chipów TSMC wyłaniają się ze zbiorowej inteligencji 90 000 pracowników. Badacze z Meta — Jason Weston i Jakob Foerster — proponują alternatywę: co-improvement (współdoskonalenie), utrzymanie człowieka w pętli dla szybszego i bezpieczniejszego postępu.

Dlaczego to ważne

RSI jest centralnym zagadnieniem bezpieczeństwa AI. David Scott Krueger z University of Montreal, który zbadał opinie 25 ekspertów AI na temat automatyzacji badań, ostrzega: prawie wszyscy dopuszczają możliwość eksplozji inteligencji, a firmy AI prawdopodobnie będą trzymać samodoskonalące się modele wewnętrznie. Założona przez niego organizacja Evitable postuluje globalne wstrzymanie rozwoju AI, gdy 99% kodu jest pisane przez AI — granicę, którą jego zdaniem „może właśnie przekraczamy".

Paradoksalnie, sam Clune — entuzjasta RSI — mówi, że chętnie „oddałby swoje hobby, żeby wyleczyć raka". Wskazuje też na ewolucyjny scenariusz: RSI może nie wyglądać jak jeden wielki mózg rosnący w nieskończoność, ale jak eksplozja kambryjska sztucznych form życia — zróżnicowanych agentów tworzących własne ekosystemy, kultury i gospodarki. Ludzcy naukowcy nie znikną z dnia na dzień — ich rola ewoluuje od niskopoziomowych zadań przez kierowanie badaniami po strategiczny nadzór.