Robocikowo>ROBOCIKOWO
17 maja 2026 · 5 min lekturyrecursive self-improvementRSIintelligence explosion

Rekurencyjne doskonalenie AI — jak systemy uczą się budować lepsze wersje siebie

Rekurencyjne doskonalenie AI — jak systemy uczą się budować lepsze wersje siebie

Czym jest rekurencyjne doskonalenie AI

Pojęcie RSI sięga 1966 roku, gdy matematyk I. J. Good sformułował ideę „ultrainteligentnej maszyny", która potrafiłaby projektować jeszcze lepsze maszyny — prowadząc do wybuchu inteligencji, który pozostawiłby człowieka daleko w tyle. Przez dekady RSI pozostawało bardziej filozoficznym eksperymentem myślowym niż inżynierskim wyzwaniem.

Dziś sytuacja jest inna. Large Language Modele (LLM) — takie jak GPT, Gemini, Claude czy Grok — piszą kod na potrzeby kolejnych wersji siebie. W lutym 2026 roku OpenAI poinformował, że GPT‑5.3‑Codex pomógł w tworzeniu samego siebie: debugował trening, zarządzał wdrożeniem, analizował wyniki ewaluacji. Anthropic twierdzi, że większość kodu firmy jest teraz pisana przez Claude Code. Oba systemy nadal wymagają ludzkiego nadzoru.

RSI to jednak spektrum, a nie stan binarny. W najścisłszym sensie oznacza systemy, które potrafią ulepszać nie tylko swoje wyjścia, ale sam proces doskonalenia się — generować pomysły, oceniać wyniki i modyfikować własne metody bez żadnego ludzkiego kierowania. Według tej definicji żaden z obecnych systemów nie spełnia kryteriów w pełni.

Jak działa RSI — etapy zamykania pętli

Badacze od dekad kładli podwaliny pod RSI. Algorytmy uczenia maszynowego automatycznie dostrajają parametry programów. Algorytmy ewolucyjne dywersyfikują i iterują rozwiązania projektowe. AutoML zautomatyzował aspekty pipelinu, w którym modele są strukturyzowane, trenowane i oceniane.

Dziś wyróżnia się kilka poziomów zamknięcia pętli:

  • Poziom wyjść — model pomaga pisać kod kolejnej wersji siebie (GPT-5.3-Codex, Claude Code). Ludzie nadzorują każdy krok.
  • Poziom odkrywania algorytmów — system automatycznie eksploruje przestrzeń rozwiązań (AlphaEvolve). Ludzie ustalają cele i metryki.
  • Poziom samej architektury agentaagent może modyfikować własny kod i mechanizmy uczenia się (Darwin Gödel Machines). Pętla jest bliżej zamknięcia.
  • Poziom pełnego cyklu badań — od hipotezy, przez eksperyment, po recenzję (AI Scientist). Integracja z systemem wiedzy.

Kluczowe projekty i komponenty

AlphaEvolve (Google DeepMind) to agent kodujący do odkryć naukowych i algorytmicznych. Używa LLMów do kierowania ewolucją rozwiązań — od optymalizacji architektur sieci neuronowych, przez harmonogramowanie centrów danych, po projektowanie chipów. Matej Balog z Google DeepMind podkreśla, że system wielokrotnie zaskoczył swój własny zespół odkryciami nieobejmującymi ludzkiej intuicji.

Darwin Gödel Machines (DGM) — projekt badaczy z University of British Columbia i Sakana AI. Agenty używają algorytmów ewolucyjnych do doskonalenia agentów kodujących opartych na LLM. Co kluczowe: agenty mogą zmieniać własny kod (choć nie bazowy LLM), a nowsza wersja potrafi nawet modyfikować swoje meta-mechanizmy samodoskonalenia.

AI Scientist to projekt tego samego zespołu z University of British Columbia i Sakana AI, opublikowany w Nature w marcu 2026. Idzie o krok dalej niż DGM: zamiast doskonalić tylko kod agenta, automatyzuje cały cykl naukowy — od wygenerowania hipotezy, przez przeprowadzenie eksperymentów w oprogramowaniu i napisanie artykułu, aż po jego autonomiczną recenzję. To istotne, bo w klasycznym RSI wąskim gardłem jest właśnie ocena: ktoś musi zdecydować, czy wynik jest dobry. AI Scientist próbuje zamknąć tę pętlę bez człowieka.

Ricursive Intelligence to startup założony przez współtwórców AlphaChip — wcześniejszego systemu Google DeepMind do projektowania układów scalonych. Misja: używać AI do projektowania lepszych chipów, na których trenuje się jeszcze lepsza AI. To szczególnie wyraźny przykład RSI w sprzęcie: mocniejszy chip → szybszy trening → lepszy model → lepszy projekt chipa. Współzałożycielka Azalia Mirhoseini zapowiada skrócenie cyklu projektowania z 1–2 lat do dni. Plan zakłada trzy fazy: najpierw wspomaganie ludzkich projektantów, następnie pełna automatyzacja dla firm bez własnych zespołów hardware, a w fazie trzeciej — rekurencyjne zamknięcie pętli, wciąż pod nadzorem człowieka.

Różnice względem innych podejść

RSI różni się od standardowego AutoML i podejść finetuningowych kilkoma kluczowymi aspektami. AutoML automatyzuje architekturę sieci i hiperparametry — ale cel definiuje człowiek. RLHF dostosowuje zachowanie modelu na danych ludzkich. AlphaEvolve i DGM idą dalej: generują nowe algorytmy i modyfikują kod agenta. Pełne RSI (teoretyczne) wymagałoby systemu zdolnego do redefinicji samej przestrzeni problemu — włącznie z celami i metrykami sukcesu.

Zastosowania

  • Optymalizacja algorytmów — AlphaEvolve odkrywa algorytmy przewyższające ludzkie rozwiązania w matematyce, harmonogramowaniu i projektowaniu chipów.
  • Automatyzacja badań naukowych — AI Scientist zamyka pętlę od hipotezy po recenzję artykułu.
  • Tworzenie oprogramowania — Claude Code i GPT-5.3-Codex skracają czas debugowania i wdrożenia.
  • Projektowanie sprzętu AI — Ricursive Intelligence dąży do redukcji cyklu projektowania chipów z lat do dni.

Ograniczenia

Bariery są znaczące. Jeff Clune z University of British Columbia przyznaje, że AI jest „jedynie przyzwoite" w generowaniu, implementowaniu i ocenianiu pomysłów. Dean Ball z Foundation for American Innovation zwraca uwagę, że systemy AI wciąż nie dorównują najlepszym ludzkim naukowcom: „Może w końcu zautomatyzują geniuszy — ale nie w przyszłym roku."

Nathan Lambert z Allen Institute for AI wprowadza pojęcie lossy self-improvement (LSI) — „stratnego doskonalenia". Argumentuje, że rosnąca złożoność dużych systemów AI powoduje coraz większe tarcia w procesie doskonalenia, spowalniając koło zamachowe zamiast je przyspieszać.

Pełne RSI wymaga nie tylko projektowania oprogramowania i chipów, ale budowania centrów danych, zasilania elektrowni, wydobycia metali. Wiedza jest rozproszona i często milcząca: zdolności producenta chipów TSMC wyłaniają się ze zbiorowej inteligencji 90 000 pracowników. Badacze z Meta — Jason Weston i Jakob Foerster — proponują alternatywę: co-improvement (współdoskonalenie), utrzymanie człowieka w pętli dla szybszego i bezpieczniejszego postępu.

Dlaczego to ważne

RSI jest centralnym zagadnieniem bezpieczeństwa AI. David Scott Krueger z University of Montreal, który zbadał opinie 25 ekspertów AI na temat automatyzacji badań, ostrzega: prawie wszyscy dopuszczają możliwość eksplozji inteligencji, a firmy AI prawdopodobnie będą trzymać samodoskonalące się modele wewnętrznie. Założona przez niego organizacja Evitable postuluje globalne wstrzymanie rozwoju AI, gdy 99% kodu jest pisane przez AI — granicę, którą jego zdaniem „może właśnie przekraczamy".

Paradoksalnie, sam Clune — entuzjasta RSI — mówi, że chętnie „oddałby swoje hobby, żeby wyleczyć raka". Wskazuje też na ewolucyjny scenariusz: RSI może nie wyglądać jak jeden wielki mózg rosnący w nieskończoność, ale jak eksplozja kambryjska sztucznych form życia — zróżnicowanych agentów tworzących własne ekosystemy, kultury i gospodarki. Ludzcy naukowcy nie znikną z dnia na dzień — ich rola ewoluuje od niskopoziomowych zadań przez kierowanie badaniami po strategiczny nadzór.

Źródła

IEEE Spectrum: AI Is Starting to Build Better AI

AlphaEvolve — arXiv 2506.13131

AI Scientist — Nature 2026

Darwin Gödel Machines v2 — arXiv 2603.19461

Expert survey on AI R&D automation — arXiv 2603.03338

Nathan Lambert: Lossy Self-Improvement

Meta: Co-improvement — arXiv 2512.05356

Udostępnij ten artykuł

Powiązane artykuły