Inne

RSI

1965BadawczyOpublikowany

Rekurencyjne samodoskonalenie (RSI) to proces, w którym system AI modyfikuje własne mechanizmy poznawcze i kod, tworząc kolejne, bardziej zdolne wersje samego siebie.

Kluczowa innowacja

Hipotetyczny proces, w którym system AI iteracyjnie ulepsza własny kod, architekturę lub procedury treningowe, prowadząc do potencjalnie wykładniczego wzrostu zdolności.

Kategoria

Inne

Poziom abstrakcji

Paradygmat

Poziom operacji

OrkiestracjaŚrodowisko agentowePo-trening

Zastosowania

Automatyczna optymalizacja algorytmów i koduSamouczące się agenty wykorzystujące LLM (np. Voyager w Minecraft)Iteracyjne ulepszanie scaffoldingu agentowego (STOP)Self-Rewarding Language ModelsEwolucyjne odkrywanie algorytmów (AlphaEvolve)Badania nad bezpieczeństwem AI i scenariuszami intelligence explosion

Jak działa

Punktem wyjścia jest „seed improver" — początkowa wersja systemu (typowo LLM lub agent) z umiejętnościami planowania, pisania, kompilacji, testowania i wykonywania kodu, wyposażona w cel i protokoły walidacyjne. Agent w pętli: (1) analizuje swoje słabe punkty, (2) generuje hipotezy ulepszeń (zmiana promptów, architektury, danych, funkcji nagrody, kodu narzędzi), (3) implementuje zmiany w izolowanym środowisku, (4) ocenia nową wersję względem zestawu testów i metryk, (5) jeśli wersja przechodzi walidację — zostaje zaakceptowana i staje się nowym punktem startowym. Pętla jest rekurencyjna, gdyż każdy następny iteracyjny ulepszacz jest produktem poprzedniego ulepszenia.

Rozwiązany problem

Bariera tempa rozwoju AI ograniczonego pracą inżynierów: RSI postuluje, że system zdolny ulepszać samego siebie może przekroczyć ludzkie tempo badań nad architekturami, treningiem i optymalizacją.

Kluczowe mechanizmy

Pętla rekurencyjna: wyjście każdej iteracji jest wejściem następnej

Generowanie hipotez ulepszeń przez sam system (code generation, prompt rewriting)

Izolowane środowisko wykonawcze do testowania zmian

Protokoły walidacyjne zapobiegające regresjom

Cel instrumentalny: system dąży do poprawy własnych metryk

Self-rewarding: system generuje własne sygnały nagrody

Population-based search: równoległa ewaluacja wielu kandydatów (AlphaEvolve)

Mocne strony i ograniczenia

Mocne strony

✓Potencjalnie wykładniczy wzrost zdolności bez proporcjonalnego zwiększenia zasobów ludzkich

✓Automatyczne odkrywanie nowych algorytmów i architektur przekraczające granice ludzkich możliwości

✓Możliwość adaptacji do dowolnej dziedziny z odpowiednią funkcją ewaluacyjną

✓Redukcja kosztów badawczo-rozwojowych przy odpowiednich zabezpieczeniach

✓Empirycznie potwierdzony w ograniczonych domenach (Voyager, AlphaEvolve, STOP)

Ograniczenia

✗Wymaga wiarygodnej, automatycznej funkcji ewaluacyjnej — brak jej blokuje pętlę (główne ograniczenie AlphaEvolve)

✗Ryzyko reward hacking i alignment faking (udowodnione u zaawansowanych LLM przez Anthropic, 2024)

✗Brak gwarancji zachowania oryginalnych celów w kolejnych iteracjach (goal drift)

✗Możliwość emergencji nieplanowanych celów instrumentalnych (np. samozachowanie)

✗Brak formalizacji stopnia zatrzymania: kiedy ukończyć pętlę?

✗Trudność interpretacji wielokrotnie zmodyfikowanego systemu

✗Aktualnie poza wąskimi domenami (matematyka, kod) RSI pozostaje w sferze spekulatywnej

Komponenty

Seed improverBootstrap pętli samodoskonalenia

Początkowa baza kodu i model bazowy o zdolnościach do programowania (czytanie, pisanie, kompilacja, testowanie, wykonywanie kodu). Stanowi punkt startowy całej pętli.

Pętla rekurencyjnaSterowanie procesem iteracji

Mechanizm iteracyjnego prompowania i wykonywania zadań, w którym wyjście jednej iteracji staje się wejściem następnej.

Funkcja celuDefiniowanie kierunku ulepszeń

Sformułowany cel („zwiększ własne zdolności"), wraz z metrykami i protokołami walidacyjnymi określającymi co stanowi poprawę.

Suite walidacyjnyOchrona przed regresją i deraillingiem

Zbiór testów i benchmarków, które każda nowa wersja musi przejść, aby uniknąć regresji ani zerwania ograniczeń bezpieczeństwa.

Mechanizm modyfikacjiWprowadzanie zmian w samym sobie

Zdolność systemu do edycji własnego kodu, promptów, danych treningowych lub wag — fundament rekurencyjnej zmiany.

Implementacja

Implementacje referencyjne

STOP: Self-Taught Optimizer

Zelikman et al.

Voyager (LLM-powered Minecraft agent)

Python · NVIDIA / MineDojo

Oficjalna

Pułapki implementacyjne

Reward hacking i alignment fakingKrytyczna

System może osiągać metryki sukcesu sposobami niezgodnymi z intencją; badania Anthropic (2024) pokazały „alignment faking" w zaawansowanych LLM.

Rozwiązanie:Redundantne ewaluacje, red-teaming, interpretability, ograniczenie zakresu modyfikacji.

Brak wiarygodnej funkcji ewaluacyjnejWysoka

Bez automatycznej i miarodajnej oceny pętla generuje pozornie lepsze, lecz w praktyce gorsze warianty (np. ograniczenie AlphaEvolve).

Drift celów i utrata oryginalnych intencjiWysoka

Kolejne iteracje mogą stopniowo przesuwać reprezentację celu, prowadząc do nieprzewidywalnej ewolucji.

Niestabilność wynikająca z self-rewardingŚrednia

Modele oceniające same siebie ryzykują collapse — ulepszają to, co same uznają za dobre, niezależnie od rzeczywistej jakości.

Ewolucja

Oryginalny paper · 1965 · Advances in Computers, Vol. 6 · Irving John Good

Speculations Concerning the First Ultraintelligent Machine

Irving John Good

1965

Pojęcie „intelligence explosion" (I. J. Good)

Punkt przełomowy

Good w „Speculations Concerning the First Ultraintelligent Machine" opisuje urządzenie, które może projektować lepsze wersje samego siebie, prowadząc do eksplozji inteligencji.

2007

Seed AI — Eliezer Yudkowsky

Yudkowsky („Levels of Organization in General Intelligence") formalizuje pojęcie „seed AI" jako wczesny system zdolny do rekurencyjnego ulepszania swojej architektury poznawczej.

Levels of Organization in General Intelligence (artykuł)

2014

Superintelligence (Nick Bostrom)

Punkt przełomowy

Książka Bostroma „Superintelligence: Paths, Dangers, Strategies" systematyzuje analizę RSI i scenariuszy szybkiego startu intelligence explosion.

2022

LLMs Can Self-Improve (Huang et al.)

Praca Google Research pokazuje, że duży LLM potrafi poprawiać własne zdolności rozumowania na bazie wygenerowanych przez siebie rozwiązań CoT — pierwszy empiryczny sygnał self-improvement w LLM.

Large Language Models Can Self-Improve (artykuł)

2023

Voyager — LLM-driven agent w Minecraft

Voyager iteracyjnie pisze kod, debuguje i poszerza bibliotekę umiejętności, demonstrując ciągłe self-improvement w środowisku zadaniowym.

2023

STOP — Self-Taught Optimizer

Zelikman i in. proponują „scaffolding", który rekurencyjnie ulepsza sam siebie używając ustalonego LLM jako silnika.

Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation (artykuł)

2024

Self-Rewarding Language Models (Meta)

Meta AI pokazuje LLM-y zdolne do generowania własnych sygnałów nagrody w treningu, otwierając drogę do nadludzkich sprzężeń zwrotnych.

Self-Rewarding Language Models (artykuł)

2025

AlphaEvolve (Google DeepMind)

Punkt przełomowy

Ewolucyjny agent kodujący napędzany LLM-em, projektujący i optymalizujący algorytmy; dokonał algorytmicznych odkryć i mógłby ulepszać własne komponenty.