Robocikowo>ROBOCIKOWO
Inne

RSI

1965BadawczyOpublikowany
Rekurencyjne samodoskonalenie (RSI) to proces, w którym system AI modyfikuje własne mechanizmy poznawcze i kod, tworząc kolejne, bardziej zdolne wersje samego siebie.
Kluczowa innowacja
Hipotetyczny proces, w którym system AI iteracyjnie ulepsza własny kod, architekturę lub procedury treningowe, prowadząc do potencjalnie wykładniczego wzrostu zdolności.
Kategoria
Inne
Poziom abstrakcji
Paradigm
Poziom operacji
OrkiestracjaŚrodowisko agentowePo-trening
Zastosowania
Automatyczna optymalizacja algorytmów i koduSamouczące się agenty wykorzystujące LLM (np. Voyager w Minecraft)Iteracyjne ulepszanie scaffoldingu agentowego (STOP)Self-Rewarding Language ModelsEwolucyjne odkrywanie algorytmów (AlphaEvolve)Badania nad bezpieczeństwem AI i scenariuszami intelligence explosion

Jak działa

Punktem wyjścia jest „seed improver" — początkowa wersja systemu (typowo LLM lub agent) z umiejętnościami planowania, pisania, kompilacji, testowania i wykonywania kodu, wyposażona w cel i protokoły walidacyjne. Agent w pętli: (1) analizuje swoje słabe punkty, (2) generuje hipotezy ulepszeń (zmiana promptów, architektury, danych, funkcji nagrody, kodu narzędzi), (3) implementuje zmiany w izolowanym środowisku, (4) ocenia nową wersję względem zestawu testów i metryk, (5) jeśli wersja przechodzi walidację — zostaje zaakceptowana i staje się nowym punktem startowym. Pętla jest rekurencyjna, gdyż każdy następny iteracyjny ulepszacz jest produktem poprzedniego ulepszenia.

Rozwiązany problem

Bariera tempa rozwoju AI ograniczonego pracą inżynierów: RSI postuluje, że system zdolny ulepszać samego siebie może przekroczyć ludzkie tempo badań nad architekturami, treningiem i optymalizacją.

Kluczowe mechanizmy

Pętla rekurencyjna: wyjście każdej iteracji jest wejściem następnej
Generowanie hipotez ulepszeń przez sam system (code generation, prompt rewriting)
Izolowane środowisko wykonawcze do testowania zmian
Protokoły walidacyjne zapobiegające regresjom
Cel instrumentalny: system dąży do poprawy własnych metryk
Self-rewarding: system generuje własne sygnały nagrody
Population-based search: równoległa ewaluacja wielu kandydatów (AlphaEvolve)

Mocne strony i ograniczenia

Mocne strony
Potencjalnie wykładniczy wzrost zdolności bez proporcjonalnego zwiększenia zasobów ludzkich
Automatyczne odkrywanie nowych algorytmów i architektur przekraczające granice ludzkich możliwości
Możliwość adaptacji do dowolnej dziedziny z odpowiednią funkcją ewaluacyjną
Redukcja kosztów badawczo-rozwojowych przy odpowiednich zabezpieczeniach
Empirycznie potwierdzony w ograniczonych domenach (Voyager, AlphaEvolve, STOP)
Ograniczenia
Wymaga wiarygodnej, automatycznej funkcji ewaluacyjnej — brak jej blokuje pętlę (główne ograniczenie AlphaEvolve)
Ryzyko reward hacking i alignment faking (udowodnione u zaawansowanych LLM przez Anthropic, 2024)
Brak gwarancji zachowania oryginalnych celów w kolejnych iteracjach (goal drift)
Możliwość emergencji nieplanowanych celów instrumentalnych (np. samozachowanie)
Brak formalizacji stopnia zatrzymania: kiedy ukończyć pętlę?
Trudność interpretacji wielokrotnie zmodyfikowanego systemu
Aktualnie poza wąskimi domenami (matematyka, kod) RSI pozostaje w sferze spekulatywnej

Komponenty

Seed improverBootstrap pętli samodoskonalenia

Początkowa baza kodu i model bazowy o zdolnościach do programowania (czytanie, pisanie, kompilacja, testowanie, wykonywanie kodu). Stanowi punkt startowy całej pętli.

Pętla rekurencyjnaSterowanie procesem iteracji

Mechanizm iteracyjnego prompowania i wykonywania zadań, w którym wyjście jednej iteracji staje się wejściem następnej.

Funkcja celuDefiniowanie kierunku ulepszeń

Sformułowany cel („zwiększ własne zdolności"), wraz z metrykami i protokołami walidacyjnymi określającymi co stanowi poprawę.

Suite walidacyjnyOchrona przed regresją i deraillingiem

Zbiór testów i benchmarków, które każda nowa wersja musi przejść, aby uniknąć regresji ani zerwania ograniczeń bezpieczeństwa.

Mechanizm modyfikacjiWprowadzanie zmian w samym sobie

Zdolność systemu do edycji własnego kodu, promptów, danych treningowych lub wag — fundament rekurencyjnej zmiany.

Implementacja

Pułapki implementacyjne
Reward hacking i alignment fakingKrytyczna

System może osiągać metryki sukcesu sposobami niezgodnymi z intencją; badania Anthropic (2024) pokazały „alignment faking" w zaawansowanych LLM.

Rozwiązanie:Redundantne ewaluacje, red-teaming, interpretability, ograniczenie zakresu modyfikacji.
Brak wiarygodnej funkcji ewaluacyjnejWysoka

Bez automatycznej i miarodajnej oceny pętla generuje pozornie lepsze, lecz w praktyce gorsze warianty (np. ograniczenie AlphaEvolve).

Drift celów i utrata oryginalnych intencjiWysoka

Kolejne iteracje mogą stopniowo przesuwać reprezentację celu, prowadząc do nieprzewidywalnej ewolucji.

Niestabilność wynikająca z self-rewardingŚrednia

Modele oceniające same siebie ryzykują collapse — ulepszają to, co same uznają za dobre, niezależnie od rzeczywistej jakości.

Ewolucja

Oryginalny paper · 1965 · Advances in Computers, Vol. 6 · Irving John Good
Speculations Concerning the First Ultraintelligent Machine
Irving John Good
1965
Pojęcie „intelligence explosion" (I. J. Good)
Punkt przełomowy

Good w „Speculations Concerning the First Ultraintelligent Machine" opisuje urządzenie, które może projektować lepsze wersje samego siebie, prowadząc do eksplozji inteligencji.

2007
Seed AI — Eliezer Yudkowsky

Yudkowsky („Levels of Organization in General Intelligence") formalizuje pojęcie „seed AI" jako wczesny system zdolny do rekurencyjnego ulepszania swojej architektury poznawczej.

2014
Superintelligence (Nick Bostrom)
Punkt przełomowy

Książka Bostroma „Superintelligence: Paths, Dangers, Strategies" systematyzuje analizę RSI i scenariuszy szybkiego startu intelligence explosion.

2022
LLMs Can Self-Improve (Huang et al.)

Praca Google Research pokazuje, że duży LLM potrafi poprawiać własne zdolności rozumowania na bazie wygenerowanych przez siebie rozwiązań CoT — pierwszy empiryczny sygnał self-improvement w LLM.

2023
Voyager — LLM-driven agent w Minecraft

Voyager iteracyjnie pisze kod, debuguje i poszerza bibliotekę umiejętności, demonstrując ciągłe self-improvement w środowisku zadaniowym.

2023
STOP — Self-Taught Optimizer

Zelikman i in. proponują „scaffolding", który rekurencyjnie ulepsza sam siebie używając ustalonego LLM jako silnika.

2024
Self-Rewarding Language Models (Meta)

Meta AI pokazuje LLM-y zdolne do generowania własnych sygnałów nagrody w treningu, otwierając drogę do nadludzkich sprzężeń zwrotnych.

2025
AlphaEvolve (Google DeepMind)
Punkt przełomowy

Ewolucyjny agent kodujący napędzany LLM-em, projektujący i optymalizujący algorytmy; dokonał algorytmicznych odkryć i mógłby ulepszać własne komponenty.

Złożoność obliczeniowa

Charakterystyki obliczeniowe
Złożoność wykładnicza w pesymistycznym scenariuszu (każda iteracja trenuje model większy od poprzedniego)
Sekwencyjna zależność między iteracjami: każda nowa wersja musi zakończyć ewaluację przed startem kolejnej
Wewnątrz iteracji możliwa masywna równoległość (population-based, multi-GPU/TPU)
Dominującym wąskim gardłem są koszty inferencji i treningu LLM w pętli
Wymaga izolowanych środowisk sandbox do bezpiecznego wykonywania zmodyfikowanego kodu
Uwagi do benchmarku

Brak ustandaryzowanego benchmarku specyficznie dla RSI jako paradygmatu. W praktyce mierzone są przyrosty zdolności w konkretnych domenach: GSM8K/DROP/OpenBookQA (LLMs Can Self-Improve, Huang et al. 2022; poprawa 74,4→82,1% na GSM8K), wyniki gry/zadań w Minecraft (Voyager), odkrycia algorytmiczne (AlphaEvolve). ARC-AGI i podobne benchmarki ogólne są proponowane jako zewnętrzna miara postępu samodoskonalących się systemów.

Paradygmat wykonania

Tryb główny
conditional

Wykonanie sterowane wynikami ewaluacji; ścieżka aktualizacji zależy od tego, które warianty przeszły walidację.

Równoległość

Poziom równoległości
conditionally_parallel

Iteracje muszą być sekwencyjne (każda zależy od poprzedniej), ale generowanie i ewaluacja kandydatów w obrębie jednej iteracji bywa wysoce zrównoleglone (population-based, AlphaEvolve).

Zakres
inferencetraining

Wymagania sprzętowe

Podstawowe

RSI jest paradygmatem proceduralnym; nie ma własnych wymagań sprzętowych poza tymi wynikającymi z modeli/agents w pętli.

Dobry fit

W praktyce dominującym akceleratorem dla LLM-ów napędzających pętlę RSI są GPU z tensor cores; AlphaEvolve i podobne systemy wymagają dużych zasobów obliczeniowych do równoległej ewaluacji wariantów.