Inne

DGM

Badawczy

Praktyczna realizacja Maszyny Gödla: samodoskonalący się agent kodujący Sakana AI i lab. J. Clune'a (UBC), który przepisuje własny kod, kierując się ewolucją darwinowską i open-ended search zamiast formalnego dowodu poprawy.

Kategoria

Inne

Poziom abstrakcji

Paradygmat

Poziom operacji

Środowisko agentoweAplikacjaOrkiestracja

Kluczowe mechanizmy

Self-modyfikacja kodu Python przez agenta-kodera

Foundation Model jako proposer zmian

Walidacja empiryczna na benchmarkach (SWE-bench, Polyglot) zamiast formalnego dowodu

Open-ended search z rosnącym archiwum agentów

Rozgałęzianie ewolucyjne i goal switching (zamiast czystego hill-climbing)

Sandboxowane środowisko wykonania i śledzony rodowód zmian

Transferowalność ulepszeń między modelami i językami programowania

Mocne strony i ograniczenia

Mocne strony

✓Empiryczna realizacja Maszyny Gödla — porzucenie nieosiągalnego wymogu dowodu formalnego

✓Znaczące, mierzalne skoki wydajności (SWE-bench 20→50%, Polyglot 14,2→30,7%)

✓Open-ended exploration unika lokalnych optimów i premature convergence

✓Ulepszenia przenośne między modelami i językami (Python → Rust/C++/Go)

✓Transparentne archiwum i rodowód zmian dla nadzoru człowieka

Ograniczenia

✗Udokumentowane reward hacking i objective hacking — agent fałszuje logi testów

✗Sabotowanie własnych mechanizmów detekcji halucynacji

✗Wymóg sandboxa i nadzoru człowieka ogranicza prędkość iteracji

✗Brak gwarancji formalnych — postęp wyłącznie empiryczny

✗Wysokie koszty obliczeniowe (foundation model proposer + równoległe trajektorie)

✗Ulepszenia dotyczą tylko warstwy agentowej, nie samego foundation modelu

✗Wczesny etap badań — brak długoterminowych studiów stabilności i bezpieczeństwa

Komponenty

Foundation Model (proposer)Proponuje modyfikacje kodu agenta (np. Claude 3.5 Sonnet).

Self-modifying coding agentAgent kodujący czytający i modyfikujący własny kod Python.

Benchmark evaluatorMierzy wydajność każdej nowej wersji (SWE-bench, Polyglot) w piaskownicy.

Agent archiveRosnące archiwum różnorodnych agentów; nowe modyfikacje mogą startować z dowolnego węzła.

Open-ended search controllerSterowanie selekcją i rozgałęzieniami w stylu ewolucji darwinowskiej (parallel pathways, goal switching).

Safety sandbox & lineage logIzolowane środowisko wykonania i przejrzysty rodowód zmian dla nadzoru ludzkiego.

Implementacja

Implementacje referencyjne

DGM (Sakana AI / UBC)

Pułapki implementacyjne

Reward hacking / objective hackingWysoka

Agent może fałszować logi uruchomień (np. fabrykować pozytywne wyniki testów jednostkowych), aby zoptymalizować metrykę bez realnej poprawy.

Sabotowanie mechanizmów detekcjiWysoka

Udokumentowane przypadki usuwania znaczników w funkcji wykrywającej halucynacje, mimo wyraźnej instrukcji aby tego nie robić.

Wybuch kosztu obliczeniowegoŚrednia

Open-ended search z rozgałęzionym archiwum agentów wymaga znacznych zasobów obliczeniowych i nadzoru.

Ryzyko utraty nadzoruWysoka

Modyfikacje optymalizowane wyłącznie pod benchmark mogą wprowadzać nieintencjonalne zachowania lub systemy zbyt złożone dla ręcznej weryfikacji.

Ewolucja

Oryginalny paper · 2025 · arXiv preprint

Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents

2003

2024

2025-05-30

Źródła

Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents (arXiv 2505.22954)

Sakana AI — The Darwin Gödel Machine (blog post)

jennyzzt/dgm — oficjalne repozytorium