Robocikowo>ROBOCIKOWO
Inne

Co-improvement

1990AktywnyOpublikowano: 17 maja 2026Aktualizacja: 17 maja 2026Opublikowany
Paradygmat samodoskonalenia AI, w którym co najmniej dwa komponenty (modele/agenci/przestrzenie) ewoluują równolegle, wzajemnie podnosząc swoje możliwości poprzez sprzężoną pętlę zwrotną.
Kluczowa innowacja
Zastąpienie monolitycznego samodoskonalenia jednego modelu sprzężoną pętlą równoczesnej poprawy co najmniej dwóch komponentów (np. policy ↔ reward, code ↔ test, generator ↔ proposer), które wzajemnie generują dla siebie sygnał uczenia.
Kategoria
Inne
Poziom abstrakcji
Pattern
Poziom operacji
Po-treningŚrodowisko agentoweSystem
Zastosowania
Adversarial co-evolution kodu i testów — generator kodu vs. generator testów (Code-A1, BACE)Współewolucja policy i wewnętrznej nagrody w agentach LLM (Self-Guide)Self-play z ewoluującą trudnością zadań (G-Zero, SEIF, SAGE)Multi-agent systems z równoczesną adaptacją możliwości agentów i topologii komunikacji (TacoMAS)Pamięć agenta + mechanizm wyszukiwania ewoluują razem (EvolveMem, Mem²Evolve)Curriculum learning, w którym środowisko symulacyjne adaptuje się do postępu ucznia (SimWorld Studio)Klasyczne korzenie: predator-prey GA (Hillis 1990), AlphaGo Zero self-play (2017)

Jak działa

Definiowane są co najmniej dwa komponenty z asymetrycznymi celami (np. generator ↔ solver, policy ↔ reward, code ↔ test). Każdy z nich ma własny algorytm uczenia (RL, DPO, fine-tuning) i własną funkcję straty zależną od drugiego. Pętla treningu naprzemiennie aktualizuje oba — często z mechanizmami stabilizującymi (replay buffer, anchor na minimalnych przykładach publicznych, ograniczone tempo aktualizacji topologii), aby zapobiec co-evolutionary drift i degeneracji (trywialne wyzwania, self-collusion).

Rozwiązany problem

Pojedynczy model trenowany na statycznym zbiorze szybko osiąga sufit: brakuje sygnału, który byłby trudniejszy od tego, co już potrafi. Co-evolution generuje ten sygnał z drugiego, równolegle ewoluującego komponentu.

Kluczowe mechanizmy

Sprzężone funkcje celu między komponentami (np. min-max, asymetryczne nagrody)
Naprzemienne lub równoczesne aktualizacje gradientowe (alternating training)
Asymetria informacji jako fundament uczciwego sygnału (np. Checker bez dostępu do Solvera)
Mechanizmy stabilizujące: replay buffer (Mistake Book), anchor (BACE), revert-on-regression (EvolveMem), fast/slow loop (TacoMAS)
Intrinsic rewards w open-ended domains (Hint-δ w G-Zero)
Curriculum auto-generowane przez koewoluujący komponent (SEIF Instructor, SAGE Challenger)

Mocne strony i ograniczenia

Mocne strony
Brak sufitu jakości narzucanego przez statyczny dataset — sygnał uczenia rośnie razem z modelem
Możliwa praca w domenach bez dużych zbiorów human-labeled (self-play, G-Zero zero-data)
Lepsza odporność na adversarial / out-of-distribution inputs (Seirênes, Code-A1)
Naturalne curriculum learning — trudność dopasowana do bieżącej pojemności agenta
Sterowalna alternatywa dla RSI — sprzężenie zewnętrzne zamiast samoreplikującego kodu
Ograniczenia
Wysokie ryzyko niestabilności i drift'u bez zewnętrznego weryfikatora
Self-collusion w setupach white-box (wspólny backbone)
Cross-component reward hacking, gdy jeden z komponentów jest słabym proxy prawdy
Wzrost kosztu obliczeniowego proporcjonalny do liczby koewoluujących komponentów
Trudność dostrojenia harmonogramów aktualizacji (fast/slow, frequency, learning rate ratios)

Komponenty

Komponenty z asymetrycznymi rolami

Co najmniej dwa moduły (modele/agenci/sieci) z różnymi celami, np. generator i krytyk, kod i test, policy i reward.

Sprzężona funkcja celu

Strata każdego komponentu zależy od bieżącego zachowania drugiego, dzięki czemu poprawa jednego z nich wymusza adaptację drugiego.

Pętla naprzemiennego uczenia

Harmonogram aktualizacji komponentów (równoczesny, naprzemienny, z różnymi skalami czasu — fast/slow loop w TacoMAS).

Mechanizmy stabilizujące

Replay buffer (Mistake Book), anchor na publicznych przykładach (BACE), revert-on-regression, ograniczenia eksploracji — chronią przed co-evolutionary drift i self-collusion.

Weryfikator zewnętrzny lub niesymetryczny dostęp

Niezależne źródło ground truth (compiler, unit tests, environment reward) lub strukturalna asymetria informacji (np. Checker bez dostępu do Solvera w MARCH) — fundament uczciwego sygnału.

Implementacja

Pułapki implementacyjne
Co-evolutionary driftWysoka

Komponenty mogą oddalić się od zewnętrznej rzeczywistości i nawzajem optymalizować trywialne lub patologiczne sygnały (np. wyzwania nierozwiązywalne dla obu).

Self-collusionWysoka

W systemach z dostępem white-box (jeden model generuje i kod, i testy) komponenty „zmawiają się" — testy stają się trywialnie spełnialne. Mitygacja: rozdział modeli, asymetria informacji (MARCH).

Reward hacking między komponentamiWysoka

Komponent A może odkryć sposób na maksymalizację sygnału od B bez realnego rozwiązania zadania — szczególnie ryzykowne gdy B jest słabym proxy zewnętrznej prawdy.

Niestabilność dynamiki uczeniaŚrednia

Równoczesne uczenie wielu komponentów z różnymi gradientami często rozjeżdża się; potrzebne są harmonogramy fast/slow (TacoMAS), revert-on-regression (EvolveMem) lub anchoring (BACE).

Brak zewnętrznego ground truthWysoka

W otwartych domenach (open-ended generation) co-evolution bez weryfikatora prowadzi do echo chambers; pomocne są intrinsic rewards (Hint-δ w G-Zero) lub strukturalna asymetria.

Ewolucja

Oryginalny paper · 1990 · Physica D · W. Daniel Hillis
Co-evolving Parasites Improve Simulated Evolution as an Optimization Procedure
W. Daniel Hillis
1990
W. D. Hillis — koewolucyjny algorytm genetyczny z relacją predator-prey rozwiązuje sortowanie szybciej niż klasyczny GA. Konceptualny początek co-evolution w obliczeniach.
Punkt przełomowy
2014
Generative Adversarial Networks (Goodfellow i in., NeurIPS 2014) — generator i dyskryminator współewoluują w grze min-max; flagowy przykład adversarial co-evolution w deep learning.
Punkt przełomowy
2017
AlphaGo Zero (Silver i in., Nature) — czyste self-play jako forma co-evolution z samym sobą; przekracza ludzki poziom bez danych eksperckich.
Punkt przełomowy
2017
Population-Based Training (Jaderberg i in., DeepMind) — populacja agentów współewoluuje hiperparametry i wagi.
2020
POET / Enhanced POET (Wang i in., Uber AI) — środowisko i agent rosną razem; eksplicytna co-evolution agent ↔ task.
2025
Wzrost prac LLM co-evolution: Code-A1, BACE, Self-Guide, G-Zero, SEIF, TacoMAS, Mem²Evolve, EvolveMem — pojawienie się jako standardowy wzorzec w samodoskonaleniu agentów LLM.
Punkt przełomowy
2026
BACE (GECCO 2026) i Mem²Evolve (ACL 2026) — co-evolution wchodzi do mainstream konferencji NLP i evolutionary computation.

Paradygmat wykonania

Tryb główny
mixture
Wzorzec aktywacji
stage_dependent

Równoległość

Poziom równoległości
partially_parallel
Zakres
trainingacross_devices

Wymagania sprzętowe

Podstawowe
Dobry fit