Inne

Co-improvement

1990AktywnyOpublikowano: 17 maja 2026Aktualizacja: 17 maja 2026Opublikowany

Paradygmat samodoskonalenia AI, w którym co najmniej dwa komponenty (modele/agenci/przestrzenie) ewoluują równolegle, wzajemnie podnosząc swoje możliwości poprzez sprzężoną pętlę zwrotną.

Kluczowa innowacja

Zastąpienie monolitycznego samodoskonalenia jednego modelu sprzężoną pętlą równoczesnej poprawy co najmniej dwóch komponentów (np. policy ↔ reward, code ↔ test, generator ↔ proposer), które wzajemnie generują dla siebie sygnał uczenia.

Kategoria

Inne

Poziom abstrakcji

Wzorzec

Poziom operacji

Po-treningŚrodowisko agentoweSystem

Zastosowania

Adversarial co-evolution kodu i testów — generator kodu vs. generator testów (Code-A1, BACE)Współewolucja policy i wewnętrznej nagrody w agentach LLM (Self-Guide)Self-play z ewoluującą trudnością zadań (G-Zero, SEIF, SAGE)Multi-agent systems z równoczesną adaptacją możliwości agentów i topologii komunikacji (TacoMAS)Pamięć agenta + mechanizm wyszukiwania ewoluują razem (EvolveMem, Mem²Evolve)Curriculum learning, w którym środowisko symulacyjne adaptuje się do postępu ucznia (SimWorld Studio)Klasyczne korzenie: predator-prey GA (Hillis 1990), AlphaGo Zero self-play (2017)

Jak działa

Definiowane są co najmniej dwa komponenty z asymetrycznymi celami (np. generator ↔ solver, policy ↔ reward, code ↔ test). Każdy z nich ma własny algorytm uczenia (RL, DPO, fine-tuning) i własną funkcję straty zależną od drugiego. Pętla treningu naprzemiennie aktualizuje oba — często z mechanizmami stabilizującymi (replay buffer, anchor na minimalnych przykładach publicznych, ograniczone tempo aktualizacji topologii), aby zapobiec co-evolutionary drift i degeneracji (trywialne wyzwania, self-collusion).

Rozwiązany problem

Pojedynczy model trenowany na statycznym zbiorze szybko osiąga sufit: brakuje sygnału, który byłby trudniejszy od tego, co już potrafi. Co-evolution generuje ten sygnał z drugiego, równolegle ewoluującego komponentu.

Kluczowe mechanizmy

Sprzężone funkcje celu między komponentami (np. min-max, asymetryczne nagrody)

Naprzemienne lub równoczesne aktualizacje gradientowe (alternating training)

Asymetria informacji jako fundament uczciwego sygnału (np. Checker bez dostępu do Solvera)

Mechanizmy stabilizujące: replay buffer (Mistake Book), anchor (BACE), revert-on-regression (EvolveMem), fast/slow loop (TacoMAS)

Intrinsic rewards w open-ended domains (Hint-δ w G-Zero)

Curriculum auto-generowane przez koewoluujący komponent (SEIF Instructor, SAGE Challenger)

Mocne strony i ograniczenia

Mocne strony

✓Brak sufitu jakości narzucanego przez statyczny dataset — sygnał uczenia rośnie razem z modelem

✓Możliwa praca w domenach bez dużych zbiorów human-labeled (self-play, G-Zero zero-data)

✓Lepsza odporność na adversarial / out-of-distribution inputs (Seirênes, Code-A1)

✓Naturalne curriculum learning — trudność dopasowana do bieżącej pojemności agenta

✓Sterowalna alternatywa dla RSI — sprzężenie zewnętrzne zamiast samoreplikującego kodu

Ograniczenia

✗Wysokie ryzyko niestabilności i drift'u bez zewnętrznego weryfikatora

✗Self-collusion w setupach white-box (wspólny backbone)

✗Cross-component reward hacking, gdy jeden z komponentów jest słabym proxy prawdy

✗Wzrost kosztu obliczeniowego proporcjonalny do liczby koewoluujących komponentów

✗Trudność dostrojenia harmonogramów aktualizacji (fast/slow, frequency, learning rate ratios)

Komponenty

Komponenty z asymetrycznymi rolami

Co najmniej dwa moduły (modele/agenci/sieci) z różnymi celami, np. generator i krytyk, kod i test, policy i reward.

Sprzężona funkcja celu

Strata każdego komponentu zależy od bieżącego zachowania drugiego, dzięki czemu poprawa jednego z nich wymusza adaptację drugiego.

Pętla naprzemiennego uczenia

Harmonogram aktualizacji komponentów (równoczesny, naprzemienny, z różnymi skalami czasu — fast/slow loop w TacoMAS).

Mechanizmy stabilizujące

Replay buffer (Mistake Book), anchor na publicznych przykładach (BACE), revert-on-regression, ograniczenia eksploracji — chronią przed co-evolutionary drift i self-collusion.

Weryfikator zewnętrzny lub niesymetryczny dostęp

Niezależne źródło ground truth (compiler, unit tests, environment reward) lub strukturalna asymetria informacji (np. Checker bez dostępu do Solvera w MARCH) — fundament uczciwego sygnału.

Implementacja

Implementacje referencyjne

Code-A1

Python · ZJU REAL Lab

MARCH

Python · Qwen Applications

EvolveMem (SimpleMem)

Python · aiming-lab

TacoMAS

Python · TacoMAS authors

Mem²Evolve

Python · BUAA IRIP-LLM

SEIF

Python · SEIF authors

Pułapki implementacyjne

Co-evolutionary driftWysoka

Komponenty mogą oddalić się od zewnętrznej rzeczywistości i nawzajem optymalizować trywialne lub patologiczne sygnały (np. wyzwania nierozwiązywalne dla obu).

Self-collusionWysoka

W systemach z dostępem white-box (jeden model generuje i kod, i testy) komponenty „zmawiają się" — testy stają się trywialnie spełnialne. Mitygacja: rozdział modeli, asymetria informacji (MARCH).

Reward hacking między komponentamiWysoka

Komponent A może odkryć sposób na maksymalizację sygnału od B bez realnego rozwiązania zadania — szczególnie ryzykowne gdy B jest słabym proxy zewnętrznej prawdy.

Niestabilność dynamiki uczeniaŚrednia

Równoczesne uczenie wielu komponentów z różnymi gradientami często rozjeżdża się; potrzebne są harmonogramy fast/slow (TacoMAS), revert-on-regression (EvolveMem) lub anchoring (BACE).

Brak zewnętrznego ground truthWysoka

W otwartych domenach (open-ended generation) co-evolution bez weryfikatora prowadzi do echo chambers; pomocne są intrinsic rewards (Hint-δ w G-Zero) lub strukturalna asymetria.

Ewolucja

Oryginalny paper · 1990 · Physica D · W. Daniel Hillis

Co-evolving Parasites Improve Simulated Evolution as an Optimization Procedure

W. Daniel Hillis

1990

W. D. Hillis — koewolucyjny algorytm genetyczny z relacją predator-prey rozwiązuje sortowanie szybciej niż klasyczny GA. Konceptualny początek co-evolution w obliczeniach.

Punkt przełomowy

2014

Generative Adversarial Networks (Goodfellow i in., NeurIPS 2014) — generator i dyskryminator współewoluują w grze min-max; flagowy przykład adversarial co-evolution w deep learning.

Punkt przełomowy

2017

AlphaGo Zero (Silver i in., Nature) — czyste self-play jako forma co-evolution z samym sobą; przekracza ludzki poziom bez danych eksperckich.

Punkt przełomowy

2017

Population-Based Training (Jaderberg i in., DeepMind) — populacja agentów współewoluuje hiperparametry i wagi.

2020

POET / Enhanced POET (Wang i in., Uber AI) — środowisko i agent rosną razem; eksplicytna co-evolution agent ↔ task.

2025

Wzrost prac LLM co-evolution: Code-A1, BACE, Self-Guide, G-Zero, SEIF, TacoMAS, Mem²Evolve, EvolveMem — pojawienie się jako standardowy wzorzec w samodoskonaleniu agentów LLM.

Punkt przełomowy

2026

BACE (GECCO 2026) i Mem²Evolve (ACL 2026) — co-evolution wchodzi do mainstream konferencji NLP i evolutionary computation.