Trening

Imitation Learning / BC

1991AktywnyAktualizacja: 5 maja 2026Opublikowany

Rodzina metod uczenia maszynowego, w której agent uczy się polityki przez naśladowanie demonstracji eksperta. Behavior Cloning (BC) to najprostsza forma: nadzorowane uczenie mapowania obserwacja→akcja.

Kluczowa innowacja

Uczenie polityki agenta bezpośrednio z demonstracji eksperta bez definiowania funkcji nagrody, co eliminuje potrzebę inżynierii nagród w robotyce.

Kategoria

Trening

Poziom abstrakcji

Wzorzec

Poziom operacji

TreningSterowanie robotem

Zastosowania

Trening polityk robotycznychManipulacja obiektamiNawigacja autonomicznaSterowanie ramieniem robotycznymFine-tuning modeli fundacyjnych na danych ludzkich

Jak działa

Zbierane są pary (obserwacja, akcja) z demonstracji eksperta. Model (policy network) jest trenowany do mapowania obserwacji na akcje przez minimalizację MSE lub cross-entropy. W BC model uczy się off-policy — bez interakcji ze środowiskiem podczas treningu. W bardziej zaawansowanych wariantach (DAgger) agent jest pytany eksperta w pętli, by korygować błędy dystrybucji.

Rozwiązany problem

Trudność definiowania funkcji nagrody dla złożonych zadań robotycznych; potrzeba efektywnego transferu umiejętności z demonstracji ludzkich.

Implementacja

Pułapki implementacyjne

Distributional shift — błędy kumulują się przy inferencjiŚrednia

BC uczy się z demonstracji eksperta, ale robot podczas deploymentu trafia w stany niewidziane w danych. Małe błędy kumulują się (covariate shift), prowadząc do katastrofalnych trajektorii.

Jakość i różnorodność danych demonstracji jest krytycznaŚrednia

BC jest tak dobry jak dane eksperta — monotonne lub błędne demonstracje bezpośrednio degradują politykę. Zbieranie danych od wielu ekspertów i w różnych warunkach jest kosztowne.

Brak mechanizmu odzyskiwania po błędzieŚrednia

Czyste BC nie ma mechanizmu recovery — robot nie wie jak wrócić do bezpiecznego stanu po odchyleniu od trajektorii eksperta. Wymaga uzupełnienia o DAgger lub RL.

Ewolucja

Oryginalny paper · 1991 · Neural Computation, 1991 · Dean A. Pomerleau

Efficient Training of Artificial Neural Networks for Autonomous Navigation

Dean A. Pomerleau

1991

ALVINN (Pomerleau) — pierwsza demonstracja Behavior Cloning do autonomicznej nawigacji

Punkt przełomowy

2011

DAgger (Ross et al.) — iteracyjna agregacja danych rozwiązuje problem distribution shift w BC

Punkt przełomowy

2022

Open-X-Embodiment — skalowanie IL na miliony demonstracji robotycznych z różnych platform

Punkt przełomowy

2025

UnifoLM-WMA-0 stosuje IL/BC jako Policy Enhancement na danych Open-X