Zbierane są pary (obserwacja, akcja) z demonstracji eksperta. Model (policy network) jest trenowany do mapowania obserwacji na akcje przez minimalizację MSE lub cross-entropy. W BC model uczy się off-policy — bez interakcji ze środowiskiem podczas treningu. W bardziej zaawansowanych wariantach (DAgger) agent jest pytany eksperta w pętli, by korygować błędy dystrybucji.
Trudność definiowania funkcji nagrody dla złożonych zadań robotycznych; potrzeba efektywnego transferu umiejętności z demonstracji ludzkich.
BC uczy się z demonstracji eksperta, ale robot podczas deploymentu trafia w stany niewidziane w danych. Małe błędy kumulują się (covariate shift), prowadząc do katastrofalnych trajektorii.
BC jest tak dobry jak dane eksperta — monotonne lub błędne demonstracje bezpośrednio degradują politykę. Zbieranie danych od wielu ekspertów i w różnych warunkach jest kosztowne.
Czyste BC nie ma mechanizmu recovery — robot nie wie jak wrócić do bezpiecznego stanu po odchyleniu od trajektorii eksperta. Wymaga uzupełnienia o DAgger lub RL.
Trening polityk sieci neuronowych na dużych zbiorach demonstracji wymaga GPU.