Bezpieczeństwo

HITL

1994AktywnyOpublikowano: 6 czerwca 2026Aktualizacja: 6 czerwca 2026Opublikowany

Wzorzec projektowania systemów AI, w którym człowiek pełni rolę nadzorcy, korektora lub źródła sygnału — zatwierdza akcje agenta, etykietuje dane, koryguje predykcje lub dostarcza preferencje używane do dalszego uczenia.

Kluczowa innowacja

Wprowadza człowieka jako aktywne ogniwo w pętli decyzyjnej lub uczącej systemu AI — do nadzoru, korekty, akceptacji albo dostarczania sygnału treningowego — zamiast pozostawiać system w pełni autonomicznym.

Kategoria

Bezpieczeństwo

Poziom abstrakcji

Wzorzec

Poziom operacji

Środowisko agentowePo-treningEwaluacja (runtime)

Zastosowania

approval gates w agentach (LangGraph interrupt, Semantic Kernel)moderacja treści z eskalacją niepewnych przypadkówasystenci kodu z code review przed mergeaktywne uczenie w annotacji danych (Snorkel, Prodigy, Label Studio)RLHF / DPO — zbieranie preferencji ludzkich do post-trainingusystemy decyzyjne w domenach regulowanych (medycyna, finanse, prawo)asystenci pisania (Copilot, Cursor) — człowiek akceptuje sugestieautonomiczne pojazdy poziomu L2/L3 — kierowca jako fallback

Jak działa

1. System AI wykonuje swoje zadanie (predykcja, akcja agenta, generacja odpowiedzi) i jednocześnie wylicza sygnał decyzyjny — najczęściej pewność (confidence), poziom ryzyka akcji lub etykietę „wymagana akceptacja". 2. Router HITL porównuje sygnał z progiem lub regułą: jeśli pewność wysoka i akcja niskiego ryzyka → autopilot; jeśli niska / ryzyko wysokie → przekierowanie do człowieka. 3. Człowiek otrzymuje pełen kontekst (wejście, propozycję modelu, alternatywy, uzasadnienie) w interfejsie (UI review, ticket, kolejka annotacji). 4. Decyzja człowieka (zatwierdź / zmień / odrzuć / oznacz) jest aplikowana: w trybie runtime — wykonanie kontynuuje się z poprawioną akcją; w trybie uczenia — decyzja jest zapisywana jako etykieta lub preferencja do datasetu. 5. (Opcjonalnie) zebrane decyzje są okresowo używane do fine-tuningu lub RLHF, dzięki czemu w długim okresie próg autopilotu rośnie i obciążenie człowieka spada.

Rozwiązany problem

W pełni autonomiczne systemy AI mają trzy słabe punkty: są podatne na halucynacje i błędy o wysokim koszcie, nie potrafią uczyć się efektywnie tylko z surowych danych (brak preferencji), i są niemożliwe do certyfikacji w domenach regulowanych (medycyna, finanse, prawo) bez audytowalnego punktu decyzji człowieka. HITL adresuje wszystkie trzy: zapewnia bramkę bezpieczeństwa dla akcji ryzykownych, dostarcza skoncentrowany sygnał treningowy tam, gdzie model jest najsłabszy, i tworzy jawny ślad ludzkiej odpowiedzialności.

Komponenty

AI proposerProdukuje kandydata do oceny.

Model lub agent generujący propozycję akcji / predykcję / odpowiedź wraz z sygnałem pewności lub poziomem ryzyka.

Oficjalna

Routing policySortuje sprawy: autopilot vs eskalacja.

Reguła lub klasyfikator decydujący, czy daną sprawę można rozstrzygnąć automatycznie, czy wymaga człowieka. Może być progiem pewności, listą typów akcji lub osobnym modelem ryzyka.

Oficjalna

Human reviewerDostarcza decyzję / sygnał uczący.

Operator, ekspert domenowy lub annotator — odbiorca eskalowanych spraw. W zależności od trybu HITL: zatwierdza akcję, etykietuje dane lub wybiera preferencję.

Review UIMost czas-uwaga między systemem a recenzentem.

Powierzchnia pokazująca człowiekowi pełen kontekst sprawy (wejście, propozycja, uzasadnienie, alternatywy). Może być inboxem, ticketem, narzędziem annotacji lub IDE.

Oficjalna

Feedback storeDomyka pętlę uczenia.

Persystencja decyzji ludzi (akceptacja/zmiana/odrzucenie + uzasadnienie). Wykorzystywana do audytu oraz jako dataset dla późniejszego fine-tuningu / RLHF.

Oficjalna

Implementacja

Implementacje referencyjne

LangGraph — Human-in-the-loop

Python · LangChain

Oficjalna

Label Studio

Python / TypeScript · HumanSignal

Oficjalna

Prodigy

Python · Explosion AI

Pułapki implementacyjne

Automation biasWysoka

Recenzenci zaczynają mechanicznie zatwierdzać sugestie modelu, zwłaszcza gdy dominują one trafnością. HITL przestaje być realnym filtrem, a staje się rytuałem.

Rozwiązanie:Wprowadź losowe „blind cases" bez sugestii modelu, ślepe pary do porównania, audyty zgody recenzentów i rotację składu.

Wąskie gardło ludzkiej przepustowościWysoka

Próg eskalacji ustawiony zbyt nisko zalewa zespół recenzentów, generując długie kolejki, dryft jakości i wypalenie.

Rozwiązanie:Skonfiguruj adaptacyjny próg z budżetem kolejki, priorytetyzację po ryzyku i ścieżkę tier-1/tier-2 z odciążeniem przez modele pomocnicze.

Stronniczy zestaw recenzentówKrytyczna

Decyzje wąskiej grupy recenzentów stają się sygnałem treningowym — model dziedziczy ich uprzedzenia kulturowe, językowe, branżowe. Szczególnie groźne w RLHF.

Rozwiązanie:Zróżnicuj demografię i ekspertyzę recenzentów, mierz agreement między grupami, używaj wielu annotatorów na przypadek i ważenia.

Brak kontekstu w UI recenzjiŚrednia

Recenzent dostaje samą propozycję bez wejścia, alternatyw lub historii — decyzje stają się losowe, jakość spada do poziomu szumu.

Rozwiązanie:Pokazuj wejście, top-k alternatyw, uzasadnienie modelu i powiązane dotychczasowe decyzje. Mierz czas review jako sygnał, czy UI dostarcza dość kontekstu.

Brak pętli zwrotnej do treninguŚrednia

Decyzje człowieka są używane tylko runtime, ale nigdy nie wracają do modelu — koszt operacyjny rośnie liniowo z ruchem, model nigdy się nie poprawia.

Rozwiązanie:Persystuj decyzje w feedback store, cyklicznie buduj dataset (fine-tuning, DPO, rule mining) i monitoruj spadek wskaźnika eskalacji w czasie.

Ewolucja

Oryginalny paper · 1994 · Machine Learning Journal · David Cohn

Improving generalization with active learning

David Cohn, Les Atlas, Richard Ladner

1994

Active learning sformalizowany

Punkt przełomowy

Cohn, Atlas, Ladner formalizują active learning — uczenie z selektywnym zapytywaniem człowieka o etykiety, jedna z pierwszych rygorystycznych form HITL.

2009

Active learning literature survey (Settles)

Burr Settles publikuje wpływowy przegląd metod active learning — uncertainty sampling, query-by-committee, expected model change — utrwalając metodologię HITL w ML.

Active Learning Literature Survey (artykuł)

2017

Deep RL from human preferences

Punkt przełomowy

Christiano i in. (OpenAI / DeepMind) pokazują, że można trenować polityki RL na podstawie ludzkich porównań — fundament późniejszego RLHF i HITL w generative AI.

Deep Reinforcement Learning from Human Preferences (artykuł)

2022

InstructGPT i mainstream RLHF

Punkt przełomowy

OpenAI publikuje InstructGPT — pierwszy duży produkt LLM zbudowany na ludzkich preferencjach. HITL staje się standardem post-trainingu modeli fundamentowych.

RLHF (koncept)Training language models to follow instructions with human feedback (artykuł)

2023

Approval gates w agentach LLM

Frameworki agentowe (LangChain, Auto-GPT) wprowadzają jawne tryby „human_approval" przed wykonaniem akcji ryzykownych — HITL w runtime LLM.

2024

LangGraph interrupt / breakpoint

Punkt przełomowy

LangGraph wprowadza pierwszorzędowy mechanizm interrupt — agent może zatrzymać graf, oczekiwać decyzji człowieka i wznowić wykonanie. HITL jako natywny prymityw orkiestracji.

LangGraph — Human-in-the-loop (artykuł)