Model uczy się klasyfikować trudność zapytania i wybierać między co najmniej dwoma trybami generacji: (1) Thinking — emisja długiego łańcucha myśli przed odpowiedzią (np. zawartość między <think>…</think>); (2) NoThinking — bezpośrednia odpowiedź z pustym lub bardzo krótkim łańcuchem. W AdaptThink trening RL z ograniczonym celem zachęca model do wybierania NoThinking, dopóki nie spada jakość; importance sampling balansuje próbki Thinking i NoThinking podczas treningu on-policy, co pozwala na cold start i eksplorację obu trybów. W praktyce produkcyjnej (Claude, GPT-5, Qwen3) wybór trybu może być sterowany przez router, prompt control lub samego klienta API.
Modele rezonujące (o1, R1, QwQ) zawsze generują długi łańcuch myśli, co znacząco podnosi koszt i latencję inferencji — nawet dla trywialnych zadań, gdzie myślenie nie poprawia jakości. Adaptive Thinking rozwiązuje ten 'overthinking problem' przez umożliwienie modelowi wyboru, kiedy w ogóle myśleć.
Bez constrained objective model może nauczyć się zawsze pomijać myślenie, tracąc dokładność na trudnych zadaniach.
Modele reasoning prawie nigdy nie produkują pustego <think>, więc on-policy RL nie widzi próbek NoThinking.
Wei et al. pokazują, że LLM-y rozwiązują trudniejsze zadania, gdy generują pośrednie kroki rozumowania.
Modele rezonujące (o1, później DeepSeek-R1) zawsze generują długi łańcuch myśli, ujawniając problem 'overthinking' dla prostych zapytań.
Zhang et al. formalizują adaptacyjny wybór między Thinking i NoThinking jako algorytm RL z ograniczonym celem; redukcja długości odpowiedzi o 53% przy poprawie dokładności o 2.4 p.p. na DeepSeek-R1-Distill-Qwen-1.5B.
Kompleksowy przegląd metod adaptacyjnego myślenia dla efektywnego rozumowania (arXiv:2507.09662).
Adaptacyjne myślenie staje się domyślną strategią inferencji w komercyjnych modelach reasoning.
Decyzja o trybie podejmowana jest per zapytanie, nie globalnie.
Model emituje token/sygnał wyboru trybu (np. pusty <think></think> dla NoThinking) na podstawie własnej oceny trudności zapytania.
Sama generacja jest sekwencyjna (autoregresja), ale brak długiego łańcucha myśli przy NoThinking pozwala na znacznie krótszą sekwencję i większy throughput w batchu.