Wnioskowanie

Adaptive Thinking

2025AktywnyOpublikowano: 29 maja 2026Aktualizacja: 29 maja 2026Opublikowany

Wzorzec inferencyjny, w którym model rezonujący dynamicznie wybiera tryb myślenia (krótki/długi lub none) w zależności od trudności pytania, redukując koszt rozumowania bez utraty jakości.

Kluczowa innowacja

Pozwala modelowi rezonującemu samodzielnie decydować, czy generować długi łańcuch myśli, czy odpowiedzieć od razu — adaptując budżet rozumowania do trudności zadania.

Kategoria

Wnioskowanie

Poziom abstrakcji

Wzorzec

Poziom operacji

InferencjaPo-trening

Zastosowania

Redukcja kosztów inferencji modeli rezonującychCzaty z mieszanym ruchem prostych i trudnych zapytańMatematyka i kodowanie z trudnością zmienną w czasieAPI z budżetem tokenów (thinking budget) sterowanym per zapytanieAgenci, gdzie część kroków wymaga deliberacji, a część nie

Jak działa

Model uczy się klasyfikować trudność zapytania i wybierać między co najmniej dwoma trybami generacji: (1) Thinking — emisja długiego łańcucha myśli przed odpowiedzią (np. zawartość między <think>…</think>); (2) NoThinking — bezpośrednia odpowiedź z pustym lub bardzo krótkim łańcuchem. W AdaptThink trening RL z ograniczonym celem zachęca model do wybierania NoThinking, dopóki nie spada jakość; importance sampling balansuje próbki Thinking i NoThinking podczas treningu on-policy, co pozwala na cold start i eksplorację obu trybów. W praktyce produkcyjnej (Claude, GPT-5, Qwen3) wybór trybu może być sterowany przez router, prompt control lub samego klienta API.

Rozwiązany problem

Modele rezonujące (o1, R1, QwQ) zawsze generują długi łańcuch myśli, co znacząco podnosi koszt i latencję inferencji — nawet dla trywialnych zadań, gdzie myślenie nie poprawia jakości. Adaptive Thinking rozwiązuje ten 'overthinking problem' przez umożliwienie modelowi wyboru, kiedy w ogóle myśleć.

Implementacja

Implementacje referencyjne

AdaptThink (THU-KEG)

Python · THU-KEG (Tsinghua University Knowledge Engineering Group)

Oficjalna

Pułapki implementacyjne

Niedouczony selektor trybu — zawsze wybiera NoThinkingWysoka

Bez constrained objective model może nauczyć się zawsze pomijać myślenie, tracąc dokładność na trudnych zadaniach.

Rozwiązanie:Constrained RL z dolnym limitem accuracy (jak w AdaptThink) lub importance sampling wymuszający eksplorację Thinking.

Cold start — brak próbek NoThinking w danych on-policyŚrednia

Modele reasoning prawie nigdy nie produkują pustego <think>, więc on-policy RL nie widzi próbek NoThinking.

Rozwiązanie:Importance sampling i wstrzykiwanie syntetycznych NoThinking trajectories w fazie cold start.

Ewolucja

Oryginalny paper · 2025 · arXiv 2505.13417 (EMNLP 2025) · Jiajie Zhang

AdaptThink: Reasoning Models Can Learn When to Think

Jiajie Zhang, Nianyi Lin, Lei Hou, Ling Feng, Juanzi Li

2022

Chain-of-Thought Prompting

Wei et al. pokazują, że LLM-y rozwiązują trudniejsze zadania, gdy generują pośrednie kroki rozumowania.

CoT (koncept)

2024

OpenAI o1 i reasoning models

Punkt przełomowy

Modele rezonujące (o1, później DeepSeek-R1) zawsze generują długi łańcuch myśli, ujawniając problem 'overthinking' dla prostych zapytań.

2025

AdaptThink (RL-based mode switching)

Punkt przełomowy

Zhang et al. formalizują adaptacyjny wybór między Thinking i NoThinking jako algorytm RL z ograniczonym celem; redukcja długości odpowiedzi o 53% przy poprawie dokładności o 2.4 p.p. na DeepSeek-R1-Distill-Qwen-1.5B.

2025

Survey: Concise and Adaptive Thinking in LRMs

Kompleksowy przegląd metod adaptacyjnego myślenia dla efektywnego rozumowania (arXiv:2507.09662).

2025

Adopcja w produktach: Claude extended thinking, GPT-5 router, Qwen3 thinking toggle

Adaptacyjne myślenie staje się domyślną strategią inferencji w komercyjnych modelach reasoning.