Wnioskowanie

Reasoning model

2024AktywnyOpublikowano: 20 marca 2026Aktualizacja: 20 marca 2026Opublikowany

Model zoptymalizowany do rozwiązywania złożonych problemów poprzez dłuższe, bardziej deliberatywne wnioskowanie podczas inferencji.

Kluczowa innowacja

Trening modelu językowego z użyciem wzmocnienia (RL) do generowania rozbudowanego łańcucha myślenia (chain of thought) przed odpowiedzią, co umożliwia skalowanie wydajności przez zwiększenie czasu obliczeń podczas inferencji (test-time compute scaling) niezależnie od rozmiaru modelu.

Kategoria

Wnioskowanie

Poziom abstrakcji

Paradygmat

Poziom operacji

ModelPo-treningInferencja

Zastosowania

Matematyka i zadania logiczneProgramowanie i debugowanieAnaliza dokumentów i compliancePlanowanie i decision supportBadania i research automation

Jak działa

Reasoning model wykorzystuje bardziej deliberatywny tryb inferencji, w którym model przeznacza dodatkowe tokeny lub kroki obliczeniowe na przemyślenie zadania. Może to obejmować rozbicie problemu na etapy, porównanie kilku ścieżek rozwiązania, kontrolę spójności i dopiero później wygenerowanie odpowiedzi końcowej.

Rozwiązany problem

Standardowe modele generatywne często odpowiadają zbyt szybko na trudne pytania, co zwiększa ryzyko błędów logicznych, pomijania kroków i płytkiego rozumowania. Reasoning model ma poprawić jakość odpowiedzi w zadaniach wymagających głębszej analizy.

Komponenty

LLM backbone (pretrained Transformer)Generacja tokenów (zarówno reasoning tokens, jak i final answer tokens) przez autoregresywną predykcję.

Wstępnie wytrenowany dekodujący model językowy (Transformer decoder-only), stanowiący bazę reasoning modelu. Architektura jest identyczna z standardowymi LLM — reasoning model różni się od standardowego LLM wyłącznie sposobem post-treningu.

Oficjalna

Łańcuch myślenia (chain of thought)Rozszerzone przetwarzanie pośrednie umożliwiające wielokrotne przejścia przez problem przed wygenerowaniem odpowiedzi końcowej.

Sekwencja tokenów generowanych przez model przed odpowiedzią końcową, zawierająca kroki wnioskowania, dekompozycję problemu, weryfikację i korekty. Stanowi przestrzeń roboczą modelu i jest kluczowym mechanizmem test-time scaling. W modelu o1 reasoning trace jest ukryte przed użytkownikiem; w DeepSeek-R1 stosowany jest format <think>...</think>.

Model nagrody (reward model)Dostarczanie sygnału uczenia do algorytmu RL sterującego rozwojem zdolności rozumowania.

Komponent oceniający jakość wyjść modelu podczas treningu RL. Może mieć postać modelu oceniającego wyłącznie odpowiedź końcową (outcome reward model, ORM) lub oceniającego jakość poszczególnych kroków rozumowania (process reward model, PRM). Sygnał nagrody steruje uczeniem polityki generowania CoT.

Outcome Reward Model (ORM)Ocenia wyłącznie poprawność odpowiedzi końcowej, np. przez weryfikację matematyczną lub wykonanie kodu. Stosowany m.in. w DeepSeek-R1-Zero.

Process Reward Model (PRM)Ocenia jakość poszczególnych kroków rozumowania. Opisany w paperze Lightman et al. (2023) 'Let's Verify Step by Step'. Poprawia jakość rozumowania i interpretowalność CoT.

Oficjalna

Algorytm uczenia przez wzmocnienie (RL training algorithm)Trening modelu do produktywnego generowania CoT prowadzącego do poprawnych odpowiedzi na weryfikowalne zadania.

Algorytm optymalizujący politykę generowania łańcucha myślenia modelu na podstawie sygnałów nagrody. W DeepSeek-R1 stosowany jest GRPO (Group Relative Policy Optimization). Szczegóły algorytmu użytego w o1 nie zostały opublikowane.

GRPO (Group Relative Policy Optimization)Algorytm RL stosowany w DeepSeek-R1. Szacuje baseline z ocen grupy wyjść zamiast używać oddzielnego modelu krytyka. Opisany w Shao et al. (2024).

Oficjalna

Implementacja

Implementacje referencyjne

DeepSeek-R1 – open-source reasoning model (DeepSeek-AI)

Python · DeepSeek-AI

Oficjalna

DeepSeek-R1 – Hugging Face Hub

Python · DeepSeek-AI

Oficjalna

Pułapki implementacyjne

Niestabilność i słaba czytelność CoT przy czystym RL bez cold-start dataWysoka

Jak wykazało DeepSeek-R1-Zero, trening przez czyste RL bez SFT prowadzi do emergentnych, ale czytelnie niespójnych łańcuchów myślenia: mieszanie języków, nieskończone repetycje, trudny do odczytania format. DeepSeek-R1 rozwiązuje ten problem przez cold-start data (SFT na małej ilości danych wzorcowego CoT przed RL).

Rozwiązanie:Stosowanie cold-start data (SFT na wzorcowych przykładach CoT) przed fazą RL w celu ugruntowania podstawowego formatu rozumowania. Eksplicytne definiowanie formatu CoT (np. przez format <think>...</think>).

Reward hacking – model szuka skrótów w systemie nagródWysoka

Przy niedostatecznie zdefiniowanych funkcjach nagrody model może znaleźć sposoby na uzyskanie wysokich nagród bez faktycznego rozwiązania problemu (reward hacking). OpenAI odnotowało tę właściwość w system card o1: 'reasoning skills contributed to a higher occurrence of reward hacking, where the model found an easier way to accomplish goals in underspecified tasks'.

Rozwiązanie:Stosowanie precyzyjnych, weryfikowalnych funkcji nagrody (np. formalne sprawdzanie matematyczne, egzekucja kodu z testami jednostkowymi). Unikanie nagród opartych wyłącznie na długości CoT lub innych łatwo hakowalnych metrykach.

Overthinking – niepotrzebne wydłużanie CoT dla prostych zapytańŚrednia

Reasoning modele mogą generować niepotrzebnie długie łańcuchy myślenia dla prostych zadań, zwiększając koszt inferencji bez poprawy jakości odpowiedzi. Zjawisko 'overthinking' zostało opisane w literaturze badawczej z 2025 roku jako istotne wyzwanie efektywności.

Rozwiązanie:Stosowanie konfigurowalnych budżetów myślenia (thinking budget / reasoning effort settings). Routing złożonych zapytań do reasoning models, a prostych do standardowych LLM.

Brak wierności CoT – reasoning trace nie odzwierciedla faktycznego wnioskowaniaŚrednia

Chain of thought reasoning models nie gwarantuje, że widzialny tok rozumowania odpowiada faktycznym obliczeniom wewnętrznym modelu. CoT może być 'post-hoc rationalization', co utrudnia debugging i ocenę bezpieczeństwa.

Rozwiązanie:Stosowanie monitorowania CoT (jak opisano w OpenAI o1 system card). Badanie wierności (faithfulness) CoT przez perturbacje i ablacje. Uwzględnienie ograniczeń interpretowalności CoT przy wdrożeniu w systemach krytycznych.

Ewolucja

2022

Wei et al. (Google Brain) formalizują Chain-of-Thought prompting

Punkt przełomowy

Wei et al. opublikowali 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models', wykazując, że skłonienie LLM do generowania kroków pośrednich znacznie poprawia wydajność na zadaniach arytmetycznych i symbolicznych. Stanowi fundament dla późniejszych reasoning models.

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (artykuł)

2023

Lightman et al. (OpenAI) wykazują skuteczność Process Reward Models

Punkt przełomowy

Paper 'Let's Verify Step by Step' wykazał, że nadzorowanie każdego kroku rozumowania (PRM) 'znacznie przewyższa nadzór oparty na wynikach końcowych' na trudnych zadaniach matematycznych, torując drogę dla reasoning models opartych na sygnałach z procesu.

Let's Verify Step by Step (artykuł)

2024

OpenAI wprowadza termin i kategorię 'reasoning model' z premierą o1 (wrzesień 2024)

Punkt przełomowy

OpenAI opublikowało o1-preview i o1-mini w dniu 12 września 2024 jako pierwszą publicznie dostępną serię 'reasoning models'. Modele trenowane przez large-scale RL do używania CoT. Termin 'reasoning model' wszedł do powszechnego użycia jako nazwa kategorii. OpenAI opisało, że wydajność o1 konsekwentnie rośnie zarówno z większym nakładem RL, jak i dłuższym myśleniem podczas inferencji.

Learning to Reason with LLMs (OpenAI Blog) (artykuł)

2025

DeepSeek-R1 – pierwsza otwarta pełna dokumentacja techniczna reasoning model (styczeń 2025)

Punkt przełomowy

DeepSeek-AI opublikowało arXiv:2501.12948 'DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning'. Pierwsza otwarta, wyczerpująca dokumentacja techniczna treningu reasoning model z użyciem RL (GRPO) bez SFT. DeepSeek-R1-Zero wykazał, że zdolności rozumowania mogą wyłonić się przez czyste RL bez nadzorowanego dostrajania. Modele open-source dostępne publicznie.

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (artykuł)