AI Engineering

Pre-training vs Fine-tuning — dwie fazy życia modelu AI

Pan Robocik10 czerwca 2026 · 10 min czytania

Pan Robocik

10 czerwca 2026 · 10 min czytaniaAI-assisted · weryfikacja redakcyjna

pre-training-vs-fine-tuning-dwie-fazy-zycia-modelu-ai-cover

Każdy duży model językowy przechodzi przez kilka rozdzielnych faz uczenia: najpierw chłonie biliony tokenów z internetu, potem uczy się być posłusznym asystentem. Zrozumienie tego podziału jest kluczem do tego, kiedy warto fine-tuningować model, kiedy wystarczy RAG, a kiedy nic z tego nie ma sensu.

Czym jest pre-training i fine-tuning?

Pre-training to faza, w której świeża sieć neuronowa (najczęściej oparta o Transformer) z losowymi wagami jest trenowana na ogromnym, surowym korpusie tekstu — Common Crawl, Wikipedia, książki, kod. Jej zadaniem nie jest rozwiązanie konkretnego problemu, tylko nauczenie się rozkładu prawdopodobieństwa, z jakim po danym tokenie pojawia się następny. Efektem jest tzw. base model — bardzo erudycyjnyerudycyjny: Mający rozległą, gruntowną wiedzę z wielu dziedzin; oczytany i wszechstronnie wykształcony., ale bezużyteczny jako asystent. Zapytany „Jak zrobić naleśniki?" może odpowiedzieć „Jak zrobić gofry?", bo statystycznie pytania w internecie występują seriami.

Fine-tuning bierze taki bazowy model i modyfikuje jego zachowanie. Uczy go odpowiadać na instrukcje, formatować wynik, zachowywać określony ton, unikać szkodliwych treści. Skala jest zupełnie inna: zamiast bilionów tokenów — kilkadziesiąt do kilkuset tysięcy starannie przygotowanych przykładów. Zamiast tysięcy GPU pracujących miesiącami — pojedyncze karty pracujące godzinami.

W ostatnich dwóch latach klasyczna dychotomia „pre-training → fine-tuning" rozsypała się. Dziś producenci modeli mówią o czterech fazach: pre-training, mid-training, SFT (supervised fine-tuning) i alignment. Każda z nich ma inny cel, inne dane i inny budżet.

Kto za tym stoi?

Pre-training jest bramą wejścia do najwyższej ligi AI i zarazem barierą kapitałową. Realnie trenują modele od zera tylko duże laboratoria: OpenAI, Google DeepMind, Anthropic, Meta, Mistral, DeepSeek, xAI, Qwen (Alibaba). Trening Llama 3.1 405B firmy Meta zajął około 2–3 miesięcy na klastrze sięgającym 16 000 kart NVIDIA H100, a sumaryczny rachunek za GPU-godziny szacowany jest na 92–123 mln dolarów (ok. 370–500 mln zł) — to nie licząc kosztu samego sprzętu, który dla 24 tys. H100 idzie w setki milionów dolarów dodatkowo.

Fine-tuning natomiast jest demokratyczny. Robi go społeczność open-source na Hugging Face, startupy, zespoły produktowe w korporacjach, badacze indywidualni. Dzięki technikom typu LoRA pojedynczy inżynier z jedną kartą A100 jest w stanie dostroić model 70B do swojej domeny. Algorytm LoRA spopularyzowany przez Microsoft w 2021 r. i metody PEFT (Parameter-Efficient Fine-Tuning) zmieniły fine-tuning z luksusu w narzędzie codzienne.

Jak to działa?

Pre-training

Pre-training wykorzystuje self-supervised learning — etykiety nie pochodzą od człowieka, tylko z samej struktury tekstu. Dwa dominujące mechanizmy to:

Next-token prediction (Causal LM) — model czyta tekst od lewej do prawej i raz za razem zgaduje jedno: następne słowo, na podstawie tego, co przeczytał wcześniej. Za każdym razem porównuje swój typ z prawdziwym tokenem — słowem, które naprawdę pada w tym miejscu. Ważne, że poprawianie nie dzieje się po każdym słowie: model najpierw przewiduje całą paczkę tekstu (tysiące pozycji naraz) przy niezmienionych wagach, dopiero potem wszystkie pomyłki sumują się w jedną „stratę", a algorytm backpropagation jednym ruchem przestawia parametry tak, by następnym razem trafiać celniej. Kolejna paczka rusza już z poprawionymi wagami — i tak w kółko. Etykiet nie pisze człowiek — dostarcza je sam tekst, więc trening idzie na bilionach słów i tak model chłonie gramatykę, fakty i styl. Ten mechanizm napędza całą rodzinę GPT, Llama, Mistral, Claude.
Masked Language Modeling (MLM) — różni się od next-token jedną rzeczą: kierunkiem patrzenia. Next-token widzi tylko to, co było wcześniej, i zgaduje kolejne słowo. MLM bierze całe, gotowe zdanie i zasłania (maskuje) w nim losowe słowo — np. „Kot pije ▢ z miski" — a zadaniem modelu jest odgadnąć, co kryje się pod luką. Tym razem może podglądać kontekst z obu stron naraz: i to, co przed luką, i to, co po niej („Kot pije" oraz „z miski" razem jasno podpowiadają „mleko"). Ten dwustronny obraz daje głębsze rozumienie znaczenia, ale odbiera zdolność pisania tekstu od lewej do prawej — skoro model i tak widzi dalszą część zdania, nie uczy się jej przewidywać. To podejście modelu BERT (2018) i jego pochodnych: świetne tam, gdzie liczy się zrozumienie całości — klasyfikacja, wyszukiwanie, analiza znaczenia — a słabsze do generowania długich tekstów, w czym króluje next-token.

Fine-tuning (SFT)

Fine-tuning to już głównie supervised learning — uczenie z gotowymi odpowiedziami przygotowanymi przez ludzi. Po pre-trainingu model zna język i fakty, ale zachowuje się jak ktoś, kto potrafi tylko dokończać tekst, a nie odpowiadać na polecenia. SFT (Supervised Fine-Tuning) to naprawia: pokazujemy modelowi tysiące przykładów w formie par [polecenie] → [wzorcowa odpowiedź] — np. „Streść ten tekst" i obok gotowe, dobre streszczenie napisane przez człowieka. Model uczy się odtwarzać taką odpowiedź, a robiąc to na wielu różnych zadaniach (to właśnie instruction tuning), łapie ogólną umiejętność słuchania poleceń. Mechanika jest ta sama co w pre-trainingu — model wciąż przewiduje kolejne tokeny — zmienia się tylko materiał: zamiast losowego tekstu z internetu są starannie dobrane pary polecenie–odpowiedź. Dlatego SFT uczy przede wszystkim formy i zachowania: jak odpowiadać, w jakim tonie, w jakim formacie. Nowych faktów tu nie wgrywamy — te pochodzą z pre-trainingu.

Alignment

Po SFT przychodzi alignment — dopasowanie modelu do tego, co ludzie uznają za dobrą odpowiedź. SFT nauczył model słuchać poleceń, ale nie tego, która z kilku poprawnych odpowiedzi jest najlepsza: najbardziej pomocna, bezpieczna, w odpowiednim tonie. Tym zajmuje się alignment.

Klasyczne podejście to RLHF (Reinforcement Learning from Human Feedback), spopularyzowane przez OpenAI w InstructGPT i ChatGPT. Działa w trzech krokach. Najpierw model generuje kilka odpowiedzi na to samo pytanie, a ludzie-annotatorzy układają je od najlepszej do najgorszej. Potem z tych ocen trenuje się osobny model — reward model — czyli automatycznego „sędziego", który uczy się punktować dowolną odpowiedź tak, jak zrobiłby to człowiek. Na końcu właściwy model (LLM) jest dostrajany metodą uczenia ze wzmocnieniem (algorytm PPO) tak, by jego odpowiedzi dostawały od tego sędziego jak najwyższe noty.

RLHF jest skuteczne, ale kosztowne i kapryśne: trzeba utrzymywać kilka modeli naraz (dostrajany LLM, reward model, zwykle też kopię odniesienia), a sam model potrafi zacząć oszukiwać sędziego — produkować odpowiedzi z wysoką notą, które wcale nie są lepsze. To właśnie reward hacking.

DPO (Direct Preference Optimization), które pojawiło się w 2023 r., idzie na skróty: pokazano, że całego „sędziego" w ogóle nie trzeba. Zamiast budować osobny reward model i męczyć się z uczeniem ze wzmocnieniem, DPO bierze gotowe pary „odpowiedź lepsza / odpowiedź gorsza" prosto od ludzi i jednym krokiem przestawia model tak, by preferowaną uznawał za bardziej prawdopodobną, a odrzuconą za mniej. Trudny problem RL zamienia się więc w zwykłe zadanie klasyfikacji („wybierz lepszą"). Mniej ruchomych części — brak reward modelu, brak pętli RL — oznacza taniej i stabilniej, dlatego DPO szybko stało się domyślnym wyborem większości projektów open-source. Praktyczne różnice między PPO a DPO szczegółowo rozłożył Sebastian Raschka w analizach z 2024 roku.

Z jakich elementów się składa?

Cykl życia modelu w 2025 r. wygląda mniej więcej tak:

Pre-training na surowym, ogromnym korpusie. Cel: język, gramatyka, fakty świata. Artefakt: base model.
Mid-training — relatywnie nowy etap pomostowy. Po głównym pre-trainingu model jest jeszcze trenowany na danych wysokiej jakości (matematyka, kod, syntetyczne dane „podręcznikowe") z obniżonym learning rate. Cel: przesunięcie modelu z trybu zapamiętywania w stronę abstrakcji i rozumowania. Rodzina Phi od Microsoftu i raporty o procesie treningu Llama 4 pokazały, że ten etap radykalnie poprawia zdolność wnioskowania.
SFT (Supervised Fine-Tuning) — model uczy się odpowiadać na instrukcje, używać formatu, podążać za rolami systemowymi.
Alignment — RLHF, DPO lub nowe metody RL skupione na rozumowaniu (Reasoning RL, GRPO).

Osobnym, niezbywalnym narzędziem fine-tuningu jest LoRA (Low-Rank Adaptation): zamiast aktualizować wszystkie wagi modelu, zamraża się oryginalne parametry i dokłada małe macierze niskiego rzędu w wybranych warstwach (najczęściej attention). Aktualizowane jest często mniej niż 2% parametrów, a efektywność końcowa jest porównywalna z pełnym fine-tuningiem. Wariant QLoRA dodaje kwantyzację 4-bitową, co pozwala dostroić model 65B na pojedynczej karcie konsumenckiej.

Do czego może być używane?

Praktyczna decyzja w projekcie produkcyjnym sprowadza się do trzech ścieżek: prompt engineering, RAG i fine-tuning. Każda rozwiązuje inny problem.

Prompt engineering sprawdza się, gdy zmiana zachowania mieści się w oknie kontekstu (kilkadziesiąt–kilkaset tysięcy tokenów). Jest najtańsza, najszybsza i najbardziej iteracyjna. Ograniczenie: nie buduje pamięci długoterminowej.
RAG (Retrieval-Augmented Generation) to podstawowa metoda, gdy potrzebujemy aktualnych, weryfikowalnych faktów spoza okna kontekstu i wiedzy modelu. Dokumenty są wektoryzowane i trzymane w bazie wektorowej, zapytanie też zostaje zwektoryzowane, system pobiera top-K najbardziej podobnych fragmentów i wkleja je do promptu. RAG stał się standardem w korporacyjnych chatbotach nad bazą wiedzy, dokumentacją techniczną, regulaminami.
Fine-tuning używa się wtedy, gdy potrzeba zmienić jak model się zachowuje — wymusić sztywny format JSON, nauczyć branżowego żargonu, ujednolicić ton w tysiącach iteracji, dostroić do określonego stylu redakcyjnego. Fine-tuning jest słabym narzędziem do wgrywania nowych faktów — ten konsensus, opisany m.in. przez analityków Kore.ai i Sebastiana Raschki, jest dziś dość mocno ugruntowany.

W praktyce buduje się systemy hybrydowe (Compound AI): mały, dostrojony LoRA-adapter ujmuje wiedzę dziedzinową, RAG dostarcza fakty, prompt engineering steruje przepływem.

Czym różni się od innych rozwiązań?

Wymiar	Pre-training	Fine-tuning
Cel	budowa fundamentalnej wiedzy o języku i świecie	dopasowanie zachowania, formatu, stylu
Dane	biliony tokenów surowego tekstu	tysiące–setki tysięcy par instrukcja/odpowiedź
Mechanizm	self-supervised (next-token, MLM)	supervised + RL (RLHF, DPO, GRPO)
Koszt	dziesiątki–setki mln USD	setki–tysiące USD (LoRA)
Sprzęt	tysiące GPU H100 przez tygodnie	pojedyncze GPU przez godziny
Kto to robi	~10 globalnych laboratoriów	społeczność, startupy, korporacje

Kluczowa różnica filozoficzna: pre-training tworzy zdolności, fine-tuning kierunkuje zdolności. Jeśli zdolności nie ma w bazie — fine-tuning jej nie wymyśli.

Najważniejsze ograniczenia i wyzwania

Catastrophic forgetting — fine-tuning na nowej domenie potrafi nadpisać wcześniejszą wiedzę modelu. Im bardziej agresywny trening, tym większe ryzyko, że model przestanie umieć rzeczy, które umiał świetnie chwilę wcześniej.
Perplexity curse — w continued pre-training niska perpleksjaperpleksja: Miara „zdziwienia" modelu — jak bardzo zaskakuje go kolejne słowo w tekście. Niska perpleksja oznacza, że model dobrze przewiduje tekst. na nowych dokumentach nie koreluje z faktycznym przyswojeniem wiedzy. Model uczy się powtarzać tekst, ale nie potrafi go wykorzystać. Stąd presja na konwersję dokumentów na pary pytanie-odpowiedź zanim trafią do treningu.
Reward hacking — w RLHF model uczy się oszukiwać reward model zamiast realnie poprawiać odpowiedzi. To jeden z głównych powodów ucieczki w stronę DPO i metod opartych na regułach (rule-based rewards).
Knowledge cutoff — wiedza zamrożona w wagach starzeje się. Aktualizacja wymaga ponownego treningu lub doposażenia w RAG; samo fine-tuningowanie nowych faktów jest mało skuteczne.
Wąskie gardło danych — najnowsze modele zaczynają wyczerpywać wysokiej jakości tekst dostępny publicznie. Stąd rosnąca rola danych syntetycznych i destylacji wiedzy z większych modeli do mniejszych.

Dlaczego to jest istotne?

W 2025 roku pre-training i fine-tuning przestały być dwoma punktami na osi czasu, a stały się nazwami całych dziedzin inżynierskich. Dobitnym przykładem jest model DeepSeek-R1 — pokazał, że można pominąć część fazy SFT i zastosować masywny Reasoning RL z weryfikowalnymi nagrodami (RLVR), używając algorytmu GRPO (Group Relative Policy Optimization) zamiast PPO. R1 sam, na drodze prób i błędów, „odkrył" mechanizmy chain-of-thought i samokorekty. Co więcej, jego rozumowanie udało się zdestylować do mniejszych modeli (Llama, Qwen 32B), które dorównują zamkniętym gigantom przy ułamku kosztu.

Dla zespołów produktowych płynie z tego prosty wniosek: nie warto fine-tuningować modelu po to, żeby ominąć knowledge cutoffknowledge cutoff: Data graniczna wiedzy modelu — najnowszy moment, z którego pochodzą jego dane treningowe. Wszystko, co wydarzyło się później, jest dla modelu nieznane.. Warto fine-tuningować po to, żeby wymusić strukturę, ton i zachowanie. Każda potrzeba ma swoją dźwignię:

Fakty → RAG.
Wiedza domenowa → mid-training + SFT.
Rozumowanie → RL.

Każda z tych dźwigni działa na innym poziomie i kosztuje inne pieniądze. Kto rozumie, którą pociągnąć kiedy — buduje tańsze i lepsze produkty. Kto myśli, że fine-tuning to wszystko — wydaje miliony na coś, co RAG załatwia w popołudnie.

Ta specjalizacja będzie się tylko pogłębiać. Mid-training staje się standardowym etapem cyklu. Reasoning RL trafia do coraz większej liczby frontier modeli. A LoRA i destylacja wiedzy są coraz częściej narzędziami, którymi mała firma lokalnie dorównuje usługom z chmury — nie pisząc ani jednej linijki kodu CUDA.

Źródła

Sebastian Raschka — analizy techniki LoRA, DPO i pipeline'ów treningu LLM — sebastianraschka.com
APX ML — szacunki kosztów treningu Llama 3 405B — apxml.com
Hugging Face — zbiór dyskusji i wpisów technicznych nt. DeepSeek-R1, GRPO i Reasoning RL — huggingface.co
Toloka AI — wyjaśnienie SFT, RLHF i instruction tuningu — toloka.ai
Kore.ai — analiza fine-tuning vs RAG vs prompt engineering — kore.ai
Interconnects (Nathan Lambert) — analiza Reasoning RL i nowych algorytmów alignmentu — interconnects.ai

Udostępnij to opracowanie

01Kurs

Powiązane tematy

Pretraining (Self-Supervised Pretraining)Supervised Fine-Tuning Reinforcement Learning from Human Feedback PEFT / LoRA Retrieval-Augmented Generation Chain-of-Thought Reasoning Large Language Model Prompt Engineering OpenAI Anthropic Google DeepMind Meta AI Microsoft Common Crawl

Pre-training vs Fine-tuning — dwie fazy życia modelu AI

Czym jest pre-training i fine-tuning?

Kto za tym stoi?

Jak to działa?

Pre-training

Fine-tuning (SFT)

Alignment

Z jakich elementów się składa?

Do czego może być używane?

Czym różni się od innych rozwiązań?

Najważniejsze ograniczenia i wyzwania

Dlaczego to jest istotne?

Źródła

Dalej zgłębiaj temat

Sieci neuronowe od podstaw do nowoczesnej AI

Transformer od zera

Reinforcement Learning od podstaw

Prompt Engineering w praktyce

Pretraining

Transformer

BERT

SFT

Instruction Tuning

RL

RLHF

PPO

DPO

Reasoning RL

RLVR

GRPO

CoT

PEFT / LoRA

QLoRA

RAG

Attention Is All You Need

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Proximal Policy Optimization Algorithms

Training language models to follow instructions with human feedback

LoRA: Low-Rank Adaptation of Large Language Models

QLoRA: Efficient Finetuning of Quantized LLMs

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Powiązane tematy