Czym jest pre-training i fine-tuning?
Pre-training to faza, w której świeża sieć neuronowa (najczęściej oparta o Transformer) z losowymi wagami jest trenowana na ogromnym, surowym korpusie tekstu — Common Crawl, Wikipedia, książki, kod. Jej zadaniem nie jest rozwiązanie konkretnego problemu, tylko nauczenie się rozkładu prawdopodobieństwa, z jakim po danym tokenie pojawia się następny. Efektem jest tzw. base model — bardzo erudycyjny?erudycyjny: Mający rozległą, gruntowną wiedzę z wielu dziedzin; oczytany i wszechstronnie wykształcony., ale bezużyteczny jako asystent. Zapytany „Jak zrobić naleśniki?" może odpowiedzieć „Jak zrobić gofry?", bo statystycznie pytania w internecie występują seriami.
Fine-tuning bierze taki bazowy model i modyfikuje jego zachowanie. Uczy go odpowiadać na instrukcje, formatować wynik, zachowywać określony ton, unikać szkodliwych treści. Skala jest zupełnie inna: zamiast bilionów tokenów — kilkadziesiąt do kilkuset tysięcy starannie przygotowanych przykładów. Zamiast tysięcy GPU pracujących miesiącami — pojedyncze karty pracujące godzinami.
W ostatnich dwóch latach klasyczna dychotomia „pre-training → fine-tuning" rozsypała się. Dziś producenci modeli mówią o czterech fazach: pre-training, mid-training, SFT (supervised fine-tuning) i alignment. Każda z nich ma inny cel, inne dane i inny budżet.
Kto za tym stoi?
Pre-training jest bramą wejścia do najwyższej ligi AI i zarazem barierą kapitałową. Realnie trenują modele od zera tylko duże laboratoria: OpenAI, Google DeepMind, Anthropic, Meta, Mistral, DeepSeek, xAI, Qwen (Alibaba). Trening Llama 3.1 405B firmy Meta zajął około 2–3 miesięcy na klastrze sięgającym 16 000 kart NVIDIA H100, a sumaryczny rachunek za GPU-godziny szacowany jest na 92–123 mln dolarów (ok. 370–500 mln zł) — to nie licząc kosztu samego sprzętu, który dla 24 tys. H100 idzie w setki milionów dolarów dodatkowo.
Fine-tuning natomiast jest demokratyczny. Robi go społeczność open-source na Hugging Face, startupy, zespoły produktowe w korporacjach, badacze indywidualni. Dzięki technikom typu LoRA pojedynczy inżynier z jedną kartą A100 jest w stanie dostroić model 70B do swojej domeny. Algorytm LoRA spopularyzowany przez Microsoft w 2021 r. i metody PEFT (Parameter-Efficient Fine-Tuning) zmieniły fine-tuning z luksusu w narzędzie codzienne.
Jak to działa?
Pre-training
Pre-training wykorzystuje self-supervised learning — etykiety nie pochodzą od człowieka, tylko z samej struktury tekstu. Dwa dominujące mechanizmy to:
- Next-token prediction (Causal LM) — model czyta tekst od lewej do prawej i raz za razem zgaduje jedno: następne słowo, na podstawie tego, co przeczytał wcześniej. Za każdym razem porównuje swój typ z prawdziwym tokenem — słowem, które naprawdę pada w tym miejscu. Ważne, że poprawianie nie dzieje się po każdym słowie: model najpierw przewiduje całą paczkę tekstu (tysiące pozycji naraz) przy niezmienionych wagach, dopiero potem wszystkie pomyłki sumują się w jedną „stratę", a algorytm backpropagation jednym ruchem przestawia parametry tak, by następnym razem trafiać celniej. Kolejna paczka rusza już z poprawionymi wagami — i tak w kółko. Etykiet nie pisze człowiek — dostarcza je sam tekst, więc trening idzie na bilionach słów i tak model chłonie gramatykę, fakty i styl. Ten mechanizm napędza całą rodzinę GPT, Llama, Mistral, Claude.
- Masked Language Modeling (MLM) — różni się od next-token jedną rzeczą: kierunkiem patrzenia. Next-token widzi tylko to, co było wcześniej, i zgaduje kolejne słowo. MLM bierze całe, gotowe zdanie i zasłania (maskuje) w nim losowe słowo — np. „Kot pije ▢ z miski" — a zadaniem modelu jest odgadnąć, co kryje się pod luką. Tym razem może podglądać kontekst z obu stron naraz: i to, co przed luką, i to, co po niej („Kot pije" oraz „z miski" razem jasno podpowiadają „mleko"). Ten dwustronny obraz daje głębsze rozumienie znaczenia, ale odbiera zdolność pisania tekstu od lewej do prawej — skoro model i tak widzi dalszą część zdania, nie uczy się jej przewidywać. To podejście modelu BERT (2018) i jego pochodnych: świetne tam, gdzie liczy się zrozumienie całości — klasyfikacja, wyszukiwanie, analiza znaczenia — a słabsze do generowania długich tekstów, w czym króluje next-token.
Fine-tuning (SFT)
Fine-tuning to już głównie supervised learning — uczenie z gotowymi odpowiedziami przygotowanymi przez ludzi. Po pre-trainingu model zna język i fakty, ale zachowuje się jak ktoś, kto potrafi tylko dokończać tekst, a nie odpowiadać na polecenia. SFT (Supervised Fine-Tuning) to naprawia: pokazujemy modelowi tysiące przykładów w formie par [polecenie] → [wzorcowa odpowiedź] — np. „Streść ten tekst" i obok gotowe, dobre streszczenie napisane przez człowieka. Model uczy się odtwarzać taką odpowiedź, a robiąc to na wielu różnych zadaniach (to właśnie instruction tuning), łapie ogólną umiejętność słuchania poleceń. Mechanika jest ta sama co w pre-trainingu — model wciąż przewiduje kolejne tokeny — zmienia się tylko materiał: zamiast losowego tekstu z internetu są starannie dobrane pary polecenie–odpowiedź. Dlatego SFT uczy przede wszystkim formy i zachowania: jak odpowiadać, w jakim tonie, w jakim formacie. Nowych faktów tu nie wgrywamy — te pochodzą z pre-trainingu.
Alignment
Po SFT przychodzi alignment — dopasowanie modelu do tego, co ludzie uznają za dobrą odpowiedź. SFT nauczył model słuchać poleceń, ale nie tego, która z kilku poprawnych odpowiedzi jest najlepsza: najbardziej pomocna, bezpieczna, w odpowiednim tonie. Tym zajmuje się alignment.
Klasyczne podejście to RLHF (Reinforcement Learning from Human Feedback), spopularyzowane przez OpenAI w InstructGPT i ChatGPT. Działa w trzech krokach. Najpierw model generuje kilka odpowiedzi na to samo pytanie, a ludzie-annotatorzy układają je od najlepszej do najgorszej. Potem z tych ocen trenuje się osobny model — reward model — czyli automatycznego „sędziego", który uczy się punktować dowolną odpowiedź tak, jak zrobiłby to człowiek. Na końcu właściwy model (LLM) jest dostrajany metodą uczenia ze wzmocnieniem (algorytm PPO) tak, by jego odpowiedzi dostawały od tego sędziego jak najwyższe noty.
RLHF jest skuteczne, ale kosztowne i kapryśne: trzeba utrzymywać kilka modeli naraz (dostrajany LLM, reward model, zwykle też kopię odniesienia), a sam model potrafi zacząć oszukiwać sędziego — produkować odpowiedzi z wysoką notą, które wcale nie są lepsze. To właśnie reward hacking.
DPO (Direct Preference Optimization), które pojawiło się w 2023 r., idzie na skróty: pokazano, że całego „sędziego" w ogóle nie trzeba. Zamiast budować osobny reward model i męczyć się z uczeniem ze wzmocnieniem, DPO bierze gotowe pary „odpowiedź lepsza / odpowiedź gorsza" prosto od ludzi i jednym krokiem przestawia model tak, by preferowaną uznawał za bardziej prawdopodobną, a odrzuconą za mniej. Trudny problem RL zamienia się więc w zwykłe zadanie klasyfikacji („wybierz lepszą"). Mniej ruchomych części — brak reward modelu, brak pętli RL — oznacza taniej i stabilniej, dlatego DPO szybko stało się domyślnym wyborem większości projektów open-source. Praktyczne różnice między PPO a DPO szczegółowo rozłożył Sebastian Raschka w analizach z 2024 roku.
Model przechodzi przez trzy fazy treningu — w każdej uczy się od kogoś innego. Wybierz fazę i kliknij, żeby zobaczyć mechanizm krok po kroku.
Model czyta tekst od lewej do prawej i zgaduje następne słowo — widzi tylko to, co przed luką.
Tak uczą się praktycznie wszystkie modele generatywne (GPT, Llama, Mistral, Claude).
Etykieta to po prostu prawdziwe słowo, które i tak stoi w tekście — nikt jej nie pisze. Każda pomyłka odrobinę koryguje wagi modelu (backpropagation), a trening idzie na bilionach słów.
Z jakich elementów się składa?
Cykl życia modelu w 2025 r. wygląda mniej więcej tak:
- Pre-training na surowym, ogromnym korpusie. Cel: język, gramatyka, fakty świata. Artefakt: base model.
- Mid-training — relatywnie nowy etap pomostowy. Po głównym pre-trainingu model jest jeszcze trenowany na danych wysokiej jakości (matematyka, kod, syntetyczne dane „podręcznikowe") z obniżonym learning rate. Cel: przesunięcie modelu z trybu zapamiętywania w stronę abstrakcji i rozumowania. Rodzina Phi od Microsoftu i raporty o procesie treningu Llama 4 pokazały, że ten etap radykalnie poprawia zdolność wnioskowania.
- SFT (Supervised Fine-Tuning) — model uczy się odpowiadać na instrukcje, używać formatu, podążać za rolami systemowymi.
- Alignment — RLHF, DPO lub nowe metody RL skupione na rozumowaniu (Reasoning RL, GRPO).
Gotowy model nie powstaje w jednym kroku — przechodzi przez kilka etapów, a każdy dokłada nową zdolność. Klikaj etapy i zobacz, jak model rośnie.
Osobnym, niezbywalnym narzędziem fine-tuningu jest LoRA (Low-Rank Adaptation): zamiast aktualizować wszystkie wagi modelu, zamraża się oryginalne parametry i dokłada małe macierze niskiego rzędu w wybranych warstwach (najczęściej attention). Aktualizowane jest często mniej niż 2% parametrów, a efektywność końcowa jest porównywalna z pełnym fine-tuningiem. Wariant QLoRA dodaje kwantyzację 4-bitową, co pozwala dostroić model 65B na pojedynczej karcie konsumenckiej.
Fine-tuning nie musi ruszać wszystkich wag. Porównaj trzy podejścia na schemacie warstw modelu.
Do czego może być używane?
Praktyczna decyzja w projekcie produkcyjnym sprowadza się do trzech ścieżek: prompt engineering, RAG i fine-tuning. Każda rozwiązuje inny problem.
- Prompt engineering sprawdza się, gdy zmiana zachowania mieści się w oknie kontekstu (kilkadziesiąt–kilkaset tysięcy tokenów). Jest najtańsza, najszybsza i najbardziej iteracyjna. Ograniczenie: nie buduje pamięci długoterminowej.
- RAG (Retrieval-Augmented Generation) to podstawowa metoda, gdy potrzebujemy aktualnych, weryfikowalnych faktów spoza okna kontekstu i wiedzy modelu. Dokumenty są wektoryzowane i trzymane w bazie wektorowej, zapytanie też zostaje zwektoryzowane, system pobiera top-K najbardziej podobnych fragmentów i wkleja je do promptu. RAG stał się standardem w korporacyjnych chatbotach nad bazą wiedzy, dokumentacją techniczną, regulaminami.
- Fine-tuning używa się wtedy, gdy potrzeba zmienić jak model się zachowuje — wymusić sztywny format JSON, nauczyć branżowego żargonu, ujednolicić ton w tysiącach iteracji, dostroić do określonego stylu redakcyjnego. Fine-tuning jest słabym narzędziem do wgrywania nowych faktów — ten konsensus, opisany m.in. przez analityków Kore.ai i Sebastiana Raschki, jest dziś dość mocno ugruntowany.
W praktyce buduje się systemy hybrydowe (Compound AI): mały, dostrojony LoRA-adapter ujmuje wiedzę dziedzinową, RAG dostarcza fakty, prompt engineering steruje przepływem.
Czym różni się od innych rozwiązań?
| Wymiar | Pre-training | Fine-tuning |
|---|---|---|
| Cel | budowa fundamentalnej wiedzy o języku i świecie | dopasowanie zachowania, formatu, stylu |
| Dane | biliony tokenów surowego tekstu | tysiące–setki tysięcy par instrukcja/odpowiedź |
| Mechanizm | self-supervised (next-token, MLM) | supervised + RL (RLHF, DPO, GRPO) |
| Koszt | dziesiątki–setki mln USD | setki–tysiące USD (LoRA) |
| Sprzęt | tysiące GPU H100 przez tygodnie | pojedyncze GPU przez godziny |
| Kto to robi | ~10 globalnych laboratoriów | społeczność, startupy, korporacje |
Kluczowa różnica filozoficzna: pre-training tworzy zdolności, fine-tuning kierunkuje zdolności. Jeśli zdolności nie ma w bazie — fine-tuning jej nie wymyśli.
Najważniejsze ograniczenia i wyzwania
- Catastrophic forgetting — fine-tuning na nowej domenie potrafi nadpisać wcześniejszą wiedzę modelu. Im bardziej agresywny trening, tym większe ryzyko, że model przestanie umieć rzeczy, które umiał świetnie chwilę wcześniej.
- Perplexity curse — w continued pre-training niska perpleksja?perpleksja: Miara „zdziwienia" modelu — jak bardzo zaskakuje go kolejne słowo w tekście. Niska perpleksja oznacza, że model dobrze przewiduje tekst. na nowych dokumentach nie koreluje z faktycznym przyswojeniem wiedzy. Model uczy się powtarzać tekst, ale nie potrafi go wykorzystać. Stąd presja na konwersję dokumentów na pary pytanie-odpowiedź zanim trafią do treningu.
- Reward hacking — w RLHF model uczy się oszukiwać reward model zamiast realnie poprawiać odpowiedzi. To jeden z głównych powodów ucieczki w stronę DPO i metod opartych na regułach (rule-based rewards).
- Knowledge cutoff — wiedza zamrożona w wagach starzeje się. Aktualizacja wymaga ponownego treningu lub doposażenia w RAG; samo fine-tuningowanie nowych faktów jest mało skuteczne.
- Wąskie gardło danych — najnowsze modele zaczynają wyczerpywać wysokiej jakości tekst dostępny publicznie. Stąd rosnąca rola danych syntetycznych i destylacji wiedzy z większych modeli do mniejszych.
Dlaczego to jest istotne?
W 2025 roku pre-training i fine-tuning przestały być dwoma punktami na osi czasu, a stały się nazwami całych dziedzin inżynierskich. Dobitnym przykładem jest model DeepSeek-R1 — pokazał, że można pominąć część fazy SFT i zastosować masywny Reasoning RL z weryfikowalnymi nagrodami (RLVR), używając algorytmu GRPO (Group Relative Policy Optimization) zamiast PPO. R1 sam, na drodze prób i błędów, „odkrył" mechanizmy chain-of-thought i samokorekty. Co więcej, jego rozumowanie udało się zdestylować do mniejszych modeli (Llama, Qwen 32B), które dorównują zamkniętym gigantom przy ułamku kosztu.
Dla zespołów produktowych płynie z tego prosty wniosek: nie warto fine-tuningować modelu po to, żeby ominąć knowledge cutoff?knowledge cutoff: Data graniczna wiedzy modelu — najnowszy moment, z którego pochodzą jego dane treningowe. Wszystko, co wydarzyło się później, jest dla modelu nieznane.. Warto fine-tuningować po to, żeby wymusić strukturę, ton i zachowanie. Każda potrzeba ma swoją dźwignię:
- Fakty → RAG.
- Wiedza domenowa → mid-training + SFT.
- Rozumowanie → RL.
Każda z tych dźwigni działa na innym poziomie i kosztuje inne pieniądze. Kto rozumie, którą pociągnąć kiedy — buduje tańsze i lepsze produkty. Kto myśli, że fine-tuning to wszystko — wydaje miliony na coś, co RAG załatwia w popołudnie.
Ta specjalizacja będzie się tylko pogłębiać. Mid-training staje się standardowym etapem cyklu. Reasoning RL trafia do coraz większej liczby frontier modeli. A LoRA i destylacja wiedzy są coraz częściej narzędziami, którymi mała firma lokalnie dorównuje usługom z chmury — nie pisząc ani jednej linijki kodu CUDA.
Źródła
- Sebastian Raschka — analizy techniki LoRA, DPO i pipeline'ów treningu LLM — sebastianraschka.com
- APX ML — szacunki kosztów treningu Llama 3 405B — apxml.com
- Hugging Face — zbiór dyskusji i wpisów technicznych nt. DeepSeek-R1, GRPO i Reasoning RL — huggingface.co
- Toloka AI — wyjaśnienie SFT, RLHF i instruction tuningu — toloka.ai
- Kore.ai — analiza fine-tuning vs RAG vs prompt engineering — kore.ai
- Interconnects (Nathan Lambert) — analiza Reasoning RL i nowych algorytmów alignmentu — interconnects.ai
