Zbior danych SFT zawiera pary (prompt p, odpowiedz y). Strata to L = -sum log P(y_t | p, y_<t). Model jest trenowany gradientowo na tych parach, zazwyczaj z małą szybkoscia uczenia. Czesto stosuje sie techniki jak LoRA lub QLoRA, by ograniczyc koszty obliczeniowe. Dane moga pochodzic od ludzkich adnotatorow (jak FLAN, Dolly) lub byc syntetycznie generowane przez mocniejszy model.
Wstepnie wytrenowane modele sa dobre w uzupełnianiu tekstu, ale nie w podazaniu za instrukcjami uzytkownikow, odpowiadaniu na pytania w formacie czatu ani w generowaniu bezpiecznych i uzytecznych odpowiedzi.
Fine-tuning wymaga GPU do obliczania gradientów na dużych modelach — minimum 1 GPU A100 80GB dla modeli 7B, multi-GPU dla modeli 70B+.
TPU v4/v5 używane przez Google i duże organizacje do SFT na modelach 100B+ dzięki wysokiej przepustowości HBM.