1) Pretraining: model uczy się ogólnych reprezentacji na bardzo dużym, różnorodnym korpusie (najczęściej self-supervised, np. predykcja następnego tokena, masked language modeling, contrastive learning). 2) Adaptacja: ten sam model jest dostosowywany do konkretnych zadań przez fine-tuning, instruction tuning, RLHF, prompting lub adaptery (LoRA). Skala (parametrów, danych, obliczeń) prowadzi do "emergent capabilities" – zdolności nieobecnych w mniejszych modelach.
Eliminuje konieczność trenowania osobnego modelu od zera dla każdego zadania – jeden duży, ogólny model adaptuje się do wielu zastosowań niskim kosztem.
Korpus skali webu zawiera dane testowe znanych benchmarków, treści toksyczne i błędne fakty. Bez aktywnej deduplikacji i filtrowania powoduje nadinterpretację metryk i pamiętanie konkretnych przykładów (memorization).
Foundation models trenowane na danych z internetu często zawierają zestawy ewaluacyjne w korpusie pretrainingowym, zawyżając wyniki na MMLU, HumanEval, GSM8K i in.
Pretraining foundation model kosztuje 10M–100M+ USD i wymaga klastrów >1000 akceleratorów. Awarie hardware, niestabilność (loss spikes) i konieczność restartu z checkpointów są regułą, nie wyjątkiem.
Foundation model trenowany na next-token prediction nie jest automatycznie helpful/harmless/honest. Wymaga post-trainingu (SFT + RLHF/DPO) aby zachowywać się zgodnie z intencją użytkownika.
BERT (Google) i GPT (OpenAI) ustanowiły schemat 'pretrain-then-adapt' jako standard w NLP.
GPT-3 pokazał, że skalowanie powoduje pojawianie się zdolności few-shot bez fine-tuningu.
Raport Bommasani i in. formalizuje paradygmat i wprowadza nazwę.
Rozszerzenie paradygmatu poza tekst – obraz, wideo, audio.
Google DeepMind przenosi paradygmat do robotyki łącząc VLM z manipulacją.
Otwarte wagi konkurencyjne wobec modeli zamkniętych.
Google DeepMind wprowadza RT-2, łączący VLM (PaLI-X) z manipulacją robotyczną — pierwszy szeroko adoptowany robotic foundation model.
DeepMind pokazuje, że większość ówczesnych foundation models była niedotrenowana — przy stałym compute lepiej zwiększyć dane niż parametry.
Liczba trenowalnych parametrów modelu. Skala parametrów to jeden z trzech wymiarów scaling laws (obok danych i obliczeń) i koreluje z pojawianiem się emergent capabilities.
Liczba tokenów (lub samples) widzianych w fazie pretrainingu. Chinchilla scaling laws (Hoffmann et al., 2022) wskazują na ~20 tokenów na parametr jako compute-optimal.
Całkowity nakład obliczeniowy w FLOPach przeznaczony na pretraining. Trzeci wymiar scaling laws — łącznie z parametrami i danymi determinuje compute-optimal model.
Skład i proporcje źródeł danych w korpusie pretrainingowym (np. web, kod, książki, multimodal). Decyduje o profilu zdolności modelu.
Maksymalna długość sekwencji obsługiwana przez model. Zwykle rośnie z generacjami — od 512 (BERT) do 1M+ tokenów (Gemini 1.5, Llama 4).
Modalności wejścia/wyjścia obsługiwane przez model (tekst, obraz, audio, wideo, akcje robotyczne). Foundation model może być unimodalny lub multimodalny.
Foundation model to paradygmat (nie architektura) — execution paradigm dotyczy najczęstszej realizacji (dense Transformer). Konkretne foundation models mogą używać sparse/MoE.
Pretraining foundation models wymaga masowej równoległości (data + model + pipeline parallelism) na klastrach tysięcy akceleratorów.
Pretraining foundation models wymaga masowych operacji macierzowych w mixed-precision (BF16/FP16/FP8) — naturalna domena GPU z tensor cores (NVIDIA H100/B200, AMD MI300).
Google TPU (v4/v5p/Trillium) były projektowane od początku pod pretraining dużych modeli; PaLM, Gemini i wiele foundation models Google trenowano na TPU.