Trening

Foundation Model

2021AktywnyAktualizacja: 14 maja 2026Opublikowany

Model wstępnie trenowany na dużą skalę na szerokich, zazwyczaj nieoznakowanych danych, adaptowalny do wielu zadań downstream.

Kluczowa innowacja

Pojedynczy model trenowany na dużą skalę na szerokich danych ogólnego przeznaczenia, adaptowany następnie do wielu zadań bez trenowania od zera.

Kategoria

Trening

Poziom abstrakcji

Paradygmat

Poziom operacji

ModelTreningPo-treningInferencja

Zastosowania

Modele językowe (LLM)Generacja obrazuMultimodalne rozumienieRobotyka (foundation models do manipulacji i sterowania)Wyszukiwanie i retrievalWbudowanie i embeddings

Jak działa

1) Pretraining: model uczy się ogólnych reprezentacji na bardzo dużym, różnorodnym korpusie (najczęściej self-supervised, np. predykcja następnego tokena, masked language modeling, contrastive learning). 2) Adaptacja: ten sam model jest dostosowywany do konkretnych zadań przez fine-tuning, instruction tuning, RLHF, prompting lub adaptery (LoRA). Skala (parametrów, danych, obliczeń) prowadzi do "emergent capabilities" – zdolności nieobecnych w mniejszych modelach.

Rozwiązany problem

Eliminuje konieczność trenowania osobnego modelu od zera dla każdego zadania – jeden duży, ogólny model adaptuje się do wielu zastosowań niskim kosztem.

Implementacja

Implementacje referencyjne

Hugging Face Transformers

Python · Hugging Face

Stanford CRFM (HELM benchmark and resources)

Python · Stanford CRFM

Oficjalna

Pułapki implementacyjne

Zatrucie i kontaminacja korpusu pretrainingowegoWysoka

Korpus skali webu zawiera dane testowe znanych benchmarków, treści toksyczne i błędne fakty. Bez aktywnej deduplikacji i filtrowania powoduje nadinterpretację metryk i pamiętanie konkretnych przykładów (memorization).

Rozwiązanie:Deduplikacja n-gramowa względem benchmarków (BIG-bench, MMLU), filtry jakości (Common Crawl → C4 → RefinedWeb), audyty toksyczności (Perspective API, toxicity classifiers).

Wycieki ewaluacyjne (eval leakage)Wysoka

Foundation models trenowane na danych z internetu często zawierają zestawy ewaluacyjne w korpusie pretrainingowym, zawyżając wyniki na MMLU, HumanEval, GSM8K i in.

Rozwiązanie:Trzymanie 'held-out' benchmarków, używanie ewaluacji prywatnych (Scale, GPQA), kontaminacja-aware decontamination pipelines.

Koszt i niepowtarzalność pretraininguKrytyczna

Pretraining foundation model kosztuje 10M–100M+ USD i wymaga klastrów >1000 akceleratorów. Awarie hardware, niestabilność (loss spikes) i konieczność restartu z checkpointów są regułą, nie wyjątkiem.

Rozwiązanie:Częste checkpointowanie, hot-spare nodes, detekcja anomalii loss, conservative learning-rate schedules (warmup + cosine decay), gradient clipping.

Misalignment między pretrainingiem a celem downstreamWysoka

Foundation model trenowany na next-token prediction nie jest automatycznie helpful/harmless/honest. Wymaga post-trainingu (SFT + RLHF/DPO) aby zachowywać się zgodnie z intencją użytkownika.

Rozwiązanie:Pipeline: pretraining → SFT → preference tuning (RLHF, DPO, GRPO) → red-teaming → constitutional AI / safety fine-tuning.

Ewolucja

Oryginalny paper · 2021 · arXiv:2108.07258 (Stanford CRFM report) · Rishi Bommasani

On the Opportunities and Risks of Foundation Models

Rishi Bommasani, Percy Liang, Stanford CRFM (et al.)

2018

BERT i GPT – pretraining + fine-tuning jako wzorzec NLP

Punkt przełomowy

BERT (Google) i GPT (OpenAI) ustanowiły schemat 'pretrain-then-adapt' jako standard w NLP.

2020

GPT-3 i emergent capabilities

Punkt przełomowy

GPT-3 pokazał, że skalowanie powoduje pojawianie się zdolności few-shot bez fine-tuningu.

2021

Stanford CRFM ukuwa termin 'foundation model'

Punkt przełomowy

Raport Bommasani i in. formalizuje paradygmat i wprowadza nazwę.

2022

Multimodalne foundation models (CLIP, DALL-E, Flamingo)

Rozszerzenie paradygmatu poza tekst – obraz, wideo, audio.

2023

Robotyczne foundation models (RT-2, RT-X)

Google DeepMind przenosi paradygmat do robotyki łącząc VLM z manipulacją.

2024

Open-weight foundation models (Llama 3, Mistral)

Otwarte wagi konkurencyjne wobec modeli zamkniętych.

2023

RT-2 — Vision-Language-Action jako foundation model dla robotyki

Punkt przełomowy

Google DeepMind wprowadza RT-2, łączący VLM (PaLI-X) z manipulacją robotyczną — pierwszy szeroko adoptowany robotic foundation model.

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control (artykuł)

2022

Chinchilla i compute-optimal scaling

Punkt przełomowy

DeepMind pokazuje, że większość ówczesnych foundation models była niedotrenowana — przy stałym compute lepiej zwiększyć dane niż parametry.

Training Compute-Optimal Large Language Models (artykuł)

Źródła

On the Opportunities and Risks of Foundation Models

Paper

Stanford CRFM / arXiv

Stanford Center for Research on Foundation Models (CRFM)

official_website

Stanford University

Training Compute-Optimal Large Language Models (Chinchilla)

Paper

DeepMind / arXiv

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Paper

Google DeepMind / arXiv

HELM — Holistic Evaluation of Language Models

official_website

Stanford CRFM

Hiperparametry (konfigurowalne osie)

Liczba parametrówKrytyczna

Liczba trenowalnych parametrów modelu. Skala parametrów to jeden z trzech wymiarów scaling laws (obok danych i obliczeń) i koreluje z pojawianiem się emergent capabilities.

110M (BERT-base)

175B (GPT-3)

405B (Llama 3.1)

Liczba tokenów w pretraininguKrytyczna

Liczba tokenów (lub samples) widzianych w fazie pretrainingu. Chinchilla scaling laws (Hoffmann et al., 2022) wskazują na ~20 tokenów na parametr jako compute-optimal.

300B (GPT-3)

1.4T (Chinchilla)

15T (Llama 3)

Budżet obliczeniowy pretraininguKrytyczna

Całkowity nakład obliczeniowy w FLOPach przeznaczony na pretraining. Trzeci wymiar scaling laws — łącznie z parametrami i danymi determinuje compute-optimal model.

3.14e23 FLOPs (GPT-3)

5.76e23 FLOPs (Chinchilla)

Skład korpusu pretrainingowegoWysoka

Skład i proporcje źródeł danych w korpusie pretrainingowym (np. web, kod, książki, multimodal). Decyduje o profilu zdolności modelu.

Długość kontekstuWysoka

Maksymalna długość sekwencji obsługiwana przez model. Zwykle rośnie z generacjami — od 512 (BERT) do 1M+ tokenów (Gemini 1.5, Llama 4).

ModalnościWysoka

Modalności wejścia/wyjścia obsługiwane przez model (tekst, obraz, audio, wideo, akcje robotyczne). Foundation model może być unimodalny lub multimodalny.

Foundation Model

Jak działa

Rozwiązany problem

Implementacja

Ewolucja

Źródła

Złożoność obliczeniowa

Hiperparametry (konfigurowalne osie)

Paradygmat wykonania

Równoległość

Wymagania sprzętowe