Robocikowo>ROBOCIKOWO
Trening

Scaling Laws (Kaplan / Chinchilla)

2020AktywnyAktualizacja: 7 maja 2026Opublikowany
Empiryczne prawa potegowe opisujace zaleznos wydajnosci modeli jezykowych od rozmiaru parametrow, danych i obliczen.
Kluczowa innowacja
Sformalizował empiryczne prawidłowości potegowe laczace wydajnosc modelu z rozmiarem parametrow, rozmiarem danych i budzetem obliczeniowym, umozliwiajac przewidywanie wydajnosci i optymalną alokację zasobow.
Kategoria
Trening
Poziom abstrakcji
Pattern
Poziom operacji
Trening
Zastosowania
Planowanie treningu modeli jezykowychAlokacja budzetu obliczeniowegoPrzewidywanie wydajnosci modeluDecyzje o architekturze

Jak działa

Dla modeli jezykowych strata L skaluje sie jako L(N) ~ N^(-alpha_N), L(D) ~ D^(-alpha_D), L(C) ~ C^(-alpha_C), gdzie wykładniki alpha sa charakterystyczne dla modelu i zadania. Badacze dopasowuja te prawa potegowe do wynikow eksperymentow przy roznych N, D, C i ekstrapoluja do wiekszych skal.

Rozwiązany problem

Brak przewidywalnych zasad alokacji zasobow obliczeniowych: nie wiadomo, jak optymalne jest trenowanie duzego modelu przez krotki czas versus małego przez długi czas, ani ile parametrow potrzeba dla danego budzetu.

Komponenty

Liczba parametrów modelu (N)Wymiar pojemności reprezentacyjnej

Liczba uczących się wag modelu (z wykluczeniem embeddingów w oryginalnym sformułowaniu Kaplana). Główny wymiar pojemności reprezentacyjnej.

Rozmiar zbioru uczącego (D)Wymiar pojemności informacyjnej

Liczba tokenów (lub przykładów) w zbiorze uczącym. Definiuje maksymalny zasób informacji, z którego model może się uczyć.

Budżet obliczeniowy (C)Wymiar zasobów

Całkowity koszt obliczeniowy treningu, zwykle wyrażony w FLOPach. Dla transformerów z gęstą uwagą: C ≈ 6 · N · D.

Strata uczenia (L)Zmienna zależna (mierzona)

Strata cross-entropii (test/val) jako zmienna zależna w prawach skalowania: L(N), L(D), L(C) mają charakter potęgowy z asymptotą.

Wykładniki potęgowe (α_N, α_D, α_C)Parametry kształtu krzywej

Empirycznie dopasowane wykładniki kontrolujące tempo redukcji straty wraz ze wzrostem N, D lub C. W oryginalnej pracy Kaplana α_N ≈ 0.076, α_D ≈ 0.095, α_C ≈ 0.050 (szczegóły zależą od fitu).

Implementacja

Pułapki implementacyjne
Stosowanie Kaplan-optymalnej alokacji zamiast ChinchillaKrytyczna

Praca Kaplana sugerowała zwiększanie N znacznie szybciej niż D (modele takie jak GPT-3 były skutkiem). Chinchilla pokazała, że to było wynikiem niewłaściwego LR-cooldown i suboptymalnego treningu, a optymalna alokacja to ~równe skalowanie N i D (≈ 20 tokenów/parametr).

Rozwiązanie:Stosuj Chinchilla-optymalną alokację (~20 tokenów/parametr) jako baseline. Dla deployment-cost-aware treningu over-training (>>20:1) jest racjonalny — mniejszy model, więcej tokenów, niższy koszt inferencji.
Ekstrapolacja praw skalowania poza zakres pomiaruWysoka

Wykładniki α są dopasowywane na ograniczonym zakresie (N, D, C). Ekstrapolacja o 2–3 rzędy wielkości może być niedokładna, zwłaszcza w pobliżu nieredukowalnej straty (irreducible loss).

Rozwiązanie:Mierz prawa skalowania na nakładających się zakresach (małe + średnie modele) i waliduj fit przez held-out scale. Uwzględnij irreducible loss w funkcji fitującej.
Mylenie compute-optimal z deployment-optimalŚrednia

Chinchilla optymalizuje koszt treningu. W produkcji liczy się też koszt inferencji — dla modeli serwowanych miliardom użytkowników opłaca się trenować mniejsze modele dłużej (Llama, Mistral).

Rozwiązanie:Definiuj funkcję celu jako training_cost + λ · inference_cost · usage_volume. Dla wysokiego wolumenu użycia λ przesuwa optimum w stronę mniejszych modeli z większym D.
Założenie, że prawa skalowania języka są uniwersalneWysoka

Wykładniki α różnią się między modalnościami (vision, code, multimodal) i zadaniami (capability vs perplexity). Bezpośrednie przeniesienie liczb z Kaplana lub Chinchilla na inne dziedziny daje błędne predykcje.

Rozwiązanie:Dla nowej dziedziny dopasuj własne prawa skalowania na małych modelach przed dużym treningiem. Ostrożnie z benchmarkami capability — nie skalują się tak gładko jak loss.

Ewolucja

Oryginalny paper · 2020 · arXiv 2020 · Jared Kaplan
Scaling Laws for Neural Language Models
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei
2020
Scaling Laws dla modeli jezykowych (OpenAI)
Punkt przełomowy
2022
Chinchilla - prawa skalowania Hoffmanna et al.
Punkt przełomowy
2023
Prawa skalowania dla specyficznych dziedzin i modalnosci
2018
Empiryczne prawa skalowania batch size (proto)

McCandlish et al. (OpenAI) opisują skalowanie krytycznego rozmiaru batcha z gradient noise scale — prototyp metodologii Kaplana.

2024
Era over-trainingu (Llama, Mistral, Gemma)
Punkt przełomowy

Dla modeli serwowanych w produkcji opłaca się trenować poniżej Chinchilla-optimal: mniejsze N, dużo większe D (np. 100+ tokenów/parametr w Llama-3), aby obniżyć koszt inferencji.

2024
Krytyka i refit Chinchilla (Epoch AI)

Niezależne replikacje (Epoch AI) wykazały, że oryginalne fity Chinchilla mogą zaniżać optymalne D — efektywny ratio tokenów/parametr może być wyższy niż 20.

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Liczba parametrów (N)Krytyczna

Skalowalna od ~10^6 (małe testy) po ~10^12+ (frontier LLMs). Zwiększenie N redukuje stratę zgodnie z L(N) ~ N^(-α_N) przy ustalonym C.

125MGPT-2 small
1.5BGPT-2 XL
70BChinchilla
175BGPT-3 (Kaplan-optymalna), niedouczona wg Chinchilla
Rozmiar danych w tokenach (D)Krytyczna

Liczba tokenów w zbiorze uczącym. Chinchilla wykazała, że D powinno rosnąć ~liniowo z N (≈ 20 tokenów / parametr) dla optimum compute-efficient.

300BGPT-3 training tokens
1.4TChinchilla 70B (~20×N)
15T+Llama-3 era (over-training poniżej 20:1)
Budżet FLOP (C)Krytyczna

Łączny koszt treningu. Dla danego C minimalna strata osiągana jest przy konkretnej parze (N*, D*) — Chinchilla daje N* ≈ D*/20.

~3e23 FLOPGPT-3
~5.7e23 FLOPChinchilla 70B
Krytyczny rozmiar batcha (B_crit)Wysoka

Rozmiar batcha, powyżej którego korzyści z większej równoległości danych spadają. Również skaluje się jako prawo potęgowe z L (McCandlish et al. 2018).

Harmonogram learning rateWysoka

Optymalny LR i jego cooldown zależą od (N, D). Niewłaściwy LR potrafi maskować prawdziwe prawa skalowania w eksperymentach.

Kształt architektury (depth/width)Niska

Kaplan et al. wykazali, że przy ustalonym N kształt (depth vs width) ma marginalne znaczenie dla L. Stąd: skaluj N, nie strojąc shape.

Wymagania sprzętowe

Podstawowe

Prawa skalowania są obserwacją empiryczną o relacji (N, D, C) → L. Nie zależą od konkretnej architektury hardware — działają tak długo, jak długo można zmierzyć FLOPy treningu i stratę.

Dobry fit

W praktyce dopasowywanie praw skalowania wymaga przeprowadzenia wielu treningów na różnych N i D — co wymaga wydajnego hardware do treningu LLM (H100/A100/B200/TPU). Krytyczny batch size pochodzi z literatury data-parallel na GPU.

Dobry fit

Chinchilla została wytrenowana na TPU (Google). Prawa skalowania są równie ważne dla treningu na TPU, jak dla GPU.