Robocikowo>ROBOCIKOWO
Trening

Compute-Optimal Training

2022AktywnyOpublikowano: 7 maja 2026Aktualizacja: 7 maja 2026Opublikowany
Paradygmat treningu dużych modeli językowych, w którym przy zadanym budżecie FLOPs alokuje się parametry i tokeny tak, aby zminimalizować końcową stratę pretreningu.
Kluczowa innowacja
Pokazuje, że przy stałym budżecie obliczeniowym FLOPs liczbę parametrów modelu i liczbę tokenów treningowych należy skalować w przybliżeniu w równym tempie, a nie powiększać głównie modelu kosztem danych.
Kategoria
Trening
Poziom abstrakcji
Pattern
Poziom operacji
Trening
Zastosowania
Planowanie pretreningu modeli fundamentalnychDobór rozmiaru modelu i ilości danych do budżetu GPUPorównywanie efektywności treningu między rodzinami modeliDecyzje o powiększaniu korpusu vs powiększaniu modeluSzacowanie marginalnych zwrotów ze skalowania

Jak działa

Punktem wyjścia jest aproksymacja kosztu treningu: C ≈ 6·N·D, gdzie N to liczba parametrów, a D to liczba tokenów treningowych. Hoffmann i in. (2022) zastosowali trzy uzupełniające się podejścia: (1) trening modeli o stałym rozmiarze przy zmiennej liczbie tokenów, (2) krzywe IsoFLOP — dla każdego budżetu C zmieniano N i D tak, aby C było stałe, i identyfikowano N* i D* minimalizujące stratę walidacyjną, (3) parametryczny model funkcji straty L(N, D) dopasowany do wszystkich 400+ przebiegów. Wszystkie trzy metody zgodnie wskazały, że optymalnie N i D powinny rosnąć w przybliżeniu w równej proporcji wraz z C, co odpowiada wykładnikom skalowania a ≈ 0,5 i b ≈ 0,5 w zależności N* ∝ C^a i D* ∝ C^b. W praktyce daje to regułę: aby trening był compute-optimal, należy zapewnić w przybliżeniu 20 tokenów na każdy parametr modelu. Reguła zakłada wystarczająco duży, niezduplikowany korpus, transformerową architekturę typu decoder-only oraz standardowy harmonogram learning rate dopasowany do liczby kroków.

Rozwiązany problem

Wcześniejsze prawa skalowania (Kaplan i in., 2020) sugerowały, że przy ograniczonym budżecie obliczeniowym należy powiększać głównie liczbę parametrów modelu, co prowadziło do treningu bardzo dużych, ale znacząco niedotrenowanych modeli. Compute-Optimal Training rozwiązuje problem nieoptymalnej alokacji budżetu FLOPs między rozmiar modelu a ilość danych treningowych.

Implementacja

Pułapki implementacyjne
Mylenie compute-optimal z inference-optimalWysoka

Reguła 20:1 minimalizuje stratę pretreningu przy budżecie treningu, ale nie uwzględnia kosztów wnioskowania. Modele intensywnie wykorzystywane w produkcji często warto trenować dłużej (więcej tokenów), aby zmniejszyć koszt inferencji.

Rozwiązanie:Optymalizować łączny koszt trening + inferencja na cały cykl życia modelu, a nie sam koszt pretreningu.
Niewystarczający korpusŚrednia

Reguła zakłada dostępność dużego, niezduplikowanego korpusu. Powtarzanie tych samych danych przez wiele epok łamie założenie i zaburza relację między D a faktyczną liczbą "świeżych" tokenów.

Rozwiązanie:Sprawdzić wielkość unikalnego korpusu przed planowaniem pretreningu i traktować D jako liczbę unikalnych tokenów, a nie tokenów z powtórzeniami.
Naiwna ekstrapolacja poza zakres eksperymentówŚrednia

Eksponenty skalowania zostały dopasowane na modelach do około 16B parametrów i budżetach do około 5e23 FLOPs; ekstrapolacja na rzędy wielkości większe budżety bywa zawodna.

Rozwiązanie:Przy bardzo dużych budżetach przeprowadzać własne krzywe IsoFLOP zamiast ślepo ufać wykładnikom z papieru Chinchilli.

Ewolucja

Oryginalny paper · 2022 · arXiv 2022; NeurIPS 2022 · Jordan Hoffmann
Training Compute-Optimal Large Language Models
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre
2020
Prawa skalowania Kaplana

Kaplan i in. publikują "Scaling Laws for Neural Language Models", sugerując że przy ograniczonym budżecie należy powiększać głównie model.

2022
Chinchilla i compute-optimal scaling
Punkt przełomowy

Hoffmann i in. wprowadzają regułę compute-optimal i empirycznie potwierdzają ją modelem Chinchilla 70B / 1,4T tokenów, pokonującym Gopher 280B przy tym samym budżecie FLOPs.

2023
LLaMA — przełamanie reguły 20:1

Touvron i in. trenują LLaMA na ponad bilionie tokenów dla modeli 7B–13B, świadomie wykraczając poza punkt compute-optimal, aby uzyskać tańszą inferencję przy zachowaniu jakości.

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Budżet obliczeniowy (FLOPs)Krytyczna

Całkowity budżet C w FLOPs przeznaczony na pretrening, wyznaczający wspólnie N i D.

Tokenów na parametrKrytyczna

Stosunek D/N. Według wyników Chinchilli optimum to około 20 tokenów na parametr.

20Wartość rekomendowana przez Hoffmann i in. (2022).
Liczba parametrów (N)Wysoka

Liczba parametrów modelu, dobierana wspólnie z D do budżetu C.

Liczba tokenów treningowych (D)Wysoka

Liczba unikalnych tokenów przetworzonych w pretreningu.

Wymagania sprzętowe

Podstawowe

Compute-Optimal Training to reguła alokacji budżetu FLOPs i nie zależy od konkretnego sprzętu; ma zastosowanie zarówno do GPU, jak i TPU.