Trening

Compute-Optimal Training

2022AktywnyOpublikowano: 7 maja 2026Aktualizacja: 7 maja 2026Opublikowany

Paradygmat treningu dużych modeli językowych, w którym przy zadanym budżecie FLOPs alokuje się parametry i tokeny tak, aby zminimalizować końcową stratę pretreningu.

Kluczowa innowacja

Pokazuje, że przy stałym budżecie obliczeniowym FLOPs liczbę parametrów modelu i liczbę tokenów treningowych należy skalować w przybliżeniu w równym tempie, a nie powiększać głównie modelu kosztem danych.

Kategoria

Trening

Poziom abstrakcji

Pattern

Poziom operacji

Trening

Zastosowania

Planowanie pretreningu modeli fundamentalnychDobór rozmiaru modelu i ilości danych do budżetu GPUPorównywanie efektywności treningu między rodzinami modeliDecyzje o powiększaniu korpusu vs powiększaniu modeluSzacowanie marginalnych zwrotów ze skalowania

Jak działa

Punktem wyjścia jest aproksymacja kosztu treningu: C ≈ 6·N·D, gdzie N to liczba parametrów, a D to liczba tokenów treningowych. Hoffmann i in. (2022) zastosowali trzy uzupełniające się podejścia: (1) trening modeli o stałym rozmiarze przy zmiennej liczbie tokenów, (2) krzywe IsoFLOP — dla każdego budżetu C zmieniano N i D tak, aby C było stałe, i identyfikowano N* i D* minimalizujące stratę walidacyjną, (3) parametryczny model funkcji straty L(N, D) dopasowany do wszystkich 400+ przebiegów. Wszystkie trzy metody zgodnie wskazały, że optymalnie N i D powinny rosnąć w przybliżeniu w równej proporcji wraz z C, co odpowiada wykładnikom skalowania a ≈ 0,5 i b ≈ 0,5 w zależności N* ∝ C^a i D* ∝ C^b. W praktyce daje to regułę: aby trening był compute-optimal, należy zapewnić w przybliżeniu 20 tokenów na każdy parametr modelu. Reguła zakłada wystarczająco duży, niezduplikowany korpus, transformerową architekturę typu decoder-only oraz standardowy harmonogram learning rate dopasowany do liczby kroków.

Rozwiązany problem

Wcześniejsze prawa skalowania (Kaplan i in., 2020) sugerowały, że przy ograniczonym budżecie obliczeniowym należy powiększać głównie liczbę parametrów modelu, co prowadziło do treningu bardzo dużych, ale znacząco niedotrenowanych modeli. Compute-Optimal Training rozwiązuje problem nieoptymalnej alokacji budżetu FLOPs między rozmiar modelu a ilość danych treningowych.

Implementacja

Pułapki implementacyjne

Mylenie compute-optimal z inference-optimalWysoka

Reguła 20:1 minimalizuje stratę pretreningu przy budżecie treningu, ale nie uwzględnia kosztów wnioskowania. Modele intensywnie wykorzystywane w produkcji często warto trenować dłużej (więcej tokenów), aby zmniejszyć koszt inferencji.

Rozwiązanie:Optymalizować łączny koszt trening + inferencja na cały cykl życia modelu, a nie sam koszt pretreningu.

Niewystarczający korpusŚrednia

Reguła zakłada dostępność dużego, niezduplikowanego korpusu. Powtarzanie tych samych danych przez wiele epok łamie założenie i zaburza relację między D a faktyczną liczbą "świeżych" tokenów.

Rozwiązanie:Sprawdzić wielkość unikalnego korpusu przed planowaniem pretreningu i traktować D jako liczbę unikalnych tokenów, a nie tokenów z powtórzeniami.

Naiwna ekstrapolacja poza zakres eksperymentówŚrednia

Eksponenty skalowania zostały dopasowane na modelach do około 16B parametrów i budżetach do około 5e23 FLOPs; ekstrapolacja na rzędy wielkości większe budżety bywa zawodna.

Rozwiązanie:Przy bardzo dużych budżetach przeprowadzać własne krzywe IsoFLOP zamiast ślepo ufać wykładnikom z papieru Chinchilli.

Ewolucja

Oryginalny paper · 2022 · arXiv 2022; NeurIPS 2022 · Jordan Hoffmann

Training Compute-Optimal Large Language Models

Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre

2020

Prawa skalowania Kaplana

Kaplan i in. publikują "Scaling Laws for Neural Language Models", sugerując że przy ograniczonym budżecie należy powiększać głównie model.

Scaling Laws for Neural Language Models (artykuł)

2022

Chinchilla i compute-optimal scaling

Punkt przełomowy

Hoffmann i in. wprowadzają regułę compute-optimal i empirycznie potwierdzają ją modelem Chinchilla 70B / 1,4T tokenów, pokonującym Gopher 280B przy tym samym budżecie FLOPs.

Training Compute-Optimal Large Language Models (artykuł)

2023

LLaMA — przełamanie reguły 20:1

Touvron i in. trenują LLaMA na ponad bilionie tokenów dla modeli 7B–13B, świadomie wykraczając poza punkt compute-optimal, aby uzyskać tańszą inferencję przy zachowaniu jakości.

LLaMA: Open and Efficient Foundation Language Models (artykuł)