Tekst jest najpierw tokenizowany (np. BPE / SentencePiece) na sekwencję x = (x₁,…,x_T). Model — najczęściej dekoder-only Transformer — przekształca embedingi tokenów wejściowych przez stos warstw, w których self-attention używa maski przyczynowej: pozycja t może patrzeć tylko na pozycje ≤ t. Na wyjściu warstwa liniowa rzutuje stany ukryte na logity nad słownikiem; softmax daje rozkład P(x_t | x_<t). Stratą jest średnia cross-entropy między tym rozkładem a rzeczywistym kolejnym tokenem (teacher forcing — w treningu jako kontekst zawsze podawany jest ground-truth x_<t, nie własne predykcje modelu). Cały trening jest samonadzorowany: etykietą dla pozycji t jest po prostu token x_t z korpusu, więc nie ma potrzeby ręcznego anotowania. Na inferencji model generuje autoregresyjnie: próbkuje (greedy / top-k / top-p / temperature) x_t z rozkładu, dokleja do kontekstu i powtarza krok, aż osiągnie token końca lub limit długości.
Jak uczyć generatywne modele języka na nieoznakowanych korpusach tekstu i jak na etapie inferencji generować nowe sekwencje token po tokenie. CLM dostarcza prostego, samonadzorowanego celu, który skaluje się z wielkością danych i modelu, a jednocześnie naturalnie odpowiada generowaniu autoregresyjnemu w produkcji.
Konwertuje surowy tekst na dyskretne ID tokenów ze słownika modelu (zwykle BPE / WordPiece / SentencePiece).
Trójkątna maska zerująca uwagę do pozycji większych niż bieżąca — kluczowy mechanizm wymuszający warunkowanie wyłącznie na lewym kontekście.
Stos warstw maskowanej self-attention + FFN, który przetwarza embedingi tokenów w stany ukryte.
Liniowa projekcja stanów ukrytych na logity nad słownikiem; softmax produkuje rozkład prawdopodobieństwa P(x_t | x_<t).
Średnia ujemna log-likelihood prawdziwego następnego tokenu na każdej pozycji. Definiuje cel optymalizacji CLM.
Jeśli maska look-ahead nie jest poprawnie zastosowana w self-attention, model "podgląda" przyszłe tokeny — strata cross-entropy spada do zera (perfect cheating), ale generacja jest bezużyteczna.
Trening z teacher forcing zawsze pokazuje modelowi ground-truth, ale inferencja warunkuje na własnych predykcjach. Błędy kumulują się autoregresyjnie.
Bez maskowania paddingu w funkcji straty model "uczy się" przewidywać tokeny PAD, co wypacza metryki i zużywa pojemność.
CLM wymaga, by etykieta na pozycji t była tokenem x_{t+1}. Pomyłka w shifcie powoduje, że model uczy się identycznościowego mapowania.
Claude Shannon formalizuje predykcję następnej litery / słowa jako miarę entropii języka — informacyjno-teoretyczna pra-podstawa modelowania języka.
Pierwszy neuronowy model języka oparty na embedingach słów i sieci feedforward, przewidujący następne słowo po n-gramowym kontekście.
Rekurencyjne modele języka (RNN LM, później LSTM) dominują CLM przez kolejną dekadę — w pełni autoregresyjne, ale sekwencyjne także w treningu.
Self-attention z maską przyczynową pozwala policzyć stratę CLM dla całej sekwencji w jednym forwardzie — usuwa rekurencyjne wąskie gardło RNN.
Radford et al. pokazują, że dekoder-only Transformer pretrenowany w CLM, a następnie fine-tunowany, bije zadaniowo-specyficzne architektury.
Brown et al. demonstrują emergentne zdolności few-shot przy ekstremalnym skalowaniu CLM, ustanawiając go jako standard pretreningu LLM.
CLM pozostaje dominującym celem pretreningu w otwartych rodzinach modeli; warianty (RWKV, Mamba) eksperymentują z architekturą, ale zachowują cel CLM.
Złożoność czasowa: O(T² · d) per forward pass. Złożoność przestrzenna: O(T² + T · d).
Standardowy CLM Transformer to model gęsty — wszystkie parametry aktywne dla każdego tokenu. Warianty MoE łączą CLM z conditional computation, ale nie są częścią rdzennej definicji CLM.
Trening jest masowo równoległy — wszystkie pozycje sekwencji obliczane są jednocześnie dzięki teacher forcing (maska przyczynowa pozwala równolegle policzyć logity dla każdej pozycji t i policzyć łączną stratę). Inferencja autoregresyjna jest natomiast sekwencyjna w czasie — token x_t musi być wygenerowany przed x_{t+1}.
Maksymalna długość okna kontekstowego, na którym model warunkuje predykcję — fundamentalny parametr CLM Transformera.
Liczba unikalnych tokenów w słowniku tokenizera; determinuje rozmiar warstwy embeddings i LM head.
Algorytm subword (BPE, WordPiece, SentencePiece, Unigram) wpływa na kompresję tekstu i jakość uczenia.
W standardowym CLM zawsze włączone w treningu (kontekst = ground truth). Wyłączenie / scheduled sampling = eksperymenty z train/inference mismatch.
Trening i inferencja CLM Transformera są zdominowane przez gęste mnożenia macierzy (attention + MLP), idealnie pasujące do tensor cores (FP16/BF16/FP8).
TPU pody Google'a były historycznie używane do treningu LM (T5, PaLM, Gemini); systolic array świetnie obsługuje matmul w dense Transformerze.
Inferencja małych CLM-LLM (np. 1–7B kwantyzowanych do 4-bit, llama.cpp) jest praktycznie wykonalna na CPU AVX/AVX-512, choć wolniej niż na GPU.