Trening: dla każdej sekwencji uczącej x = (x₁, …, x_T) model otrzymuje całą sekwencję wejściowo i przewiduje przesunięte targety (teacher forcing). Maska przyczynowa (causal mask) w self-attention zapewnia, że pozycja t widzi wyłącznie pozycje <t. Funkcja kosztu: ℒ = −∑ₜ log p_θ(xₜ | x_<t). Cały batch tokenów jest przetwarzany równolegle. Inferencja: rozpoczyna się od kontekstu (lub BOS), w pętli model oblicza p(xₜ | x_<t), losuje xₜ przez wybrany sampling (greedy / temperature / top-k / top-p / beam), dokleja go do sekwencji i wraca z nowym kontekstem. KV-cache eliminuje powtórne obliczenia attention nad już-przetworzonymi tokenami, redukując koszt z O(t²) do O(t) per krok. Speculative decoding równolegli inferencję poprzez generację „draftu" mniejszym modelem i weryfikację dużym modelem. Generacja kończy się tokenem stop / EOS lub po osiągnięciu max length.
Modelowanie wysokowymiarowych rozkładów danych jest trudne w jednym kroku. Faktoryzacja autoregresyjna sprowadza problem do sekwencji łatwych podproblemów predykcji następnego elementu, dla których cross-entropy z teacher forcing daje stabilny i dobrze skalowalny sygnał uczenia.
Trójkątna maska w self-attention blokująca dostęp pozycji t do pozycji ≥ t. Pozwala na równoległy trening całej sekwencji bez wycieku przyszłości.
Warstwa wyjściowa (zwykle linear + softmax) zwracająca rozkład prawdopodobieństwa nad słownikiem tokenów / kategorii.
Dekoder próbkujący — greedy, temperature, top-k, top-p, beam search, contrastive, min-p. Wpływa na jakość, różnorodność i halucynacje.
Oficjalna
Pamięć tensorów K i V dla wszystkich poprzednich pozycji, eliminująca powtórne obliczenia w każdym kroku generacji.
Oficjalna
Dla tekstu: BPE / SentencePiece / Unigram. Dla audio i obrazu: VQ-VAE / RVQ. Decyduje o długości sekwencji i kompromisie kompresja-jakość.
Trening na ground-truth (teacher forcing) różni się od inferencji na własnych predykcjach — błędy się kumulują.
Greedy/beam mogą wpadać w pętle „X X X X" przy niskotemperaturowym sampling.
Model próbkuje z rozkładu — może generować tekst gramatycznie poprawny, ale faktycznie błędny.
AR generacja jest naturalnie sekwencyjna i ograniczona przepustowością pamięci (memory-bandwidth bound).
KV-cache rośnie liniowo z długością kontekstu i liczbą warstw — przy 128k+ staje się głównym konsumentem VRAM.
Bengio i in. wprowadzają neuronowy autoregresyjny model języka jako alternatywę dla n-gramów.
Sutskever i in. + Cho i in. pokazują autoregresyjne dekodery RNN do tłumaczenia.
van den Oord i in. rozszerzają AR na piksele, wprowadzając maskowane konwolucje.
DeepMind pokazuje generację surowego audio przez AR causal dilated convs.
OpenAI łączy AR z architekturą Transformer i pre-trainingiem na ogromnych korpusach.
Brown i in. pokazują, że AR LM o 175B parametrów wykazuje few-shot in-context learning.
OpenAI pokazuje, że Transformer AR uczony na pikselach wytwarza użyteczne reprezentacje.
Chen i in. modelują uczenie ze wzmocnieniem jako autoregresyjną sekwencję (return, state, action).
Leviathan i in. + Chen i in. wprowadzają draft+verify do skrócenia latencji AR LLM.
Tian i in. (VAR) i He i in. (MAR) pokazują, że AR z odpowiednim porządkiem skali pokonuje dyfuzję na ImageNet.
Złożoność czasowa: O(T · C(t)) inferencja, gdzie C(t) = koszt jednego forward passa po t krokach (z KV-cache O(t·d), bez O(t²·d)).
Maksymalna długość sekwencji widocznej dla modelu (4k, 32k, 128k, 1M).
Liczba tokenów słownika (dla tekstu typowo 32k-256k, dla obrazów-VQ 8k-65k).
Greedy / top-k / top-p / beam / contrastive / min-p — silnie wpływa na jakość vs różnorodność.
Współczynnik skalowania logitów: τ→0 → deterministyczne, τ>1 → bardziej kreatywne.
Twardy limit długości generacji.
BPE / SentencePiece / Unigram / VQ — wpływa na długość sekwencji i jakość.
Cała sieć jest aktywna na każdy generowany token (z wyjątkiem MoE-AR, gdzie jest sparse / conditional).
Trening jest w pełni równoległy po tokenach dzięki teacher forcing + causal mask. Inferencja jest z natury sekwencyjna po tokenach (każdy nowy token zależy od poprzedniego), choć speculative decoding i parallel sampling pozwalają na ograniczoną paralelizację.
Trening AR LM jest matmul-bound i idealnie pasuje do tensor cores. Inferencja AR jest memory-bandwidth-bound — GPU z szybkim HBM (H100/H200/MI300) jest preferowane.
Google używa TPU do treningu Gemini, PaLM. JAX/XLA dobrze paralelizuje teacher forcing.
llama.cpp z kwantyzacją (Q4-Q8) umożliwia użyteczną AR inferencję na CPU (komentarz: throughput ograniczony).
Customowe akceleratory FPGA dla AR inferencji istnieją w niszach, ale nie są mainstreamowe.