Architektura

AR Generation

2003AktywnyOpublikowano: 8 czerwca 2026Aktualizacja: 8 czerwca 2026Opublikowany

Paradygmat generatywny, w którym model przewiduje rozkład następnego tokenu warunkując na wszystkich poprzednich, próbkując sekwencję krok po kroku.

Kluczowa innowacja

Faktoryzacja łącznego rozkładu p(x) = ∏ₜ p(xₜ | x_<t) sprowadza generację dowolnej sekwencji do pętli predykcji „następnego elementu", umożliwiając trenowanie maximum-likelihood i sekwencyjne próbkowanie.

Kategoria

Architektura

Poziom abstrakcji

Paradygmat

Poziom operacji

ModelTreningInferencja

Zastosowania

Modelowanie języka i generacja tekstu (GPT, Llama, Claude, Gemini, Qwen)Generacja kodu (Codex, Copilot, Cursor, AlphaCode)Generacja audio i mowy (WaveNet, AudioLM, MusicLM)Generacja obrazów (PixelRNN, ImageGPT, VAR, MAR, Parti, MUSE)Generacja wideo z autoregresją tokenów (VideoPoet, MAGVIT-v2)Polityki robotyczne (Decision Transformer, RT-1, RT-2, π0)Tłumaczenie maszynowe i generacja warunkowaModele białek i sekwencji biologicznych (ProtGPT, ESM-Generate)

Jak działa

Trening: dla każdej sekwencji uczącej x = (x₁, …, x_T) model otrzymuje całą sekwencję wejściowo i przewiduje przesunięte targety (teacher forcing). Maska przyczynowa (causal mask) w self-attention zapewnia, że pozycja t widzi wyłącznie pozycje <t. Funkcja kosztu: ℒ = −∑ₜ log p_θ(xₜ | x_<t). Cały batch tokenów jest przetwarzany równolegle. Inferencja: rozpoczyna się od kontekstu (lub BOS), w pętli model oblicza p(xₜ | x_<t), losuje xₜ przez wybrany sampling (greedy / temperature / top-k / top-p / beam), dokleja go do sekwencji i wraca z nowym kontekstem. KV-cache eliminuje powtórne obliczenia attention nad już-przetworzonymi tokenami, redukując koszt z O(t²) do O(t) per krok. Speculative decoding równolegli inferencję poprzez generację „draftu" mniejszym modelem i weryfikację dużym modelem. Generacja kończy się tokenem stop / EOS lub po osiągnięciu max length.

Rozwiązany problem

Modelowanie wysokowymiarowych rozkładów danych jest trudne w jednym kroku. Faktoryzacja autoregresyjna sprowadza problem do sekwencji łatwych podproblemów predykcji następnego elementu, dla których cross-entropy z teacher forcing daje stabilny i dobrze skalowalny sygnał uczenia.

Komponenty

Causal maskWymuszanie autoregresyjnej zależności w treningu

Trójkątna maska w self-attention blokująca dostęp pozycji t do pozycji ≥ t. Pozwala na równoległy trening całej sekwencji bez wycieku przyszłości.

Conditional distribution headWyznacza p(xₜ | x_<t)

Warstwa wyjściowa (zwykle linear + softmax) zwracająca rozkład prawdopodobieństwa nad słownikiem tokenów / kategorii.

Sampling strategyWybór xₜ z rozkładu p(xₜ | x_<t)

Dekoder próbkujący — greedy, temperature, top-k, top-p, beam search, contrastive, min-p. Wpływa na jakość, różnorodność i halucynacje.

Greedyargmax — deterministyczne, podatne na pętle.

Top-kPróbkowanie z k najprawdopodobniejszych.

Top-p (nucleus)Próbkowanie z najmniejszego zbioru o sumie prawdopodobieństwa ≥ p.

Beam searchUtrzymanie b najlepszych hipotez sekwencji — częste w tłumaczeniu.

Oficjalna

KV cacheOptymalizacja inferencji

Pamięć tensorów K i V dla wszystkich poprzednich pozycji, eliminująca powtórne obliczenia w każdym kroku generacji.

Oficjalna

TokenizerMapuje sekwencje surowych danych na tokeny dyskretne

Dla tekstu: BPE / SentencePiece / Unigram. Dla audio i obrazu: VQ-VAE / RVQ. Decyduje o długości sekwencji i kompromisie kompresja-jakość.

Implementacja

Implementacje referencyjne

Hugging Face Transformers (generate API)

Python · Hugging Face

Oficjalna

nanoGPT (referencyjny GPT od Karpathy)

Python · Andrej Karpathy

llama.cpp (efektywna AR inferencja CPU/GPU)

C/C++ · Georgi Gerganov

vLLM (high-throughput AR serving)

Python / CUDA · vLLM Team / UC Berkeley

Pułapki implementacyjne

Exposure biasŚrednia

Trening na ground-truth (teacher forcing) różni się od inferencji na własnych predykcjach — błędy się kumulują.

Rozwiązanie:Scheduled sampling, RL fine-tuning (RLHF), DPO, scoring całych sekwencji, większa skala.

Pętle generacyjne i powtórzeniaŚrednia

Greedy/beam mogą wpadać w pętle „X X X X" przy niskotemperaturowym sampling.

Rozwiązanie:Repetition penalty, no-repeat-ngram, top-p, contrastive search.

Halucynacje i niska faktycznośćWysoka

Model próbkuje z rozkładu — może generować tekst gramatycznie poprawny, ale faktycznie błędny.

Rozwiązanie:RAG, RLHF, constrained decoding, niższa temperatura, narzędzia weryfikujące.

Latencja sekwencyjnej inferencjiWysoka

AR generacja jest naturalnie sekwencyjna i ograniczona przepustowością pamięci (memory-bandwidth bound).

Rozwiązanie:KV-cache, paged attention (vLLM), speculative decoding, batchowanie, kwantyzacja.

Wzrost pamięci KV-cache wraz z długościąWysoka

KV-cache rośnie liniowo z długością kontekstu i liczbą warstw — przy 128k+ staje się głównym konsumentem VRAM.

Rozwiązanie:GQA / MQA, sliding window attention, kwantyzacja KV-cache, paged attention, kompresja KV.

Ewolucja

Oryginalny paper · 2003 · JMLR 2003 · Yoshua Bengio

A Neural Probabilistic Language Model

Yoshua Bengio, Réjean Ducharme, Pascal Vincent, Christian Jauvin

2003

Neural Probabilistic Language Model — pierwsza neuronowa AR LM

Punkt przełomowy

Bengio i in. wprowadzają neuronowy autoregresyjny model języka jako alternatywę dla n-gramów.

2014

Seq2seq — encoder-decoder AR

Sutskever i in. + Cho i in. pokazują autoregresyjne dekodery RNN do tłumaczenia.

Sequence to Sequence Learning with Neural Networks (artykuł)

2016

PixelRNN / PixelCNN — autoregresja w obrazach

van den Oord i in. rozszerzają AR na piksele, wprowadzając maskowane konwolucje.

Pixel Recurrent Neural Networks (artykuł)

2016

WaveNet — AR audio sample-by-sample

DeepMind pokazuje generację surowego audio przez AR causal dilated convs.

WaveNet: A Generative Model for Raw Audio (artykuł)

2018

GPT — Transformer AR jako fundament LLM

Punkt przełomowy

OpenAI łączy AR z architekturą Transformer i pre-trainingiem na ogromnych korpusach.

Transformer (koncept)

2020

GPT-3 — emergencja przy skali

Punkt przełomowy

Brown i in. pokazują, że AR LM o 175B parametrów wykazuje few-shot in-context learning.

LLM (koncept)

2020

ImageGPT — AR pikseli jako pretraining wizualny

OpenAI pokazuje, że Transformer AR uczony na pikselach wytwarza użyteczne reprezentacje.

2021

Decision Transformer — RL jako AR

Chen i in. modelują uczenie ze wzmocnieniem jako autoregresyjną sekwencję (return, state, action).

Decision Transformer: Reinforcement Learning via Sequence Modeling (artykuł)

2023

Speculative Decoding — paralelizacja AR inferencji

Leviathan i in. + Chen i in. wprowadzają draft+verify do skrócenia latencji AR LLM.

Speculative Decoding (koncept)Fast Inference from Transformers via Speculative Decoding (artykuł)

2024

VAR / MAR — wyzwanie dla dyfuzji w obrazach

Punkt przełomowy

Tian i in. (VAR) i He i in. (MAR) pokazują, że AR z odpowiednim porządkiem skali pokonuje dyfuzję na ImageNet.

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction (artykuł)

Źródła

A Neural Probabilistic Language Model

Paper

JMLR 2003

Sequence to Sequence Learning with Neural Networks

Paper

arXiv / NeurIPS 2014

Pixel Recurrent Neural Networks

Paper

arXiv / ICML 2016

WaveNet: A Generative Model for Raw Audio

Paper

arXiv

Improving Language Understanding by Generative Pre-Training (GPT)

Paper

OpenAI

Language Models are Few-Shot Learners (GPT-3)

Paper

arXiv / NeurIPS 2020

Decision Transformer: Reinforcement Learning via Sequence Modeling

Paper

arXiv / NeurIPS 2021

Fast Inference from Transformers via Speculative Decoding

Paper

arXiv

Visual Autoregressive Modeling (VAR)

Paper

arXiv / NeurIPS 2024

Hugging Face Transformers — text generation strategies

Dokumentacja

Hugging Face

AR Generation

Jak działa

Rozwiązany problem

Komponenty

Implementacja

Ewolucja

Źródła

Złożoność obliczeniowa

Hiperparametry (konfigurowalne osie)

Paradygmat wykonania

Równoległość

Wymagania sprzętowe