Inne

Context Window

2017AktywnyOpublikowano: 17 maja 2026Aktualizacja: 17 maja 2026Opublikowany

Maksymalna długość sekwencji tokenów (wejściowych + wygenerowanych), którą model może jednocześnie przetwarzać. Definiowana w tokenach, nie znakach. Twardo limituje zakres jednorazowej analizy LLM i jest kluczowym parametrem rozliczeniowym API.

Kluczowa innowacja

Wprowadzenie skończonego, ale skalowalnego „pamięci roboczej" modelu autoregresywnego — maksymalnej liczby tokenów, które model może jednocześnie utrzymywać w polu uwagi. Wszystko poza nim jest dla modelu nieistniejące.

Kategoria

Inne

Poziom abstrakcji

Building block

Poziom operacji

ModelElement architekturyTreningInferencja

Zastosowania

Analiza długich dokumentów (umowy, raporty, książki) w jednym wywołaniu modelu, bez RAG.Praca nad dużymi bazami kodu w IDE AI (Cursor, Claude Code, Codex) — ładowanie całych modułów do kontekstu.Wielogodzinne konwersacje z zachowaną pełną historią (chatboty, asystenci osobiści).In-context learning z dziesiątkami/setkami przykładów few-shot — alternatywa dla fine-tuningu.Multimodalne zadania długoformatowe: streszczenia godzinnych nagrań audio, analiza filmów (Gemini 1.5/2.5).Agentowe systemy z długim łańcuchem narzędzi i ich outputów — okno mieści całą trajektorię ReAct/tool-call.

Jak działa

1. Architektura modelu definiuje maksymalną długość pozycji: positional encoding (sinusoidal w „Attention Is All You Need", learned w GPT-2, RoPE w Llama/Mistral/Qwen, ALiBi w MPT) jest projektowany lub trenowany dla konkretnego maksymalnego n.

2. KV-cache: podczas inferencji autoregresywnej każda nowo wygenerowana pozycja zapisuje swój klucz i wartość (K, V) w pamięci akceleratora. Cache rośnie liniowo z długością i jest dominującym składnikiem zużycia VRAM przy długich oknach.

3. Koszt uwagi: standardowa self-attention oblicza macierz n×n iloczynów skalarnych — O(n²) FLOPs i pamięci. Dla n=1M ta macierz to bilion elementów; bez optymalizacji niewykonalne. FlashAttention, sliding window, GQA/MQA, Mamba i podobne redukują ten koszt.

4. Rozszerzanie okna post-hoc: techniki jak RoPE scaling (linear, dynamic NTK, YaRN), positional interpolation lub long-context fine-tuning pozwalają rozszerzyć okno modelu po pretrainingu bez treningu od zera — z różną jakością.

5. W kliencie / API: prompt + history + system + tools + plik RAG są tokenizowane i muszą zmieścić się w oknie modelu. Powyżej limitu różne strategie: błąd (OpenAI), automatyczny truncate (niektóre interfejsy), sliding window over history (chatboty), lub RAG (retrieval zamiast wciskania wszystkiego).

Rozwiązany problem

Model autoregresywny musi mieć jasno zdefiniowaną dziedzinę wejścia: ile pozycji tokenowych obsługują warstwy attention, positional encoding i KV-cache. Okno kontekstu daje ten kontrakt — jednoznaczny, deterministyczny limit, który pozwala alokować pamięć z góry i przewidywać koszt operacji. W zastosowaniach praktycznych okno definiuje, czy do modelu zmieści się: cała książka, monorepozytorium kodu, długa rozmowa z historią, dokument prawny lub multimodalna zawartość (1 godzina audio ≈ kilkaset tysięcy tokenów). To bezpośrednio przekłada się na zakres zadań, które model może wykonać w jednym wywołaniu — bez potrzeby RAG lub agentowego rozbijania zadania.

Kluczowe mechanizmy

Positional encoding (sinusoidal, learned, RoPE, ALiBi) definiujący maksymalną pozycję.

KV-cache jako liniowy limit pamięciowy w runtime.

Sub-quadratic attention (sliding window, GQA/MQA, FlashAttention, Mamba) jako warunek ekonomicznej wykonalności długich okien.

Techniki rozszerzania post-hoc (RoPE scaling, YaRN, positional interpolation).

Benchmarki efektywnego okna: needle-in-a-haystack, RULER.

Mocne strony i ograniczenia

Mocne strony

✓Jednoznaczny, deterministyczny kontrakt długości wejścia — pozwala przewidzieć koszt i alokację pamięci.

✓Większe okna eliminują potrzebę RAG dla wielu przypadków — prostszy pipeline, niższa latencja end-to-end.

✓In-context learning skaluje się z oknem: setki przykładów few-shot są lepsze od fine-tuningu w wielu domenach.

✓Multimodalne długie okna (Gemini, GPT-4o) umożliwiają zadania niemożliwe wcześniej (analiza godzin video).

Ograniczenia

✗Kwadratowy koszt attention bez optymalizacji.

✗„Lost in the middle" — degradacja jakości na środku długiego kontekstu.

✗Marketingowe okno ≠ efektywne okno (RULER).

✗Koszt API i latency rosną z długością.

✗Tokenizer bias: efektywne okno dla języków non-English jest 2–3× mniejsze niż reklamowane.

✗Pokusa stuffingu zamiast budowy dobrego RAG.

Komponenty

Positional encoding

KV-cache

Mechanizm attention

Tokenizer

Implementacja

Implementacje referencyjne

FlashAttention (Tri Dao)

vLLM — high-throughput inference z PagedAttention

YaRN — efficient context extension

Needle In A Haystack (Greg Kamradt)

RULER (NVIDIA) — long-context benchmark

Pułapki implementacyjne

Reklamowane vs efektywne oknoWysoka

Modele reklamujące 1M+ tokenów często degradują jakość już przy 32k–128k (RULER). Należy weryfikować efektywne okno empirycznie dla swojej domeny, nie ufać marketingowi.

Lost in the middleWysoka

Informacja umieszczona w środku długiego kontekstu jest gorzej wykorzystywana niż na początku/końcu (Liu et al. 2023). Wpływa na strategię RAG (kolejność chunks) i layout promptu.

Eksplozja kosztu API i latencyWysoka

Koszt liczony per token i koszt obliczeniowy attention rosną razem z długością kontekstu — wypełnienie okna 1M jest setki razy droższe niż 10k. Latency prefill rośnie liniowo lub gorzej.

Tokenizer over-segmentacja non-EnglishŚrednia

Tekst w PL/JP/AR zajmuje 2–3× więcej tokenów niż angielski — efektywne okno dla tych języków jest proporcjonalnie mniejsze. „128k tokenów" ≠ „128k znaków" ani „128k słów".

Stuffing zamiast retrievalŚrednia

Pokusa „wrzucenia całego korpusu" do długiego okna często jest gorsza jakościowo i kosztowo niż dobrze zbudowany RAG. Długie okno powinno być narzędziem, nie wymówką do rezygnacji z retrieval.

Ewolucja

Oryginalny paper · 2017 · NeurIPS 2017 · Ashish Vaswani

Attention Is All You Need

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin

2017

Transformer (Vaswani et al.) — okno 512 tokenów, positional encoding sinusoidal.

Transformer (koncept)

2018

GPT-1 (OpenAI) — 512 tokenów; BERT — 512 tokenów.

2019

GPT-2 — 1024 tokeny; Transformer-XL wprowadza segment-level recurrence dla długiego kontekstu.

2020

GPT-3 (OpenAI) — 2048 tokenów; Longformer i BigBird wprowadzają sparse attention dla okien rzędu 4k–16k.

2021

RoPE (Su et al., „RoFormer") — rotary positional embeddings, podstawa praktycznie wszystkich nowoczesnych LLM (Llama, Mistral, Qwen, DeepSeek).

2022

FlashAttention (Dao et al., Stanford) — IO-aware exact attention; redukuje koszt pamięci O(n²) → O(n) bez przybliżeń, kluczowe dla długich okien.

2023

Anthropic Claude 2 — 100k tokenów; GPT-4 Turbo — 128k tokenów; pojawia się benchmark „needle in a haystack" Greg'a Kamradta.

LLM (koncept)

2023

Liu et al., „Lost in the Middle" — kanoniczne badanie pokazujące, że LLM gorzej wykorzystują informację ze środka długiego kontekstu.

2024

Gemini 1.5 Pro (Google DeepMind) — 1M tokenów (eksperymentalnie 10M), pierwszy commercially deployed model z naprawdę długim oknem multimodalnym.

GQA (koncept)

2024

RULER (Hsieh et al., NVIDIA) — benchmark wykazujący, że większość modeli „1M-context" degraduje się jakościowo na 16–64k tokenach.

2024

YaRN (Peng et al.) — efektywna technika rozszerzania okna RoPE post-hoc, zaadoptowana m.in. przez Mistral i Qwen.

2025

Llama 4 Scout (Meta) — reklamowane okno 10M tokenów; Gemini 2.5 Pro — okno 2M w produkcji.

MSA (koncept)

2025

Memory Sparse Attention (MSA) i pokrewne architektury rozszerzają efektywne okno do dziesiątek milionów tokenów przy zachowaniu sub-quadratic kosztu.

MSA (koncept)

Źródła

Attention Is All You Need (Vaswani et al., 2017)

Paper

arXiv / NeurIPS

Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023)

Paper

arXiv

FlashAttention: Fast and Memory-Efficient Exact Attention (Dao et al., 2022)

Paper

arXiv

RoFormer: Enhanced Transformer with Rotary Position Embedding (Su et al., 2021)

Paper

arXiv

YaRN: Efficient Context Window Extension of Large Language Models (Peng et al., 2023)

Paper

arXiv

RULER: What's the Real Context Size of Your Long-Context Language Models? (Hsieh et al., 2024)

Paper

arXiv / NVIDIA

Gemini 1.5: Our next-generation model — 1M token context window

article

Google

Llama 4 — 10M-token context window (Scout)

article

Meta AI

Context Window

Jak działa

Rozwiązany problem

Kluczowe mechanizmy

Mocne strony i ograniczenia

Komponenty

Implementacja

Ewolucja

Źródła

Paradygmat wykonania

Równoległość

Wymagania sprzętowe