Robocikowo>ROBOCIKOWO
Inne

Context Window

2017AktywnyOpublikowano: 17 maja 2026Aktualizacja: 17 maja 2026Opublikowany
Maksymalna długość sekwencji tokenów (wejściowych + wygenerowanych), którą model może jednocześnie przetwarzać. Definiowana w tokenach, nie znakach. Twardo limituje zakres jednorazowej analizy LLM i jest kluczowym parametrem rozliczeniowym API.
Kluczowa innowacja
Wprowadzenie skończonego, ale skalowalnego „pamięci roboczej" modelu autoregresywnego — maksymalnej liczby tokenów, które model może jednocześnie utrzymywać w polu uwagi. Wszystko poza nim jest dla modelu nieistniejące.
Kategoria
Inne
Poziom abstrakcji
Building block
Poziom operacji
ModelElement architekturyTreningInferencja
Zastosowania
Analiza długich dokumentów (umowy, raporty, książki) w jednym wywołaniu modelu, bez RAG.Praca nad dużymi bazami kodu w IDE AI (Cursor, Claude Code, Codex) — ładowanie całych modułów do kontekstu.Wielogodzinne konwersacje z zachowaną pełną historią (chatboty, asystenci osobiści).In-context learning z dziesiątkami/setkami przykładów few-shot — alternatywa dla fine-tuningu.Multimodalne zadania długoformatowe: streszczenia godzinnych nagrań audio, analiza filmów (Gemini 1.5/2.5).Agentowe systemy z długim łańcuchem narzędzi i ich outputów — okno mieści całą trajektorię ReAct/tool-call.

Jak działa

1. Architektura modelu definiuje maksymalną długość pozycji: positional encoding (sinusoidal w „Attention Is All You Need", learned w GPT-2, RoPE w Llama/Mistral/Qwen, ALiBi w MPT) jest projektowany lub trenowany dla konkretnego maksymalnego n.

2. KV-cache: podczas inferencji autoregresywnej każda nowo wygenerowana pozycja zapisuje swój klucz i wartość (K, V) w pamięci akceleratora. Cache rośnie liniowo z długością i jest dominującym składnikiem zużycia VRAM przy długich oknach.

3. Koszt uwagi: standardowa self-attention oblicza macierz n×n iloczynów skalarnych — O(n²) FLOPs i pamięci. Dla n=1M ta macierz to bilion elementów; bez optymalizacji niewykonalne. FlashAttention, sliding window, GQA/MQA, Mamba i podobne redukują ten koszt.

4. Rozszerzanie okna post-hoc: techniki jak RoPE scaling (linear, dynamic NTK, YaRN), positional interpolation lub long-context fine-tuning pozwalają rozszerzyć okno modelu po pretrainingu bez treningu od zera — z różną jakością.

5. W kliencie / API: prompt + history + system + tools + plik RAG są tokenizowane i muszą zmieścić się w oknie modelu. Powyżej limitu różne strategie: błąd (OpenAI), automatyczny truncate (niektóre interfejsy), sliding window over history (chatboty), lub RAG (retrieval zamiast wciskania wszystkiego).

Rozwiązany problem

Model autoregresywny musi mieć jasno zdefiniowaną dziedzinę wejścia: ile pozycji tokenowych obsługują warstwy attention, positional encoding i KV-cache. Okno kontekstu daje ten kontrakt — jednoznaczny, deterministyczny limit, który pozwala alokować pamięć z góry i przewidywać koszt operacji. W zastosowaniach praktycznych okno definiuje, czy do modelu zmieści się: cała książka, monorepozytorium kodu, długa rozmowa z historią, dokument prawny lub multimodalna zawartość (1 godzina audio ≈ kilkaset tysięcy tokenów). To bezpośrednio przekłada się na zakres zadań, które model może wykonać w jednym wywołaniu — bez potrzeby RAG lub agentowego rozbijania zadania.

Kluczowe mechanizmy

Positional encoding (sinusoidal, learned, RoPE, ALiBi) definiujący maksymalną pozycję.
KV-cache jako liniowy limit pamięciowy w runtime.
Sub-quadratic attention (sliding window, GQA/MQA, FlashAttention, Mamba) jako warunek ekonomicznej wykonalności długich okien.
Techniki rozszerzania post-hoc (RoPE scaling, YaRN, positional interpolation).
Benchmarki efektywnego okna: needle-in-a-haystack, RULER.

Mocne strony i ograniczenia

Mocne strony
Jednoznaczny, deterministyczny kontrakt długości wejścia — pozwala przewidzieć koszt i alokację pamięci.
Większe okna eliminują potrzebę RAG dla wielu przypadków — prostszy pipeline, niższa latencja end-to-end.
In-context learning skaluje się z oknem: setki przykładów few-shot są lepsze od fine-tuningu w wielu domenach.
Multimodalne długie okna (Gemini, GPT-4o) umożliwiają zadania niemożliwe wcześniej (analiza godzin video).
Ograniczenia
Kwadratowy koszt attention bez optymalizacji.
„Lost in the middle" — degradacja jakości na środku długiego kontekstu.
Marketingowe okno ≠ efektywne okno (RULER).
Koszt API i latency rosną z długością.
Tokenizer bias: efektywne okno dla języków non-English jest 2–3× mniejsze niż reklamowane.
Pokusa stuffingu zamiast budowy dobrego RAG.

Komponenty

Positional encoding
KV-cache
Mechanizm attention
Tokenizer

Implementacja

Pułapki implementacyjne
Reklamowane vs efektywne oknoWysoka

Modele reklamujące 1M+ tokenów często degradują jakość już przy 32k–128k (RULER). Należy weryfikować efektywne okno empirycznie dla swojej domeny, nie ufać marketingowi.

Lost in the middleWysoka

Informacja umieszczona w środku długiego kontekstu jest gorzej wykorzystywana niż na początku/końcu (Liu et al. 2023). Wpływa na strategię RAG (kolejność chunks) i layout promptu.

Eksplozja kosztu API i latencyWysoka

Koszt liczony per token i koszt obliczeniowy attention rosną razem z długością kontekstu — wypełnienie okna 1M jest setki razy droższe niż 10k. Latency prefill rośnie liniowo lub gorzej.

Tokenizer over-segmentacja non-EnglishŚrednia

Tekst w PL/JP/AR zajmuje 2–3× więcej tokenów niż angielski — efektywne okno dla tych języków jest proporcjonalnie mniejsze. „128k tokenów" ≠ „128k znaków" ani „128k słów".

Stuffing zamiast retrievalŚrednia

Pokusa „wrzucenia całego korpusu" do długiego okna często jest gorsza jakościowo i kosztowo niż dobrze zbudowany RAG. Długie okno powinno być narzędziem, nie wymówką do rezygnacji z retrieval.

Ewolucja

Oryginalny paper · 2017 · NeurIPS 2017 · Ashish Vaswani
Attention Is All You Need
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
2017
Transformer (Vaswani et al.) — okno 512 tokenów, positional encoding sinusoidal.
2018
GPT-1 (OpenAI) — 512 tokenów; BERT — 512 tokenów.
2019
GPT-2 — 1024 tokeny; Transformer-XL wprowadza segment-level recurrence dla długiego kontekstu.
2020
GPT-3 (OpenAI) — 2048 tokenów; Longformer i BigBird wprowadzają sparse attention dla okien rzędu 4k–16k.
2021
RoPE (Su et al., „RoFormer") — rotary positional embeddings, podstawa praktycznie wszystkich nowoczesnych LLM (Llama, Mistral, Qwen, DeepSeek).
2022
FlashAttention (Dao et al., Stanford) — IO-aware exact attention; redukuje koszt pamięci O(n²) → O(n) bez przybliżeń, kluczowe dla długich okien.
2023
Anthropic Claude 2 — 100k tokenów; GPT-4 Turbo — 128k tokenów; pojawia się benchmark „needle in a haystack" Greg'a Kamradta.
2023
Liu et al., „Lost in the Middle" — kanoniczne badanie pokazujące, że LLM gorzej wykorzystują informację ze środka długiego kontekstu.
2024
Gemini 1.5 Pro (Google DeepMind) — 1M tokenów (eksperymentalnie 10M), pierwszy commercially deployed model z naprawdę długim oknem multimodalnym.
2024
RULER (Hsieh et al., NVIDIA) — benchmark wykazujący, że większość modeli „1M-context" degraduje się jakościowo na 16–64k tokenach.
2024
YaRN (Peng et al.) — efektywna technika rozszerzania okna RoPE post-hoc, zaadoptowana m.in. przez Mistral i Qwen.
2025
Llama 4 Scout (Meta) — reklamowane okno 10M tokenów; Gemini 2.5 Pro — okno 2M w produkcji.
2025
Memory Sparse Attention (MSA) i pokrewne architektury rozszerzają efektywne okno do dziesiątek milionów tokenów przy zachowaniu sub-quadratic kosztu.

Paradygmat wykonania

Tryb główny
dense
Wzorzec aktywacji
all_paths_active

Równoległość

Poziom równoległości
fully_parallel
Zakres
traininginference
Ograniczenia
!Prefill (przetwarzanie promptu) jest w pełni równoległy. Generacja autoregresywna jest sekwencyjna — każdy token wymaga forward-passa nad rosnącym KV-cache. Długie okno = dłuższy prefill i więcej pamięci KV.

Wymagania sprzętowe

Podstawowe
Podstawowe
Ograniczony