Architektura

ALiBi

2021AktywnyOpublikowano: 9 czerwca 2026Aktualizacja: 9 czerwca 2026Opublikowany

ALiBi (Attention with Linear Biases) to alternatywne podejście do kodowania pozycji w Transformerze. Zamiast embeddingów pozycyjnych dodaje do logitów attention stały, malejący liniowo bias zależny od odległości tokenów. Każda głowa attention ma własne, geometryczne nachylenie. Pozwala modelom trenowanym na krótkich kontekstach (np. 1024) działać poprawnie na dłuższych (np. 2048+).

Kluczowa innowacja

Zastępuje klasyczne kodowanie pozycyjne (sinusoidalne, learned, RoPE) statycznym, nie-uczonym liniowym biasem dodawanym do logitów attention, proporcjonalnym do odległości między query a key — co umożliwia ekstrapolację długości sekwencji daleko poza długość treningu („train short, test long").

Kategoria

Architektura

Poziom abstrakcji

Building block

Poziom operacji

ModelTreningInferencja

Zastosowania

Modele LLM zaprojektowane od początku do ekstrapolacji długości (BLOOM, MPT, Replit Code, BloombergGPT)Trenowanie na krótkich sekwencjach z myślą o inferencji na dłuższych — oszczędność kosztu pretreninguModele kodu działające na całych plikach/repozytoriach bez fine-tuningu długiego kontekstuDomeny gdzie typowe długości inferencji są niemożliwe do przewidzenia w treningu

Jak działa

W standardowym Transformerze do każdego embeddingu wejściowego dodaje się kodowanie pozycji, a attention liczy się na podstawie samych iloczynów query·key. W ALiBi pozycyjne embeddingi są usunięte — zamiast nich do macierzy logitów attention dodawany jest stały bias o postaci -m·|i-j|, gdzie i,j to pozycje query i key, a m to stałe nachylenie specyficzne dla danej głowy attention. Wartości m tworzą ciąg geometryczny (np. dla 8 głów: 1/2, 1/4, 1/8, …, 1/256), co sprawia, że różne głowy „patrzą" w różnych zakresach kontekstu — bliskie głowy widzą lokalnie, dalekie obejmują cały kontekst. Bias jest stały, nie ma uczonych parametrów dla pozycji. Dzięki temu model trenowany na sekwencjach o długości L poprawnie ekstrapoluje na 2L, 4L i dalej, bo bias jest dobrze zdefiniowany dla dowolnej odległości |i-j|.

Rozwiązany problem

Klasyczne kodowania pozycyjne — sinusoidalne, learned, a w mniejszym stopniu także RoPE — słabo ekstrapolują na długości większe niż widziane w treningu. Pozycje spoza zakresu pretreningu są dla modelu „nowe" i jakość gwałtownie spada. Wcześniejsze podejścia wymagały albo dłuższego treningu, albo fine-tuningu (Position Interpolation, YaRN). ALiBi rozwiązuje problem strukturalnie: bias jest funkcją odległości, nie pozycji absolutnej, więc działa dla dowolnie długich sekwencji bez modyfikacji modelu.

Implementacja

Implementacje referencyjne

ofirpress/attention_with_linear_biases (oficjalne repo)

Python (PyTorch / Fairseq) · Ofir Press

Oficjalna

BLOOM (BigScience) — referencyjny LLM z ALiBi

Python · BigScience / Hugging Face

MPT-7B / MPT-30B (MosaicML)

Python · MosaicML / Databricks

Pułapki implementacyjne

Łączenie ALiBi z osobnym positional embeddingWysoka

ALiBi z założenia zastępuje pozycyjne embeddingi. Pozostawienie sinusoidal/learned/RoPE razem z ALiBi prowadzi do podwójnego sygnału pozycji i pogarsza wyniki.

Rozwiązanie:Całkowicie usunąć kodowanie pozycji przy włączeniu ALiBi.

Złe nachylenia (slopes) dla niestandardowej liczby główŚrednia

Geometryczny wzór 2^(-8/n) zakłada n = potęga dwójki. Dla niestandardowych n autorzy podają specjalne rozszerzenia wzoru — pominięcie ich obniża jakość.

Rozwiązanie:Używać slopes zgodnych z procedurą z oficjalnego repo Pressa et al.

Założenie, że ALiBi zawsze wygrywa z RoPE+YaRN/LongRoPENiska

ALiBi daje silną ekstrapolację „za darmo", ale w benchmarkach long-context (NIAH, RULER, LongBench) modele oparte o RoPE + YaRN/LongRoPE zwykle osiągają wyższe wyniki przy porównywalnej skali.

Rozwiązanie:Wybierać ALiBi gdy priorytetem jest prostota i niewielki koszt długiej inferencji. Dla maksymalnej jakości long-context preferować RoPE + YaRN/LongRoPE.

Ewolucja

Oryginalny paper · 2021 · arXiv:2108.12409 (later ICLR 2022) · Ofir Press

Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation

Ofir Press, Noah A. Smith, Mike Lewis

2017

Sinusoidal positional encoding (Vaswani et al.)

Pierwotny Transformer wprowadza sinusoidalne kodowanie pozycji jako addytywny embedding. Słabo ekstrapoluje na długości większe niż w treningu — punkt wyjścia dla wszystkich późniejszych alternatyw.

Transformer (koncept)

2021

RoPE (Su et al.)

Rotary Position Embeddings — alternatywna metoda kodowania pozycji przez rotację par wymiarów. Lepsza niż sinusoidal, ale również ograniczona ekstrapolacja bez modyfikacji typu PI/YaRN.

RoPE (koncept)

2021

ALiBi — paper Pressa et al.

Punkt przełomowy

Press, Smith, Lewis publikują ALiBi (arXiv:2108.12409). Pokazują, że stały liniowy bias w attention zastępuje pozycyjne embeddingi i daje silną ekstrapolację długości („train short, test long").

Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation (artykuł)

2022

ICLR 2022 acceptance

ALiBi zostaje przyjęte na ICLR 2022. Pomysł zaczyna być adoptowany w nowych otwartych LLM.

2022

BLOOM (BigScience) używa ALiBi

BLOOM-176B — pierwszy wielki, otwarty, wielojęzyczny LLM — wybiera ALiBi jako kodowanie pozycji, co popularyzuje metodę w społeczności open-source.

2023

MPT (MosaicML) i BloombergGPT — produkcyjne wdrożenia ALiBi

MosaicML wypuszcza rodzinę MPT (7B/30B) z ALiBi, marketing-owo eksponując zdolność „context length flexibility". BloombergGPT-50B również opiera się na ALiBi. ALiBi staje się ugruntowaną alternatywą dla RoPE.

2024

Dominacja RoPE w nowych modelach

Większość nowych dużych LLM (Llama 2/3, Qwen, DeepSeek, Mistral) wybiera RoPE + YaRN/LongRoPE jako standardową ścieżkę long-context. ALiBi pozostaje wybierane głównie tam, gdzie liczy się prostota wdrożenia i ekstrapolacja „za darmo", a nie absolutna jakość benchmarków.

ALiBi

Jak działa

Rozwiązany problem

Implementacja

Ewolucja

Hiperparametry (konfigurowalne osie)

Paradygmat wykonania

Równoległość

Wymagania sprzętowe