Architektura

Linear Attention

2020AktywnyOpublikowano: 7 czerwca 2026Aktualizacja: 7 czerwca 2026Opublikowany

Klasa wariantów uwagi (attention) o złożoności liniowej względem długości sekwencji, uzyskanej przez zamianę softmax na funkcje jądrowe φ(·).

Kluczowa innowacja

Zastąpienie kosztownej operacji softmax(QKᵀ) jądrową aproksymacją φ(Q)·(φ(K)ᵀV), która dzięki łączności mnożenia macierzy redukuje złożoność z O(n²·d) do O(n·d²) i pozwala wykonać autoregresywną inferencję rekurencyjnie w stałej pamięci.

Kategoria

Architektura

Poziom abstrakcji

Wzorzec

Poziom operacji

Element architekturyWarstwaInferencja

Zastosowania

Modelowanie języka na długich sekwencjachAutoregresywna inferencja w stałej pamięciModele dźwięku i sygnałów (audio, time-series)Hybrydy z atencją lokalną (sliding window)Backbony do modeli RNN-Transformer (RWKV, RetNet, DeltaNet)

Jak działa

1) Wybierz funkcję jądrową φ(·) (np. ELU+1, kosinusowa, losowe cechy ortogonalne FAVOR+) — ważne, by była nieujemna. 2) Zamiast obliczać A = softmax(QKᵀ) i A·V, wykonaj φ(K)ᵀV (kształt d×d), a następnie φ(Q) · (φ(K)ᵀV). 3) Mianownik normalizujący to φ(Q)·Σ φ(K). 4) W trybie autoregresywnym utrzymuj kumulowany stan S_t = S_{t−1} + φ(k_t)v_tᵀ oraz z_t = z_{t−1} + φ(k_t); odpowiedź: y_t = (φ(q_t)ᵀ S_t) / (φ(q_t)ᵀ z_t). 5) W trybie treningowym używa się postaci równoległej (chunkwise / blockwise) by wykorzystać GPU i zachować paralelizm po sekwencji.

Rozwiązany problem

Klasyczna uwaga skalowanego iloczynu skalarnego ma złożoność czasową i pamięciową O(n²) względem długości sekwencji, co czyni ją niepraktyczną dla bardzo długich kontekstów oraz drogą w autoregresywnej inferencji. Linear Attention przełamuje tę barierę kwadratową, umożliwiając trening i inferencję na długich sekwencjach przy zachowaniu paralelizmu treningowego i z rekurencyjną inferencją w stałej pamięci.

Komponenty

Funkcja jądrowa φ(·)Aproksymuje softmax i umożliwia rozłożenie iloczynu Q·Kᵀ na operacje liniowe.

Nieujemna funkcja stosowana niezależnie do zapytań i kluczy; jej dobór determinuje wyrazistość i stabilność. Typowe wybory: ELU+1, kosinusowa, FAVOR+ (ortogonalne losowe cechy).

INTensor zapytań/kluczy.

OUTTensor po przejściu przez φ.

ELU+1Prosta nieujemna funkcja używana w oryginalnym Linear Transformerze (Katharopoulos et al., 2020).

FAVOR+Aproksymacja softmaxa losowymi cechami ortogonalnymi (Performer, 2020).

Cosine / sin-cosFunkcja kosinusowa stosowana m.in. w cosFormer.

Oficjalna

Stan rekurencyjny S_tZastępuje cache K/V z klasycznej atencji stałą pamięcią o rozmiarze d_φ × d_v.

Macierz akumulująca outer-products φ(k_t)v_tᵀ; pełni rolę „pamięci" w trybie autoregresywnym.

INMacierz akumulowana po krokach czasu.

OUTStan po aktualizacji.

Normalizator z_tStabilizuje skalę wyjścia i zapewnia interpretację probabilistyczną.

Wektor sumujący φ(k_t) służący do normalizacji wyjścia w sposób analogiczny do mianownika softmaxa.

INWektor akumulowany po czasie.

OUTSuma cech kluczy do chwili t.

Oficjalna

Implementacja

Implementacje referencyjne

fast-transformers (linear attention)

Python · Idiap Research Institute

Oficjalna

Performer-pytorch

Python · Phil Wang (lucidrains)

Flash Linear Attention (FLA)

Python · fla-org

Pułapki implementacyjne

Niestabilność numeryczna mianownikaWysoka

Suma φ(K) może dążyć do zera lub bardzo małych wartości na początku sekwencji, prowadząc do dzielenia przez prawie zero.

Rozwiązanie:Dodawanie ε do mianownika, normalizacja warstwowa, ostrożny dobór φ.

Słabsza wydajność na zadaniach retrievalŚrednia

Czysta liniowa atencja ma trudności z precyzyjnym przypominaniem długoterminowym, ponieważ stan jest ściskaną sumą.

Rozwiązanie:Dodawanie reguły delta (DeltaNet) lub bramek (Gated Linear Attention), hybrydy z atencją lokalną.

Dobór funkcji jądrowejŚrednia

Niewłaściwe φ pogarsza ekspresywność lub stabilność treningu.

Rozwiązanie:Używaj sprawdzonych map (ELU+1, FAVOR+, cosine); kalibruj na małej skali przed pełnym treningiem.

Ewolucja

Oryginalny paper · 2020 · ICML 2020 · Angelos Katharopoulos

Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention

Angelos Katharopoulos, Apoorv Vyas, Nikolaos Pappas, François Fleuret

2020

Linear Transformer (Katharopoulos et al.)

Punkt przełomowy

Wprowadzenie jądrowej formy uwagi z φ = ELU+1; pokazanie równoważności z RNN w trybie autoregresywnym.

Transformers are RNNs (artykuł)

2020

Performer / FAVOR+

Aproksymacja softmaxa przez ortogonalne losowe cechy; teoretyczne gwarancje błędu.

Rethinking Attention with Performers (artykuł)

2023

RetNet

Hybryda formy równoległej i rekurencyjnej z eksponencjalnym zanikiem; pokazana skalowalność do dużych modeli językowych.

Retentive Network: A Successor to Transformer for Large Language Models (artykuł)

2024

Mamba2 / SSD — pomost do Linear Attention

Punkt przełomowy

Praca „Transformers are SSMs" pokazuje, że selektywne SSM i liniowa atencja są dwiema stronami tej samej dualności macierzy strukturalnych.

SSM (koncept)Transformers are SSMs (artykuł)

2024

DeltaNet & Gated DeltaNet

Wzbogacenie liniowej atencji o regułę delta i bramkowanie; znacząca poprawa retrieval i długiego kontekstu.

Gated Delta Networks: Improving Mamba2 with Delta Rule (artykuł)

Źródła

Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention

Paper

arXiv

Praca źródłowa wprowadzająca termin Linear Transformer / Linear Attention.

Rethinking Attention with Performers

Paper

arXiv

Performer i FAVOR+: aproksymacja softmaxa losowymi cechami.

Flash Linear Attention (GitHub)

Repozytorium

fla-org

Biblioteka z efektywnymi kernelami dla różnych wariantów liniowej atencji.

Linear Attention

Jak działa

Rozwiązany problem

Komponenty

Implementacja

Ewolucja

Źródła

Złożoność obliczeniowa

Wąskie gardło obliczeniowe

Hiperparametry (konfigurowalne osie)

Paradygmat wykonania

Równoległość

Wymagania sprzętowe