1) Wybierz funkcję jądrową φ(·) (np. ELU+1, kosinusowa, losowe cechy ortogonalne FAVOR+) — ważne, by była nieujemna. 2) Zamiast obliczać A = softmax(QKᵀ) i A·V, wykonaj φ(K)ᵀV (kształt d×d), a następnie φ(Q) · (φ(K)ᵀV). 3) Mianownik normalizujący to φ(Q)·Σ φ(K). 4) W trybie autoregresywnym utrzymuj kumulowany stan S_t = S_{t−1} + φ(k_t)v_tᵀ oraz z_t = z_{t−1} + φ(k_t); odpowiedź: y_t = (φ(q_t)ᵀ S_t) / (φ(q_t)ᵀ z_t). 5) W trybie treningowym używa się postaci równoległej (chunkwise / blockwise) by wykorzystać GPU i zachować paralelizm po sekwencji.
Klasyczna uwaga skalowanego iloczynu skalarnego ma złożoność czasową i pamięciową O(n²) względem długości sekwencji, co czyni ją niepraktyczną dla bardzo długich kontekstów oraz drogą w autoregresywnej inferencji. Linear Attention przełamuje tę barierę kwadratową, umożliwiając trening i inferencję na długich sekwencjach przy zachowaniu paralelizmu treningowego i z rekurencyjną inferencją w stałej pamięci.
Nieujemna funkcja stosowana niezależnie do zapytań i kluczy; jej dobór determinuje wyrazistość i stabilność. Typowe wybory: ELU+1, kosinusowa, FAVOR+ (ortogonalne losowe cechy).
Oficjalna
Macierz akumulująca outer-products φ(k_t)v_tᵀ; pełni rolę „pamięci" w trybie autoregresywnym.
Wektor sumujący φ(k_t) służący do normalizacji wyjścia w sposób analogiczny do mianownika softmaxa.
Oficjalna
Suma φ(K) może dążyć do zera lub bardzo małych wartości na początku sekwencji, prowadząc do dzielenia przez prawie zero.
Czysta liniowa atencja ma trudności z precyzyjnym przypominaniem długoterminowym, ponieważ stan jest ściskaną sumą.
Niewłaściwe φ pogarsza ekspresywność lub stabilność treningu.
Wprowadzenie jądrowej formy uwagi z φ = ELU+1; pokazanie równoważności z RNN w trybie autoregresywnym.
Aproksymacja softmaxa przez ortogonalne losowe cechy; teoretyczne gwarancje błędu.
Hybryda formy równoległej i rekurencyjnej z eksponencjalnym zanikiem; pokazana skalowalność do dużych modeli językowych.
Praca „Transformers are SSMs" pokazuje, że selektywne SSM i liniowa atencja są dwiema stronami tej samej dualności macierzy strukturalnych.
Wzbogacenie liniowej atencji o regułę delta i bramkowanie; znacząca poprawa retrieval i długiego kontekstu.
Złożoność czasowa: O(n · d²). Złożoność przestrzenna: O(d²).
Główny koszt to akumulacja stanu φ(k_t)v_tᵀ i jego rzut przez φ(q_t). Dominuje on dla małego n; dla bardzo dużego n zysk względem softmaxa rośnie.
Wybór nieujemnej funkcji aproksymującej softmax.
Wymiar przestrzeni po przemapowaniu φ; wpływa na pojemność stanu i koszt obliczeń.
Rozmiar bloku w formie chunkwise — kompromis między paralelizmem a pamięcią.
Czy używać dzielenia przez Σ φ(K) (normalizacja typu softmax) czy wariantu nienormalizowanego.
Wszystkie tokeny biorą udział w aktualizacji stanu rekurencyjnego.
Linear Attention nie posiada routingu. Mechanizmy bramkujące/delta dodawane są w wariantach (np. Gated Linear Attention, DeltaNet).
Trening jest paralelizowany po blokach sekwencji; inferencja korzysta z formy rekurencyjnej.
Forma chunkwise mapuje się na duże matmule wykorzystujące Tensor Cores; brak quadratic attention zmniejsza zużycie pamięci HBM.
Liniowa skalowalność i regularne wzorce dostępu sprzyjają systolicznym macierzom MAC.
Możliwa inferencja autoregresywna (stan o stałym rozmiarze), ale przepustowość ograniczona przez obliczenia φ.