Architektura

DeltaNet

2021AktywnyOpublikowano: 7 czerwca 2026Aktualizacja: 7 czerwca 2026Opublikowany

Wariant liniowej atencji, który zamiast addytywnego sumowania outer-products używa reguły delta, dając precyzyjne, online korygowane mapowanie klucz → wartość.

Kluczowa innowacja

Zastąpienie addytywnej aktualizacji stanu w liniowej atencji regułą delta — w każdym kroku model zapamiętuje błąd predykcji i koryguje stan w sposób ukierunkowany, zachowując liniową złożoność.

Kategoria

Architektura

Poziom abstrakcji

Building block

Poziom operacji

Element architekturyWarstwaInferencja

Zastosowania

Modelowanie języka na długich sekwencjachZadania retrieval i associative recallHybrydy z atencją lokalną (sliding-window) i globalnąBackbony do modeli RNN-TransformerInferencja autoregresywna w stałej pamięci

Jak działa

1) Każdy token produkuje (q_t, k_t, v_t) i opcjonalny współczynnik tempa uczenia β_t ∈ (0, 1]. 2) Klucz przechodzi przez funkcję jądrową φ(·), zwykle z dodatkową normalizacją L2. 3) Model odczytuje obecne mapowanie: ṽ_t = S_{t-1} · φ(k_t). 4) Liczy błąd Δ = β_t · (v_t − ṽ_t). 5) Aktualizuje stan: S_t = S_{t-1} + Δ · φ(k_t)ᵀ — to dokładnie reguła delta z lat 60-tych (Widrow-Hoff) zaadaptowana na macierze. 6) Wyjście: y_t = S_t · φ(q_t). 7) Trening korzysta z chunkwise paralelizacji po długości sekwencji opartej na produktach macierzy Householdera, co zachowuje poprawność reguły delta i pozwala wykorzystać tensor cores GPU.

Rozwiązany problem

Liniowa atencja w wariancie addytywnym ma ograniczoną pojemność asocjacyjną — stan rośnie monotonicznie i nowe pary klucz-wartość nie wypierają poprzednich, co prowadzi do słabego retrieval w długim kontekście. DeltaNet rozwiązuje ten problem przez online korektę pamięci.

Komponenty

Stan fast weights S_tPamięta i aktualizuje skojarzenia klucz-wartość metodą reguły delta.

Macierz przechowująca aktualne mapowanie φ(k) → v; pełni rolę „pamięci krótkoterminowej" warstwy.

INMacierz akumulowana po krokach czasu.

OUTStan po aktualizacji rangą-1.

Reguła deltaZastępuje czysto addytywną aktualizację outer-products w liniowej atencji.

Mechanizm aktualizacji: liczymy błąd między bieżącą predykcją a wartością celu, a następnie korygujemy stan w kierunku zmniejszenia tego błędu.

INWartość docelowa, predykcja stanu i tempo uczenia.

OUTWektor korekty Δ używany w rang-1 update.

Stała βStałe tempo uczenia, traktowane jako hiperparametr.

Wyuczone β_tTempo uczenia zależne od tokena (sigmoid z projekcji).

Oficjalna

Funkcja jądrowa φ(·) z normalizacjąZapewnia, że nowe klucze są względnie ortogonalne, dzięki czemu reguła delta nie kasuje wcześniejszych skojarzeń.

Mapowanie kluczy/zapytań — typowo SiLU/short-conv + L2 norm, dla ortogonalności i stabilności reguły delta.

INTensor zapytań/kluczy.

OUTCechy znormalizowane.

Oficjalna

Implementacja

Implementacje referencyjne

Flash Linear Attention (DeltaNet)

Python · fla-org

Oficjalna

sustcsonglin/flash-linear-attention (early DeltaNet release)

Python · Songlin Yang

Oficjalna

Pułapki implementacyjne

Niestabilność bez normalizacji L2 cechWysoka

Bez L2 norm na φ(k) reguła delta może rozbiegać się numerycznie i kasować wcześniej zapisane skojarzenia.

Rozwiązanie:Stosuj L2 norm na cechach i ostrożny dobór β_t (najczęściej z sigmoidem).

Wybór β_tŚrednia

Zbyt duże β prowadzi do nadpisywania świeżych skojarzeń; zbyt małe sprawia, że stan praktycznie się nie zmienia.

Rozwiązanie:Wyucz β_t per token (sigmoid z projekcji); kalibruj na małej skali.

Złożoność implementacji algorytmu Householder-chunkwiseŚrednia

Naiwna implementacja DeltaNet nie paralelizuje się po długości sekwencji; algorytm Yang et al. wymaga starannej implementacji kerneli.

Rozwiązanie:Używaj sprawdzonych kerneli z biblioteki FLA zamiast pisać od zera.

Ewolucja

Oryginalny paper · 2021 · ICML 2021 · Imanol Schlag

Linear Transformers Are Secretly Fast Weight Programmers

Imanol Schlag, Kazuki Irie, Jürgen Schmidhuber

2021

Schlag, Irie, Schmidhuber — DeltaNet i fast weight programmers

Punkt przełomowy

Pokazanie formalnej równoważności liniowej atencji z fast weight programmers oraz wprowadzenie reguły delta jako alternatywy dla addytywnych aktualizacji.

Linear Transformers Are Secretly Fast Weight Programmers (artykuł)

2024

Yang et al. — paralelizacja DeltaNet po długości sekwencji

Punkt przełomowy

Sprzętowo wydajny algorytm trenowania DeltaNet oparty na produktach macierzy Householdera; skalowanie do 1.3B parametrów / 100B tokenów; lepsza perplexity niż Mamba i GLA.

Parallelizing Linear Transformers with the Delta Rule over Sequence Length (artykuł)

2024

Gated DeltaNet — bramkowanie + reguła delta

Połączenie bramkowania (szybkie zerowanie pamięci) z regułą delta (precyzyjne korekty); przyjęte na ICLR 2025.

Gated Delta Networks: Improving Mamba2 with Delta Rule (artykuł)

2025

Adopcja w produkcyjnych modelach językowych

Warstwy DeltaNet / Gated DeltaNet wykorzystane m.in. w Qwen3-Next i hybrydach typu OLMo Hybrid.