1) Każdy token produkuje (q_t, k_t, v_t) i opcjonalny współczynnik tempa uczenia β_t ∈ (0, 1]. 2) Klucz przechodzi przez funkcję jądrową φ(·), zwykle z dodatkową normalizacją L2. 3) Model odczytuje obecne mapowanie: ṽ_t = S_{t-1} · φ(k_t). 4) Liczy błąd Δ = β_t · (v_t − ṽ_t). 5) Aktualizuje stan: S_t = S_{t-1} + Δ · φ(k_t)ᵀ — to dokładnie reguła delta z lat 60-tych (Widrow-Hoff) zaadaptowana na macierze. 6) Wyjście: y_t = S_t · φ(q_t). 7) Trening korzysta z chunkwise paralelizacji po długości sekwencji opartej na produktach macierzy Householdera, co zachowuje poprawność reguły delta i pozwala wykorzystać tensor cores GPU.
Liniowa atencja w wariancie addytywnym ma ograniczoną pojemność asocjacyjną — stan rośnie monotonicznie i nowe pary klucz-wartość nie wypierają poprzednich, co prowadzi do słabego retrieval w długim kontekście. DeltaNet rozwiązuje ten problem przez online korektę pamięci.
Macierz przechowująca aktualne mapowanie φ(k) → v; pełni rolę „pamięci krótkoterminowej" warstwy.
Mechanizm aktualizacji: liczymy błąd między bieżącą predykcją a wartością celu, a następnie korygujemy stan w kierunku zmniejszenia tego błędu.
Oficjalna
Mapowanie kluczy/zapytań — typowo SiLU/short-conv + L2 norm, dla ortogonalności i stabilności reguły delta.
Oficjalna
Bez L2 norm na φ(k) reguła delta może rozbiegać się numerycznie i kasować wcześniej zapisane skojarzenia.
Zbyt duże β prowadzi do nadpisywania świeżych skojarzeń; zbyt małe sprawia, że stan praktycznie się nie zmienia.
Naiwna implementacja DeltaNet nie paralelizuje się po długości sekwencji; algorytm Yang et al. wymaga starannej implementacji kerneli.
Pokazanie formalnej równoważności liniowej atencji z fast weight programmers oraz wprowadzenie reguły delta jako alternatywy dla addytywnych aktualizacji.
Sprzętowo wydajny algorytm trenowania DeltaNet oparty na produktach macierzy Householdera; skalowanie do 1.3B parametrów / 100B tokenów; lepsza perplexity niż Mamba i GLA.
Połączenie bramkowania (szybkie zerowanie pamięci) z regułą delta (precyzyjne korekty); przyjęte na ICLR 2025.
Warstwy DeltaNet / Gated DeltaNet wykorzystane m.in. w Qwen3-Next i hybrydach typu OLMo Hybrid.
Złożoność czasowa: O(n · d²). Złożoność przestrzenna: O(d²).
Algorytm Yang et al. (2024) eliminuje sekwencyjność reguły delta przez efektywną reprezentację z produktów Householdera; to dominujący koszt obok matmuli d × d.
Sposób doboru β_t — stała, sigmoid-projekcja, schemat warstwowy.
Wybór φ wraz z opcjonalną normalizacją (L2).
Rozmiar bloku w treningu chunkwise — kompromis paralelizm/pamięć.
Liczba niezależnych głów reguły delta — wpływa na pojemność asocjacyjną.
Wszystkie tokeny aktualizują stan; selektywność wprowadzana jest dopiero przez β_t lub bramki w wariantach.
DeltaNet nie posiada routingu między ekspertami; w niektórych wariantach (Gated DeltaNet) dochodzi mechanizm bramkowania.
Trening w pełni wykorzystuje GPU; inferencja korzysta z formy rekurencyjnej.
Forma chunkwise z produktami Householdera mapuje się na duże matmule wykorzystujące Tensor Cores.
Liniowa skalowalność i regularne wzorce dostępu sprzyjają systolicznym macierzom MAC.
Inferencja autoregresywna ze stałym stanem jest możliwa, ale przepustowość ograniczona obliczaniem reguły delta.