Architektura

SSM

2021AktywnyOpublikowano: 7 czerwca 2026Aktualizacja: 7 czerwca 2026Opublikowany

Klasa modeli sekwencyjnych opartych na liniowych układach stanu (x'(t)=Ax(t)+Bu(t), y(t)=Cx(t)+Du(t)), które po dyskretyzacji oferują liniową złożoność względem długości sekwencji.

Kluczowa innowacja

Modelowanie sekwencji w liniowym czasie O(L) względem długości kontekstu poprzez zastosowanie ciągłych liniowych układów stanu z efektywną dyskretyzacją, łączące rekurencyjny tryb inferencji z konwolucyjnym trybem treningu.

Kategoria

Architektura

Poziom abstrakcji

Paradygmat

Poziom operacji

Element architekturyWarstwaInferencja

Zastosowania

Modelowanie długich sekwencji tekstuAudio i mowa (np. SaShiMi, Hyena)Genomika i sekwencje DNASzeregi czasoweWizja jako sekwencja patchy (Vision Mamba, VMamba)Sterowanie robotem i polityki na długim horyzoncieModele językowe konkurujące z Transformerami (Mamba, Jamba)

Jak działa

1) Punktem wyjścia jest ciągły liniowy układ stanu z parametrami (A, B, C, D), gdzie ukryty stan x(t) ewoluuje liniowo w funkcji wejścia u(t). 2) Układ dyskretyzowany jest krokiem czasu Delta (np. metoda Zero-Order Hold lub bilinear), co daje rekurencję x_k = A_bar x_{k-1} + B_bar u_k oraz y_k = C x_k. 3) Przy odpowiedniej strukturze A (np. diagonal plus low-rank, HiPPO-LegS) rekurencję można wyrazić jako globalną konwolucję 1D z kernelem K, wyliczanym efektywnie w dziedzinie częstotliwości (FFT). 4) Trening odbywa się w trybie konwolucyjnym (równoległym po sekwencji), a autoregresyjna inferencja w trybie rekurencyjnym (O(1) pamięci na token). 5) W Mambie macierze B, C oraz krok Delta stają się funkcją wejścia (selective SSM), co usuwa ograniczenie LTI i wymaga niestandardowego, hardware-aware selective scan w pamięci SRAM GPU.

Rozwiązany problem

Kwadratowa złożoność self-attention w Transformerach (O(L^2) czasu i pamięci) ogranicza skalowanie kontekstu do dziesiątek tysięcy tokenów oraz uniemożliwia tanie modelowanie sekwencji o długości milionów kroków (audio, genomika, długie dokumenty, sterowanie robotem). SSM oferują liniową złożoność wzgledem długości oraz stały koszt pamięci na token podczas inferencji autoregresyjnej.

Komponenty

Macierz stanu A (state transition)Przenosi informację w czasie i decyduje o własnościach pamięci długoterminowej.

Macierz definiująca dynamikę ukrytego stanu. W S4 używana jest struktura HiPPO-LegS (diagonal plus low-rank), w S4D/S5 wariant diagonalny, co znacząco upraszcza obliczenia.

Krok dyskretyzacji DeltaKontroluje, jak szybko nowe wejście wpływa na stan i jak długo informacja jest pamiętana.

Parametr (uczony lub zależny od wejścia) zamieniający ciągły układ na rekurencję dyskretną metodą zero-order hold lub bilinear.

Macierze B i C (input/output projection)Wejście i wyjście kanału SSM.

B rzutuje wejście u_k na przestrzeń stanu, C odczytuje wyjście z ukrytego stanu. W Mambie obie zależą od wejścia (selective SSM).

Selective scan (Mamba)Umożliwia trening Mamby w czasie liniowym mimo braku formy konwolucyjnej.

Hardware-aware algorytm rekurencji równoległej (parallel scan) trzymający stan w SRAM GPU, niezbędny gdy parametry zależą od wejścia i nie da się użyć trybu konwolucyjnego.

Implementacja

Implementacje referencyjne

state-spaces/s4

Python · HazyResearch / Albert Gu

Oficjalna

state-spaces/mamba

Python / CUDA · Albert Gu, Tri Dao

Oficjalna

Pułapki implementacyjne

Niestabilna dyskretyzacja przy zlej inicjalizacji DeltaWysoka

Krok Delta zainicjalizowany poza zalecanym log-uniform zakresem powoduje wybuchanie aktywacji lub martwy stan, szczególnie w głębokich stosach SSM.

Rozwiązanie:Zastosuj zalecaną w S4/Mambie inicjalizację log-uniform (np. 0.001 do 0.1) i softplus przy wyznaczaniu Delta z wejścia.

Brak formy konwolucyjnej w selektywnym SSMWysoka

Gdy B, C lub Delta zależą od wejścia (Mamba), nie istnieje globalny kernel konwolucyjny — naiwny trening rekurencyjny jest wolny.

Rozwiązanie:Uzyj oficjalnego selective_scan_cuda (parallel scan) trzymajacego stan w SRAM GPU.

Slabsze radzenie sobie z kopiowaniem i retrievalemŚrednia

Niewielki stan ukryty (np. N=16) ogranicza zdolnosc dokladnego kopiowania dlugich fragmentow z kontekstu, w czym Transformery z KV-cache pozostaja mocniejsze.

Rozwiązanie:Stosuj hybrydy (Jamba, Zamba) lacz ace warstwy SSM z attention dla zadan wymagajacych precyzyjnego retrievalu.

Ewolucja

Oryginalny paper · 2021 · ICLR 2022 · Albert Gu

Efficiently Modeling Long Sequences with Structured State Spaces

Albert Gu, Karan Goel, Christopher Re

2020

HiPPO: teoria optymalnej kompresji historii w stanie

Gu et al. wprowadzają HiPPO, framework dla operatorów stanu rekonstruujących sygnał wejściowy w bazie ortogonalnej. Podstawa teoretyczna późniejszych SSM.

HiPPO: Recurrent Memory with Optimal Polynomial Projections (artykuł)

2021

LSSL: Linear State-Space Layer

Pierwsza warstwa SSM dla deep learning, ujawniająca dualność rekurencyjno-konwolucyjną; była jednak kosztowna obliczeniowo.

Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers (artykuł)

2021

S4: Structured State Space

Punkt przełomowy

Wprowadzenie struktury DPLR i parametryzacji w dziedzinie częstotliwości; SOTA na Long Range Arena, sekwencje do 16k tokenów.

Efficiently Modeling Long Sequences with Structured State Spaces (artykuł)

2022

S4D: prostsza, diagonalna parametryzacja

Pokazano, że diagonalna macierz A osiąga jakość zbliżoną do pełnego S4 przy znacznie prostszej implementacji.

On the Parameterization and Initialization of Diagonal State Space Models (artykuł)

2022

H3: SSM dla modelowania języka

Hungry Hungry Hippos pokazuje, że SSM zaczynają być konkurencyjne dla Transformerów w modelowaniu języka.

Hungry Hungry Hippos: Towards Language Modeling with State Space Models (artykuł)

2023

Mamba: selective state spaces

Punkt przełomowy

Gu i Dao wprowadzają zależne od wejścia B, C, Delta oraz hardware-aware selective scan; pierwszy SSM dorównujący Transformerom na benchmarkach językowych przy liniowej złożoności.

Mamba: Linear-Time Sequence Modeling with Selective State Spaces (artykuł)

2024

Mamba-2 i hybrydy (Jamba, Zamba)

Mamba-2 unifikuje SSM i attention przez State Space Duality; Jamba (AI21) i Zamba mieszają warstwy Mamba i Transformera w produkcyjnych LLM.

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality (artykuł)