Firma EverMind zaprezentowała innowacyjną architekturę Memory Sparse Attention (MSA), która pozwala modelom językowym na obsługę kontekstu o długości 100 milionów tokenów. Rozwiązanie to ma na celu wyeliminowanie problemu „zapominania” informacji w rozbudowanych dialogach i analizach wielostronicowych dokumentów, oferując wydajność nieosiągalną dla dotychczasowych standardów rynkowych.
Najważniejsze w skrócie
- EverMind wprowadził architekturę MSA, umożliwiającą obsługę do 100 mln tokenów przy minimalnym spadku precyzji (poniżej 5%).
- System opiera się na mechanizmie Memory Sparse Attention, który dynamicznie selekcjonuje istotne fragmenty danych, zamiast przetwarzać cały kontekst jednocześnie.
- Wdrożono technologię Document-wise RoPE, pozwalającą na precyzyjne pozycjonowanie informacji w gigantycznych zbiorach danych.
- Rozwiązanie jest dostępne jako open-source w serwisie GitHub oraz zarchiwizowane w repozytorium Zenodo.
Architektura MSA: Koniec z „Impossible Triangle” pamięci AI?
Rozwój dużych modeli językowych (LLM) od lat rozbijał się o tzw. „niemożliwy trójkąt” długotrwałej pamięci: konieczność wyboru między skalowalnością, precyzją a wydajnością obliczeniową. Tradycyjne mechanizmy self-attention, znane z architektury Transformer, charakteryzują się kwadratową złożonością obliczeniową, co sprawia, że przetwarzanie bardzo długich sekwencji staje się astronomicznie drogie i powolne.
EverMind, startup inkubowany przez Shanda Group, ogłosił 18 marca 2026 roku publikację dokumentu badawczego pt. „Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens”. Zaproponowana architektura MSA ma ambicję stać się „wtyczką pamięciową”, która przekształca sposób, w jaki sztuczna inteligencja przechowuje i odzyskuje informacje.
Cztery filary technologii MSA
Aby osiągnąć pułap 100 milionów tokenów, inżynierowie EverMind zastosowali cztery kluczowe innowacje:
- Memory Sparse Attention: Jest to różniczkowalny mechanizm rzadkiej uwagi, który zamiast analizować każde słowo w relacji do każdego innego, wybiera tylko najbardziej istotne podzbiory danych. Działa to na zasadzie dwuetapowej filtracji – najpierw na poziomie tematów (Topic-level), a następnie na poziomie konkretnych tokenów (Token-level).
- Document-wise RoPE: Tradycyjne kodowanie pozycji (Rotary Positional Embedding) zawodzi przy ekstremalnych długościach. MSA stosuje relatywne pozycjonowanie wewnątrz dokumentów, co pozwala na stabilną ekstrakcję danych nawet z plików znajdujących się na samym końcu gigantycznego okna kontekstowego.
- KV Cache Compression & Memory Parallel: To inżynieryjne rozwiązanie problemu fizycznych ograniczeń sprzętowych. MSA wykorzystuje wielopoziomowe przechowywanie (Tiered Storage), przenosząc mniej używane dane z pamięci GPU do RAM procesora i na dyski SSD, co pozwala na obsługę 100 mln tokenów na zaledwie dwóch układach NVIDIA H100.
- Memory Interleave: Mechanizm ten umożliwia modelowi wykonywanie pętli „generatywne odzyskiwanie → rozszerzenie kontekstu”, co jest kluczowe w złożonym wnioskowaniu wieloetapowym (multi-hop reasoning).
Wydajność w testach: Igła w stogu siana
W branży AI standardowym testem dla długiego kontekstu jest „Needle-In-A-Haystack” (NIAH) – sprawdzian polegający na odnalezieniu konkretnej informacji ukrytej w ogromnej masie tekstu. Zgodnie z danymi udostępnionymi przez twórców, MSA utrzymuje niemal 100% dokładności przy 32 tys. tokenów, a przy skalowaniu do 100 mln tokenów spadek wydajności wynosi mniej niż 9%.
Dla porównania, wcześniejsze próby rozszerzania kontekstu często kończyły się zjawiskiem lost in the middle, gdzie model świetnie radził sobie z początkiem i końcem tekstu, ale całkowicie ignorował środek. MSA, dzięki hierarchicznemu podejściu do selekcji danych, wydaje się skutecznie omijać tę pułapkę.
Porównanie: MSA vs. Tradycyjny RAG
Warto zestawić MSA z popularną obecnie technologią Retrieval-Augmented Generation (RAG).
| Cecha | RAG (Retrieval-Augmented Generation) | MSA (Memory Sparse Attention) |
|---|---|---|
| Integracja | Pamięć zewnętrzna (baza wektorowa) | Pamięć zintegrowana z architekturą modelu |
| Dostęp do danych | Sztywne wyszukiwanie semantyczne | Dynamiczna, różniczkowalna uwaga |
| Złożoność | Wymaga osobnego potoku danych | Działa end-to-end w ramach modelu |
| Precyzja | Ryzyko utraty kontekstu między fragmentami | Zachowuje relacje między dokumentami |
Podczas gdy RAG jest jak korzystanie z biblioteki (musimy wiedzieć, o co zapytać, by dostać książkę), MSA przypomina posiadanie ogromnej pamięci operacyjnej, do której model ma bezpośredni i inteligentny wgląd w czasie rzeczywistym.
Dlaczego to ważne?
Pojawienie się architektury MSA o pojemności 100 mln tokenów to sygnał, że branża AI przesuwa punkt ciężkości z „surowej mocy obliczeniowej” na „zarządzanie wiedzą”. Do tej pory ograniczenia okna kontekstowego (zazwyczaj do 128k lub 1M tokenów) wymuszały na deweloperach stosowanie skomplikowanych i często zawodnych systemów zewnętrznych baz danych.
Osiągnięcie EverMind może sugerować nadejście ery „Memory-as-a-Service” (MaaS). W takim scenariuszu pamięć AI przestaje być zamkniętym zasobem konkretnego dostawcy, a staje się wymiennym modułem, który można „podpiąć” do różnych rdzeni rozumujących (modeli AI). Dla sektora przedsiębiorstw oznacza to możliwość analizy całych archiwów prawnych, medycznych czy technicznych w ramach jednej sesji, bez obawy, że model „zapomni” o kluczowym zapisie z pierwszej strony umowy.
To także kluczowy krok w stronę autonomicznych agentów AI, takich jak projekt OpenClaw. Aby agent mógł skutecznie działać w świecie rzeczywistym przez tygodnie lub miesiące, musi posiadać ciągłość pamięci. MSA dostarcza fundamentu pod „cyfrowy mózg”, który nie resetuje się po każdym restarcie aplikacji, lecz buduje trwały zasób doświadczeń i wiedzy użytkownika.
Co dalej?
- Implementacja w modelach produkcyjnych: Można spodziewać się, że w najbliższych miesiącach pierwsi dostawcy chmurowi zaczną integrować architekturę MSA lub jej pochodne, oferując okna kontekstowe liczone w dziesiątkach milionów tokenów.
- Wpływ na rynek hardware: Sukces MSA, która optymalizuje wykorzystanie pamięci, może nieco ostudzić gorączkę zakupową najdroższych układów GPU, promując rozwiązania bardziej efektywne kosztowo i energetycznie.
- Rozwój standardów open-source: Upublicznienie kodu na GitHubie prawdopodobnie zaowocuje szybkim powstaniem społecznościowych wersji modeli (np. na bazie Llama), które będą natywnie wspierać gigantyczną pamięć długotrwałą.
Źródła
- Zenodo – Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens – https://zenodo.org/records/19103670
- GitHub – Repozytorium EverMind MSA – https://github.com/EverMind-AI/MSA





