Przed Transformerem: sekwencyjne wąskie gardło
Przez większą część lat 2010, dominującym paradygmatem przetwarzania języka naturalnego były rekurencyjne sieci neuronowe (RNN) i ich bardziej rozbudowane warianty — sieci LSTM (Long Short-Term Memory) oraz GRU (Gated Recurrent Units). Wszystkie te architektury dzieliły jeden fundamentalny problem: przetwarzały dane sekwencyjnie.
Aby obliczyć stan ukryty dla tokena w kroku …, sieć musiała najpierw przetworzyć wszystkie poprzednie tokeny od … do …. Oznaczało to, że dla sekwencji 512 tokenów wymagano 512 kolejnych kroków obliczeniowych — równoległe procesory GPU nie były w stanie wykorzystać swojego potencjału.
Drugi problem to tzw. information bottleneck. W modelach sekwencja-do-sekwencji cały kontekst wejściowy był kompresowany do jednego wektora o stałej długości. Informacja z pierwszego tokena musiała "przeżyć" setki kroków pośrednich, zanim wpłynęła na ostatni — co prowadziło do degradacji informacji i trudności z uchwyceniem zależności długodystansowych.
Próbowano łagodzić te ograniczenia (m.in. mechanizmem atencji Bahdanau z 2014 roku), jednak sekwencyjne przetwarzanie pozostawało twardym fizycznym limitem skalowalności.
„Attention Is All You Need" — przełom z 2017 roku
W czerwcu 2017 roku ośmiu badaczy z Google Brain i Uniwersytetu Toronto opublikowało pracę zatytułowaną "Attention Is All You Need". Postawili w niej radykalną hipotezę: rekurencja i konwolucje mogą zostać całkowicie wyeliminowane. Zamiast nich — wyłącznie mechanizm samo-atencji (self-attention).
Transformer przetwarzał wszystkie tokeny jednocześnie, redukując ścieżkę między dowolnymi dwoma tokenami do …. Usunięcie sekwencyjności umożliwiło masową równoległość obliczeń i trenowanie znacznie większych modeli na znacznie większych zbiorach danych. Do początku 2026 roku praca zgromadziła ponad 173 000 cytowań — jest jedną z najczęściej cytowanych prac z zakresu uczenia maszynowego XXI wieku.
Mechanizm samo-atencji: serce Transformera
Kluczową innowacją Transformera jest samo-atencja (self-attention) — mechanizm pozwalający modelowi jednocześnie ważyć znaczenie każdego tokena względem wszystkich pozostałych tokenów w sekwencji.
Weźmy zdanie: „Rycerz wszedł do zamku i otworzył zamek". Samo-atencja pozwala modelowi spojrzeć jednocześnie na słowa „rycerz" i „otworzył", by ustalić, które wystąpienie słowa „zamek" oznacza budowlę, a które mechanizm w drzwiach.
Technicznie rzecz biorąc, dla każdego tokena w sekwencji model generuje trzy wektory: Query (Q) — czego token szuka, Key (K) — co token oferuje innym, Value (V) — właściwa treść, którą token „wnosi". Pełna formuła skalowanego iloczynu skalarnego:
Dzielenie przez (gdzie to wymiar wektora klucza, czyli liczba cech reprezentujących każdy token) zapobiega numerycznym problemom z dużymi wartościami iloczynów skalarnych, które blokowałyby przepływ gradientów podczas uczenia. Funkcja Softmax następnie normalizuje te wyniki do rozkładu prawdopodobieństwa sumującego się do 1, dając końcowe wagi uwagi.
Multi-Head Attention: wielu ekspertów czyta ten sam tekst
Zamiast jednej operacji samo-atencji, Transformer stosuje Multi-Head Attention — macierze Q, K, V są liniowo projektowane do wielu mniejszych podprzestrzeni (tzw. głów). Każda głowa specjalizuje się w innym aspekcie: jedna może śledzić zależności gramatyczne, inna skupiać się na znaczeniu semantycznym, trzecia — na długodystansowych referencjach zaimkowych.
Wyniki wszystkich głów są następnie konkatenowane i przepuszczone przez końcową transformację liniową, tworząc pełną reprezentację.
Jak korzystać: Kliknij zakładkę głowy (Gramatyka, Semantyka itd.), by zobaczyć inne spojrzenie na to samo zdanie. Grubość łuku odpowiada sile uwagi — im grubszy, tym silniejsza zależność między tokenami. Pulsujące łuki to najsilniejsze połączenia w danej głowie. Tokeny podświetlone jasno to te, które ta głowa uznaje za kluczowe.
Koder i dekoder: dwie twarze Transformera
Oryginalna architektura z 2017 roku miała strukturę koder-dekoder zaprojektowaną do tłumaczenia maszynowego.
- Koder przetwarza sekwencję wejściową (np. angielskie zdanie) i buduje bogatą, dwukierunkową reprezentację kontekstową — każdy token może "patrzeć" jednocześnie w prawo i w lewo.
- Dekoder odpowiada za generowanie wyjściowej sekwencji (np. tłumaczenia po polsku) token po tokenie. Zawiera dodatkową warstwę cross-attention: Queries (Q) pochodzą z dekodera, natomiast Keys (K) i Values (V) — z wyjścia kodera. Dzięki temu dekoder może dynamicznie skupiać się na najważniejszych fragmentach źródłowego tekstu.
Aby dekoder nie "oszukiwał" podczas trenowania przez podglądanie przyszłych tokenów, stosuje się maskowaną samo-atencję (masked self-attention), która blokuje dostęp do tokenów na pozycjach ….
K, V z kodera
Ramki z etykietą × N obejmują warstwy powtarzane N razy (typowo 6, 12 lub więcej). Cienkie szare linie boczne to residual connections — wejście sub-bloku omija go i dodaje się do wyjścia w „Add & Norm". Fioletowa krzywa to cross-attention: wyjście kodera (jako K i V) trafia do każdej warstwy dekodera. Oba stosy rosną od dołu do góry.
Trzy rodziny modeli: BERT, GPT i T5
Badacze szybko zorientowali się, że architekturę można rozdzielić i zoptymalizować pod konkretne zadania:
- Modele tylko-koder (BERT, 2018) — Google zrezygnował z dekodera, zachowując pełną dwukierunkową atencję. BERT jest trenowany przez maskowanie 15% tokenów i przewidywanie ich z kontekstu. Specjalizuje się w rozumieniu języka: analiza sentymentu, rozpoznawanie encji, wyodrębniające odpowiadanie na pytania. Zasila wyszukiwarkę Google.
- Modele tylko-dekoder (rodzina GPT) — OpenAI porzucił koder, zostawiając sekwencyjne, jednokierunkowe (lewo-prawo) przetwarzanie. GPT jest trenowany przez przewidywanie następnego tokena (Causal Language Modeling). Ta architektura dała ChatGPT, GitHub Copilot i całą generatywną rewolucję AI.
- Modele koder-dekoder (T5, BART) — zachowują oryginalną strukturę i sprawdzają się najlepiej w warunkowych zadaniach generatywnych: automatyczne streszczanie tekstów, tłumaczenie maszynowe.
Prawa skalowania i era LLM
Transformer odblokował prawa skalowania AI (scaling laws): w miarę jak rośnie liczba parametrów modelu i rozmiar danych treningowych, wydajność modelu regularnie wzrasta. Oryginalny Transformer miał ok. 100 milionów parametrów. GPT-3 — 175 miliardów. Nowoczesne modele wchodzą w zakres bilionów.
Ta masowa skalowalność pozwoliła modelom absorborować ogromne zasoby wiedzy ludzkiej z internetowych korpusów (Wikipedia, Common Crawl, BooksCorpus). W rezultacie LLM-y przeszły od prostych dopasowań statystycznych do systemów wykazujących emergentne zdolności: uczenie się zerowym strzałem (zero-shot learning), złożone wnioskowanie logiczne, zaawansowane programowanie i dialog.
Cały paradygmat AI przesunął się od algorytmów specjalistycznych do uogólnionych modeli fundamentalnych, które można adaptować do tysięcy różnych zadań za pomocą prostych promptów tekstowych.
Vision Transformers: konwolucje przestają być konieczne
W 2020 roku badacze z Google opublikowali pracę "An Image is Worth 16x16 Words", wprowadzając Vision Transformer (ViT). Udowodnili, że czysty Transformer — stworzony z myślą o tekście — może osiągać najlepsze wyniki w zadaniach wizyjnych bez użycia ani jednej warstwy konwolucyjnej.
Sztuczka: obraz jest dzielony na siatkę nienakładających się łatek (ang. patches) — typowo 16×16 pikseli. Każda łatka jest spłaszczana do wektora 1D i przekształcana do przestrzeni wektorowej modelu (wewnętrznej reprezentacji liczbowej, w której podobne pojęcia mają podobne wektory), tworząc "wizualne tokeny". Specjalny token klasyfikacyjny [CLS], dodawany na początku sekwencji, agreguje przez samo-atencję informacje ze wszystkich łatek i służy do finalnej klasyfikacji obrazu.
ViT przewyższa sieci CNN przy trenowaniu na gigantycznych zbiorach danych, oferując globalne pole widzenia już od pierwszej warstwy — piksel w lewym górnym rogu może od razu "widzieć" piksel w prawym dolnym. To otworzyło drzwi do multimodalnych architektur integrujących tekst i obraz.
Dlaczego Transformer przetrwa następną dekadę
Transformer jest dziś fundamentalnym schematem niemal całego nowoczesnego AI. Jego sukces wynika z kilku wzajemnie wzmacniających się cech:
- Równoległość obliczeniowa — eliminacja sekwencyjności umożliwia trening na tysiącach GPU jednocześnie.
- Skalowalność — wydajność rośnie przewidywalnie z rozmiarem modelu i danymi.
- Brak silnych założeń indukcyjnych — ta sama architektura działa dla tekstu, obrazów, dźwięku, białek, kodu, a nawet trajektorii robotów.
- Transfer learning — jeden pretrenowany model może być szybko dostosowany do dziesiątek zadań specjalistycznych.
Choć pojawiają się nowe architektury (Mamba, RWKV, Hyena) próbujące zastąpić kwadratową złożoność self-attention, Transformer pozostaje punktem odniesienia i bazą dla eksperymentów ze skalowaniem, multimodalnością i rozumowaniem.
Źródła
- Vaswani et al., Attention Is All You Need (2017), arXiv:1706.03762
- Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018), arXiv:1810.04805
- Brown et al., Language Models are Few-Shot Learners (GPT-3, 2020), arXiv:2005.14165
- Dosovitskiy et al., An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (2020), arXiv:2010.11929
- IBM — What is a Transformer Model? (ibm.com/topics/transformer-model)
- Wikipedia — Transformer (deep learning architecture)
