Architektura AI

Architektura Transformer: jak mechanizm uwagi zmienił całe AI

Pan Robocik22 maja 2026 · 6 min czytania

Pan Robocik

22 maja 2026 · 6 min czytaniaAI-assisted · weryfikacja redakcyjna

Transformer to architektura sieci neuronowej, która w 2017 roku zastąpiła modele rekurencyjne i zapoczątkowała erę dużych modeli językowych. Zrozumienie jej działania to klucz do pojęcia, skąd wzięły się ChatGPT, BERT, GPT-4 i Vision Transformers.

Przed Transformerem: sekwencyjne wąskie gardło

Przez większą część lat 2010, dominującym paradygmatem przetwarzania języka naturalnego były rekurencyjne sieci neuronowe (RNN) i ich bardziej rozbudowane warianty — sieci LSTM (Long Short-Term Memory) oraz GRU (Gated Recurrent Units). Wszystkie te architektury dzieliły jeden fundamentalny problem: przetwarzały dane sekwencyjnie.

Aby obliczyć stan ukryty dla tokena w kroku …, sieć musiała najpierw przetworzyć wszystkie poprzednie tokeny od … do …. Oznaczało to, że dla sekwencji 512 tokenów wymagano 512 kolejnych kroków obliczeniowych — równoległe procesory GPU nie były w stanie wykorzystać swojego potencjału.

Drugi problem to tzw. information bottleneck. W modelach sekwencja-do-sekwencji cały kontekst wejściowy był kompresowany do jednego wektora o stałej długości. Informacja z pierwszego tokena musiała "przeżyć" setki kroków pośrednich, zanim wpłynęła na ostatni — co prowadziło do degradacji informacji i trudności z uchwyceniem zależności długodystansowych.

Próbowano łagodzić te ograniczenia (m.in. mechanizmem atencji Bahdanau z 2014 roku), jednak sekwencyjne przetwarzanie pozostawało twardym fizycznym limitem skalowalności.

„Attention Is All You Need" — przełom z 2017 roku

W czerwcu 2017 roku ośmiu badaczy z Google Brain i Uniwersytetu Toronto opublikowało pracę zatytułowaną "Attention Is All You Need". Postawili w niej radykalną hipotezę: rekurencja i konwolucje mogą zostać całkowicie wyeliminowane. Zamiast nich — wyłącznie mechanizm samo-atencji (self-attention).

Transformer przetwarzał wszystkie tokeny jednocześnie, redukując ścieżkę między dowolnymi dwoma tokenami do …. Usunięcie sekwencyjności umożliwiło masową równoległość obliczeń i trenowanie znacznie większych modeli na znacznie większych zbiorach danych. Do początku 2026 roku praca zgromadziła ponad 173 000 cytowań — jest jedną z najczęściej cytowanych prac z zakresu uczenia maszynowego XXI wieku.

Mechanizm samo-atencji: serce Transformera

Kluczową innowacją Transformera jest samo-atencja (self-attention) — mechanizm pozwalający modelowi jednocześnie ważyć znaczenie każdego tokena względem wszystkich pozostałych tokenów w sekwencji.

Weźmy zdanie: „Rycerz wszedł do zamku i otworzył zamek". Samo-atencja pozwala modelowi spojrzeć jednocześnie na słowa „rycerz" i „otworzył", by ustalić, które wystąpienie słowa „zamek" oznacza budowlę, a które mechanizm w drzwiach.

Technicznie rzecz biorąc, dla każdego tokena w sekwencji model generuje trzy wektory: Query (Q) — czego token szuka, Key (K) — co token oferuje innym, Value (V) — właściwa treść, którą token „wnosi". Pełna formuła skalowanego iloczynu skalarnego:

\dots

Dzielenie przez (gdzie to wymiar wektora klucza, czyli liczba cech reprezentujących każdy token) zapobiega numerycznym problemom z dużymi wartościami iloczynów skalarnych, które blokowałyby przepływ gradientów podczas uczenia. Funkcja Softmax następnie normalizuje te wyniki do rozkładu prawdopodobieństwa sumującego się do 1, dając końcowe wagi uwagi.

Multi-Head Attention: wielu ekspertów czyta ten sam tekst

Zamiast jednej operacji samo-atencji, Transformer stosuje Multi-Head Attention — macierze Q, K, V są liniowo projektowane do wielu mniejszych podprzestrzeni (tzw. głów). Każda głowa specjalizuje się w innym aspekcie: jedna może śledzić zależności gramatyczne, inna skupiać się na znaczeniu semantycznym, trzecia — na długodystansowych referencjach zaimkowych.

Wyniki wszystkich głów są następnie konkatenowane i przepuszczone przez końcową transformację liniową, tworząc pełną reprezentację.

Koder i dekoder: dwie twarze Transformera

Oryginalna architektura z 2017 roku miała strukturę koder-dekoder zaprojektowaną do tłumaczenia maszynowego.

Koder przetwarza sekwencję wejściową (np. angielskie zdanie) i buduje bogatą, dwukierunkową reprezentację kontekstową — każdy token może "patrzeć" jednocześnie w prawo i w lewo.
Dekoder odpowiada za generowanie wyjściowej sekwencji (np. tłumaczenia po polsku) token po tokenie. Zawiera dodatkową warstwę cross-attention: Queries (Q) pochodzą z dekodera, natomiast Keys (K) i Values (V) — z wyjścia kodera. Dzięki temu dekoder może dynamicznie skupiać się na najważniejszych fragmentach źródłowego tekstu.

Aby dekoder nie "oszukiwał" podczas trenowania przez podglądanie przyszłych tokenów, stosuje się maskowaną samo-atencję (masked self-attention), która blokuje dostęp do tokenów na pozycjach ….

Trzy rodziny modeli: BERT, GPT i T5

Badacze szybko zorientowali się, że architekturę można rozdzielić i zoptymalizować pod konkretne zadania:

Modele tylko-koder (BERT, 2018) — Google zrezygnował z dekodera, zachowując pełną dwukierunkową atencję. BERT jest trenowany przez maskowanie 15% tokenów i przewidywanie ich z kontekstu. Specjalizuje się w rozumieniu języka: analiza sentymentu, rozpoznawanie encji, wyodrębniające odpowiadanie na pytania. Zasila wyszukiwarkę Google.
Modele tylko-dekoder (rodzina GPT) — OpenAI porzucił koder, zostawiając sekwencyjne, jednokierunkowe (lewo-prawo) przetwarzanie. GPT jest trenowany przez przewidywanie następnego tokena (Causal Language Modeling). Ta architektura dała ChatGPT, GitHub Copilot i całą generatywną rewolucję AI.
Modele koder-dekoder (T5, BART) — zachowują oryginalną strukturę i sprawdzają się najlepiej w warunkowych zadaniach generatywnych: automatyczne streszczanie tekstów, tłumaczenie maszynowe.

Prawa skalowania i era LLM

Transformer odblokował prawa skalowania AI (scaling laws): w miarę jak rośnie liczba parametrów modelu i rozmiar danych treningowych, wydajność modelu regularnie wzrasta. Oryginalny Transformer miał ok. 100 milionów parametrów. GPT-3 — 175 miliardów. Nowoczesne modele wchodzą w zakres bilionów.

Ta masowa skalowalność pozwoliła modelom absorborować ogromne zasoby wiedzy ludzkiej z internetowych korpusów (Wikipedia, Common Crawl, BooksCorpus). W rezultacie LLM-y przeszły od prostych dopasowań statystycznych do systemów wykazujących emergentne zdolności: uczenie się zerowym strzałem (zero-shot learning), złożone wnioskowanie logiczne, zaawansowane programowanie i dialog.

Cały paradygmat AI przesunął się od algorytmów specjalistycznych do uogólnionych modeli fundamentalnych, które można adaptować do tysięcy różnych zadań za pomocą prostych promptów tekstowych.

Vision Transformers: konwolucje przestają być konieczne

W 2020 roku badacze z Google opublikowali pracę "An Image is Worth 16x16 Words", wprowadzając Vision Transformer (ViT). Udowodnili, że czysty Transformer — stworzony z myślą o tekście — może osiągać najlepsze wyniki w zadaniach wizyjnych bez użycia ani jednej warstwy konwolucyjnej.

Sztuczka: obraz jest dzielony na siatkę nienakładających się łatek (ang. patches) — typowo 16×16 pikseli. Każda łatka jest spłaszczana do wektora 1D i przekształcana do przestrzeni wektorowej modelu (wewnętrznej reprezentacji liczbowej, w której podobne pojęcia mają podobne wektory), tworząc "wizualne tokeny". Specjalny token klasyfikacyjny [CLS], dodawany na początku sekwencji, agreguje przez samo-atencję informacje ze wszystkich łatek i służy do finalnej klasyfikacji obrazu.

ViT przewyższa sieci CNN przy trenowaniu na gigantycznych zbiorach danych, oferując globalne pole widzenia już od pierwszej warstwy — piksel w lewym górnym rogu może od razu "widzieć" piksel w prawym dolnym. To otworzyło drzwi do multimodalnych architektur integrujących tekst i obraz.

Dlaczego Transformer przetrwa następną dekadę

Transformer jest dziś fundamentalnym schematem niemal całego nowoczesnego AI. Jego sukces wynika z kilku wzajemnie wzmacniających się cech:

Równoległość obliczeniowa — eliminacja sekwencyjności umożliwia trening na tysiącach GPU jednocześnie.
Skalowalność — wydajność rośnie przewidywalnie z rozmiarem modelu i danymi.
Brak silnych założeń indukcyjnych — ta sama architektura działa dla tekstu, obrazów, dźwięku, białek, kodu, a nawet trajektorii robotów.
Transfer learning — jeden pretrenowany model może być szybko dostosowany do dziesiątek zadań specjalistycznych.

Choć pojawiają się nowe architektury (Mamba, RWKV, Hyena) próbujące zastąpić kwadratową złożoność self-attention, Transformer pozostaje punktem odniesienia i bazą dla eksperymentów ze skalowaniem, multimodalnością i rozumowaniem.

Źródła

Vaswani et al., Attention Is All You Need (2017), arXiv:1706.03762
Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018), arXiv:1810.04805
Brown et al., Language Models are Few-Shot Learners (GPT-3, 2020), arXiv:2005.14165
Dosovitskiy et al., An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (2020), arXiv:2010.11929
IBM — What is a Transformer Model? (ibm.com/topics/transformer-model)
Wikipedia — Transformer (deep learning architecture)

Udostępnij to opracowanie

01Kurs

Powiązane tematy

Transformer

Architektura Transformer: jak mechanizm uwagi zmienił całe AI

Przed Transformerem: sekwencyjne wąskie gardło

„Attention Is All You Need" — przełom z 2017 roku

Mechanizm samo-atencji: serce Transformera

Multi-Head Attention: wielu ekspertów czyta ten sam tekst

Koder i dekoder: dwie twarze Transformera

Trzy rodziny modeli: BERT, GPT i T5

Prawa skalowania i era LLM

Vision Transformers: konwolucje przestają być konieczne

Dlaczego Transformer przetrwa następną dekadę

Źródła

Transformer od zera

Transformer

Self-Attention

Scaled Dot-Product Attention

MHA

CLM

LLM

Scaling Laws (Kaplan / Chinchilla)

Emergent Abilities

ViT

Attention Is All You Need

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Language Models are Few-Shot Learners

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Powiązane tematy

Architektura Transformer: jak mechanizm uwagi zmienił całe AI

Przed Transformerem: sekwencyjne wąskie gardło

„Attention Is All You Need" — przełom z 2017 roku

Mechanizm samo-atencji: serce Transformera

Multi-Head Attention: wielu ekspertów czyta ten sam tekst

Koder i dekoder: dwie twarze Transformera

Trzy rodziny modeli: BERT, GPT i T5

Prawa skalowania i era LLM

Vision Transformers: konwolucje przestają być konieczne

Dlaczego Transformer przetrwa następną dekadę

Źródła

Dalej zgłębiaj temat

Transformer od zera

Transformer

Self-Attention

Scaled Dot-Product Attention

MHA

CLM

LLM

Scaling Laws (Kaplan / Chinchilla)

Emergent Abilities

ViT

Attention Is All You Need

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Language Models are Few-Shot Learners

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Powiązane tematy