Architektura

BigBird

2020AktywnyOpublikowano: 9 czerwca 2026Aktualizacja: 9 czerwca 2026Opublikowany

BigBird (Zaheer et al., Google, NeurIPS 2020) to sparse attention łączące trzy wzorce: lokalne okno (SWA), losowe attention i tokeny globalne. Skaluje się liniowo z długością sekwencji O(T), a jednocześnie autorzy formalnie dowodzą, że zachowuje pełną ekspresywność standardowego Transformera. Punkt odniesienia dla całej rodziny architektur long-context.

Kluczowa innowacja

Łączy trzy komplementarne wzorce sparsyfikacji attention — lokalne okno (sliding), losowe połączenia i tokeny globalne — w jeden mechanizm O(T) per warstwa, dla którego autorzy formalnie dowodzą, że jest uniwersalnym aproksymatorem funkcji sekwencji i Turing-zupełny — tak samo jak pełne attention.

Kategoria

Architektura

Poziom abstrakcji

Wzorzec

Poziom operacji

ModelElement architekturyTreningInferencja

Zastosowania

Long-document QA (TriviaQA, HotpotQA, NaturalQuestions) — sekwencje 4096+ tokenówStreszczanie długich dokumentów (PubMed, arXiv summarization)Genomika — modelowanie sekwencji DNA z kontekstem rzędu tysięcy par zasad (oryginalna motywacja Google)Encodery long-document tam, gdzie BERT/RoBERTa są zbyt drogie (512-token limit)Punkt odniesienia teoretyczny dla wszystkich późniejszych sparse attention (SWA, Mamba, Linear Attention)

Jak działa

BigBird buduje rzadką macierz attention z trzech komponentów: (1) Window attention — każdy token attentuje na W sąsiadów (jak SWA, w pracy W=3, czyli ±1), (2) Random attention — każdy token attentuje dodatkowo na R losowo wybranych keys (w pracy R=2–3), z perspektywy teorii grafów to dodanie losowych krawędzi do grafu attention, co radykalnie skraca średnią odległość między dowolnymi dwoma tokenami, (3) Global attention — g wybranych tokenów attentuje na wszystkich i wszyscy attentują na nich (g zwykle 2–8, np. [CLS] + tokeny pytania w QA). Łącznie każda warstwa wykonuje O((W+R)·T + g·T) ≈ O(T) operacji. Implementacyjnie BigBird reorganizuje sekwencję w bloki — random attention jest sparsy w obrębie pre-permutowanych bloków, by zachować efektywność na GPU. Autorzy publikują dwa warianty: ETC (Extended Transformer Construction) — bez random attention, tylko window + global; oraz pełny BigBird ITC (Internal Transformer Construction) z całą trójką. Random attention jest kluczowy dla teoretycznych dowodów.

Rozwiązany problem

Wcześniejsze sparse attention (Longformer/SWA, Sparse Transformer) działały empirycznie, ale brakowało im teoretycznych gwarancji ekspresywności — nie było jasne, czy ograniczenie attention do okna i kilku tokenów globalnych nie odbiera modelowi fundamentalnych zdolności. BigBird formalizuje problem: dowodzi (1) że SWA + global + random jest uniwersalnym aproksymatorem funkcji sekwencji, (2) że jest Turing-zupełny i (3) że okno musi mieć dolne ograniczenie liczby tokenów globalnych O(√T) by te własności zachować. Praktycznie: pozwala bezpiecznie skalować Transformer do sekwencji 4096–8192 tokenów (8×–16× ponad BERT) bez utraty jakości.

Komponenty

Window attention (W)Lokalna spójność, sąsiedztwo tokenów

Każdy token attentuje na W najbliższych sąsiadów. Mechanizm zaczerpnięty bezpośrednio z SWA/Longformer — odpowiada za zachowanie lokalnej spójności.

INPary (query, key) w lokalnym oknie.

OUTLokalna agregacja wartości.

Oficjalna

Random attention (R)Globalna propagacja informacji z O(log T) hopów

Każdy token attentuje na R losowo wybranych pozycji (z ustalonym ziarnem). Z perspektywy teorii grafów dodaje losowe krawędzie do grafu attention, dzięki czemu średnia odległość między dowolnymi dwoma tokenami spada do O(log T) — kluczowe dla dowodu uniwersalności.

INLosowe pary (query, key) per token.

OUTLosowo zsamplowana agregacja wartości.

ITC random (kanon BigBird)R=2–3 losowych połączeń per token z blokową permutacją.

ETC bez randomRandom komponent usunięty — łatwiejsza implementacja, słabsze gwarancje.

Global attention (g tokens)Globalny pomost — gwarantuje, że każda informacja może w jednym hopie dotrzeć z dowolnej pozycji

g wybranych tokenów attentuje na całą sekwencję i jest widziane przez wszystkie pozostałe tokeny. Praktycznie [CLS], [SEP] i/lub tokeny pytania w QA. Dolne ograniczenie teoretyczne: g = Ω(√T).

INDwukierunkowe pełne attention dla g tokenów.

OUTWartości po wzbogaceniu o sygnał globalny.

Oficjalna

Implementacja

Implementacje referencyjne

google-research/bigbird (oficjalne repo)

Python (TensorFlow / JAX) · Google Research (Zaheer et al.)

Oficjalna

Hugging Face Transformers — BigBirdModel / BigBirdPegasus

Python (PyTorch) · Hugging Face / Google

Pułapki implementacyjne

Pominięcie random attention (degeneracja do Longformera)Średnia

Bez komponentu random BigBird redukuje się do Longformera (SWA + global) i traci formalne gwarancje uniwersalności. ETC jest świadomym kompromisem; przypadkowe pominięcie psuje semantykę.

Rozwiązanie:Jeśli celem są teoretyczne własności, używać pełnego wariantu ITC z R≥2. Jeśli liczy się tylko efektywność, świadomie wybrać ETC i wskazać to w konfiguracji.

Za mała liczba global tokens dla długich sekwencjiŚrednia

Praca formalnie wymaga g = Ω(√T) global tokens, by zachować ekspresywność. Dla T=8192 to ~90 tokenów. Stosowanie tylko g=2 ([CLS]+[SEP]) na bardzo długich sekwencjach degraduje jakość poniżej teoretycznych przewidywań.

Rozwiązanie:Skalować liczbę global tokens proporcjonalnie do √T lub stosować zadanie-specyficzne global tokens (np. wszystkie tokeny pytania w QA).

Naiwna implementacja random attention — fragmentacja pamięci GPUWysoka

Dosłowny random scatter-gather po sekwencji jest dla GPU katastrofalny (random access). Wymaga blokowej permutacji.

Rozwiązanie:Używać oficjalnej implementacji z blokami (block_size=64) zamiast losowego dostępu na poziomie tokenu.

Ewolucja

Oryginalny paper · 2020 · NeurIPS 2020 (Google Research) · Manzil Zaheer

Big Bird: Transformers for Longer Sequences

Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed

2019

Sparse Transformer (Child et al., OpenAI)

Pierwsza szeroko cytowana praca o deterministycznej sparsyfikacji attention (lokalne + strided). Empiryczne wyniki, brak teoretycznych dowodów ekspresywności.

2020

Longformer — SWA + global tokens

Beltagy, Peters, Cohan (AI2) wprowadzają SWA + global attention. Pokazują empirycznie, że taka kombinacja działa dla encoderów long-document, ale teorii brak.

SWA (koncept)

2020

BigBird — formalna teoria sparse attention

Punkt przełomowy

Zaheer i in. (Google) publikują BigBird na NeurIPS 2020. Wprowadzają trzeci komponent (random attention) i — kluczowo — DOWODZĄ, że SWA + global + random zachowuje uniwersalność aproksymacji i Turing-zupełność standardowego Transformera. To pierwsze teoretyczne uzasadnienie sparse attention.

Big Bird: Transformers for Longer Sequences (artykuł)

2021

BigBird-Pegasus, BigBird-Roberta — produkcyjne checkpointy

Google publikuje na Hugging Face wytrenowane modele BigBird (oparte na RoBERTa i Pegasus) dla zadań QA i summarization. Wsparcie w bibliotece Transformers.

2023

Schyłek BigBird w nowych dużych LLM

Nowsze duże LLM (Mistral, Mixtral, Gemma) wybierają sam SWA bez random attention — random okazuje się trudniejszy do efektywnej implementacji na GPU i empirycznie L·W (głębokość × okno) jest wystarczające. BigBird pozostaje ważnym teoretycznym punktem odniesienia.

SWA (koncept)

BigBird

Jak działa

Rozwiązany problem

Komponenty

Implementacja

Ewolucja

Złożoność obliczeniowa

Wąskie gardło obliczeniowe

Hiperparametry (konfigurowalne osie)

Paradygmat wykonania

Równoległość

Wymagania sprzętowe