Typowy Multimodal LLM łączy bazowy model językowy z dodatkowymi enkoderami modalności, np. obrazu lub audio, oraz warstwą projekcji/alignmentu, która mapuje reprezentacje różnych danych do wspólnej przestrzeni. Dzięki temu model może rozumieć zależności między tekstem, obrazem i innymi sygnałami oraz generować odpowiedzi obejmujące więcej niż jeden typ danych.
Klasyczne LLM-y operujące wyłącznie na tekście mają ograniczoną zdolność rozumienia świata przedstawionego w obrazach, dźwięku, dokumentach i innych formach danych. Multimodal LLM redukuje ten problem, integrując różne typy wejść i wyjść w jednym systemie.
Moduł przekształcający surowe dane z modalności innej niż tekst (obrazy, audio, wideo) w ustrukturyzowane semantycznie reprezentacje tokenowe. Zazwyczaj wstępnie wytrenowany niezależnie (np. CLIP ViT dla obrazów).
Oficjalna
Most między przestrzeniami embeddingów enkodera modalności a przestrzenią wejściową modelu LLM. Odpowiada za wyrównanie (alignment) reprezentacji między modalnościami.
Oficjalna
Rdzeń architektoniczny: wstępnie wytrenowany dekodujący model językowy (decoder-only Transformer), stanowiący moduł rozumowania i generacji tekstu. Podczas treningu MLLM często pozostaje zamrożony lub podlega lekkiemu fine-tuningowi.
Oficjalna
Opcjonalny moduł generujący wyjścia w modalnościach innych niż tekst (np. obrazy, audio) na podstawie wyjść modelu LLM. Nie jest obecny we wszystkich architekturach MLLM.
Zwiększenie rozdzielczości wejściowego obrazu lub wydłużenie wideo prowadzi do wykładniczego wzrostu liczby tokenów wizualnych, a tym samym do kwadratowego wzrostu kosztu self-attention w modelu LLM. Nieuwzględnienie tego efektu prowadzi do przepełnienia pamięci GPU lub drastycznego spowolnienia treningu i inferencji.
Enkoder modalności (np. CLIP ViT) i LLM mają różne przestrzenie embeddingów. Niewystarczająco przetrenowany konektor prowadzi do słabego transferu informacji wizualnej do LLM — model ignoruje wizualne wskazówki lub halucynuje.
Agresywny fine-tuning LLM backbone podczas treningu MLLM może powodować utratę oryginalnych zdolności językowych modelu (zapomnienie wiedzy ogólnej, pogorszenie generacji tekstu).
MLLM generuje opisy obiektów nieistniejących na wejściowym obrazie. Problem wynika z nierównowagi między silnymi apriorycznymi wiedzy językowej LLM a słabszym sygnałem wizualnym, szczególnie gdy obraz nie zawiera oczekiwanych przez LLM elementów.
CLIP wprowadził skuteczne wyrównanie reprezentacji obrazu i tekstu przez uczenie kontrastywne na dużą skalę, dostarczając silny enkoder wizualny szeroko stosowany w kolejnych MLLM.
Flamingo zdefiniował architekturę MLLM opartą na wstawianych warstwach cross-attention do zamrożonego LLM (Chinchilla-70B), Perceiver Resampler jako konektorze i treningu na przeplatanych sekwencjach obraz-tekst. Model wykazał silne zdolności few-shot na 16 zadaniach wizualnych.
BLIP-2 wprowadził Q-Former jako wydajny konektor kompresujący tokeny wizualne do stałej liczby, umożliwiając trening MLLM z wielokrotnie mniejszą liczbą parametrów trenowalnych niż Flamingo. LLaVA pokazał, że prosta projekcja liniowa z danymi instruction-following generowanymi przez GPT-4 wystarczy do uzyskania silnych wyników.
OpenAI i Google opublikowały zamknięte MLLM zdolne do zaawansowanego przetwarzania obrazów i tekstu w ramach jednego systemu, wyznaczając nowe standardy jakości i wywołując szeroką adopcję paradygmatu MLLM w przemyśle.
Badania skupiły się na obsłudze audio, wideo i dokumentów o wysokiej rozdzielczości, a kwadratowa złożoność tokenów wizualnych stała się wiodącym problemem badawczym. Popularność zyskały metody token pruning, Q-Former-based compression i dynamic resolution.
Złożoność czasowa: O(n² · d). Złożoność przestrzenna: O(n² + P).
Ocena Multimodal LLM wymaga benchmarków obejmujących więcej niż tekst, np. VQA, OCR, chart understanding, document understanding, audio understanding oraz zadania multimodal reasoning.
Głównym wąskim gardłem obliczeniowym MLLM jest kwadratowa złożoność self-attention w mechanizmie Transformera względem łącznej liczby tokenów wejściowych. Tokeny wizualne (z obrazów, wideo, audio) znacznie wydłużają sekwencję wejściową: standardowy obraz konwertowany przez ViT daje setki tokenów, wideo może generować dziesiątki milionów tokenów.
Standardowy MLLM przetwarza wszystkie tokeny (tekstowe i wizualne) przez pełne warstwy self-attention LLM. Warianty sparse lub MoE stosowane są w konkretnych implementacjach (np. Mixtral-VL), ale nie są cechą definicyjną paradygmatu MLLM.
Enkoder modalności i konektor mogą być przetwarzane w pełni równolegle zarówno podczas treningu, jak i prefill phase inferencji. Tensor parallelism i pipeline parallelism są szeroko stosowane dla dużych LLM backbone w środowiskach wieloGPU.
Wybór architektury i wagi wstępnego treningu enkodera modalności. Wpływa na jakość reprezentacji wizualnych lub audio oraz zdolność do transferu wiedzy.
Architektura modułu interfejsu modalności. Determinuje sposób wyrównania i kompresji tokenów modalności przed LLM.
Wybór wstępnie wytrenowanego modelu językowego stanowiącego rdzeń MLLM. Determinuje zdolności rozumowania, generacji i rozmiar modelu.
Rozdzielczość pikseli przetwarzanego obrazu. Bezpośrednio determinuje liczbę tokenów wizualnych i tym samym koszt obliczeniowy.
Określa, które komponenty MLLM są zamrożone, a które trenowane na poszczególnych etapach (pretrening wyrównania, instruction tuning, alignment tuning).
MLLM składa się z Transformerów (enkoder wizualny, konektor, LLM backbone) — wszystkie korzystają z mnożenia macierzy (GEMM), które jest akcelerowane przez Tensor Cores GPU (NVIDIA A100, H100). Trening i inferencja MLLM w praktyce wymagają GPU z dużą pamięcią HBM (40–80 GB).
TPU v4/v5 są stosowane do treningu MLLM przez Google (Gemini). Oferują wysoką przepustowość dla operacji GEMM i efektywne skalowanie przez TPU Pod.