Robocikowo>ROBOCIKOWO
Obsługa wielu formatów danych

Multimodal LLM

2023AktywnyOpublikowano: 20 marca 2026Aktualizacja: 20 marca 2026Opublikowany
Duży model językowy zdolny do przetwarzania i łączenia wielu modalności, takich jak tekst, obraz, audio lub wideo.
Kluczowa innowacja
Rozszerzenie dekodującego modelu językowego (LLM) o dedykowane enkodery modalności i moduł interfejsu modalności (konektor), umożliwiające przetwarzanie i wspólne rozumowanie nad wejściami z wielu modalności (obraz, audio, wideo) przy zachowaniu zdolności generacji tekstu w modelu LLM.
Kategoria
Obsługa wielu formatów danych
Poziom abstrakcji
System
Poziom operacji
ModelElement architekturyInferencja
Zastosowania
Analiza obrazów i wykresówAsystenci głosowi i multimodalniOCR i rozumienie dokumentówPraca na PDF-ach, zrzutach ekranu i prezentacjachQ&A na podstawie obrazów, tabel i audio

Jak działa

Typowy Multimodal LLM łączy bazowy model językowy z dodatkowymi enkoderami modalności, np. obrazu lub audio, oraz warstwą projekcji/alignmentu, która mapuje reprezentacje różnych danych do wspólnej przestrzeni. Dzięki temu model może rozumieć zależności między tekstem, obrazem i innymi sygnałami oraz generować odpowiedzi obejmujące więcej niż jeden typ danych.

Rozwiązany problem

Klasyczne LLM-y operujące wyłącznie na tekście mają ograniczoną zdolność rozumienia świata przedstawionego w obrazach, dźwięku, dokumentach i innych formach danych. Multimodal LLM redukuje ten problem, integrując różne typy wejść i wyjść w jednym systemie.

Kluczowe mechanizmy

Łączenie bazowego LLM z enkoderami obrazu, audio lub wideo
Alignment reprezentacji różnych modalności do wspólnej przestrzeni semantycznej
Cross-modal reasoning między tekstem a sygnałami niewerbalnymi
Generowanie odpowiedzi tekstowych, głosowych lub multimodalnych

Mocne strony i ograniczenia

Mocne strony
Bardziej naturalna interakcja z użytkownikiem
Szerszy zakres danych wejściowych i wyjściowych
Lepsze rozumienie dokumentów, wykresów i interfejsów
Możliwość integracji mowy, obrazu i tekstu w jednym systemie
Ograniczenia
Wyższe koszty obliczeniowe i pamięciowe
Większa złożoność trenowania i ewaluacji
Trudniejsze zapewnienie jakości na wszystkich modalnościach
Ryzyko nierównej jakości między poszczególnymi typami danych

Komponenty

Enkoder modalnościEkstrakcja cech modalności nielingwistycznej do przestrzeni embeddingów kompatybilnej z dalszą integracją.

Moduł przekształcający surowe dane z modalności innej niż tekst (obrazy, audio, wideo) w ustrukturyzowane semantycznie reprezentacje tokenowe. Zazwyczaj wstępnie wytrenowany niezależnie (np. CLIP ViT dla obrazów).

Vision Transformer (ViT)Najczęstszy enkoder obrazów w MLLM. Dzieli obraz na patche i przetwarza je jako sekwencję tokenów przez self-attention.
Perceiver ResamplerStosowany w Flamingo. Kompresuje reprezentacje wizualne do stałej liczby tokenów przez cross-attention z uczonymi zapytaniami.

Oficjalna

Interfejs modalnościWyrównanie i integracja reprezentacji różnych modalności przed przetworzeniem przez LLM.

Most między przestrzeniami embeddingów enkodera modalności a przestrzenią wejściową modelu LLM. Odpowiada za wyrównanie (alignment) reprezentacji między modalnościami.

Projekcja liniowa / MLPProsta warstwa liniowa lub MLP mapująca tokeny enkodera wizualnego do przestrzeni embeddingów LLM. Używana w LLaVA.
Q-FormerKonektor oparty na uczonych zapytaniach (learnable queries), stosowany w BLIP-2. Filtruje i kompresuje informację wizualną przez cross-attention między uczonymi tokenami zapytań a tokenami enkodera wizualnego.
Warstwy cross-attention wstawiane do LLMWarstwy cross-attention umieszczane co kilka warstw w modelu LLM, pozwalające tekstowym tokenom uczestniczyć w uwadze nad tokenami wizualnymi. Stosowane w Flamingo.

Oficjalna

Model językowy LLMRozumowanie, rozumienie języka i generacja tekstu na podstawie połączonej sekwencji tokenów tekstowych i modalności.

Rdzeń architektoniczny: wstępnie wytrenowany dekodujący model językowy (decoder-only Transformer), stanowiący moduł rozumowania i generacji tekstu. Podczas treningu MLLM często pozostaje zamrożony lub podlega lekkiemu fine-tuningowi.

Oficjalna

Generator modalności (opcjonalny)Generacja wyjść w modalnościach niezasadniczo tekstowych.

Opcjonalny moduł generujący wyjścia w modalnościach innych niż tekst (np. obrazy, audio) na podstawie wyjść modelu LLM. Nie jest obecny we wszystkich architekturach MLLM.

Implementacja

Pułapki implementacyjne
Eksplozja liczby tokenów wizualnych przy wysokich rozdzielczościachKrytyczna

Zwiększenie rozdzielczości wejściowego obrazu lub wydłużenie wideo prowadzi do wykładniczego wzrostu liczby tokenów wizualnych, a tym samym do kwadratowego wzrostu kosztu self-attention w modelu LLM. Nieuwzględnienie tego efektu prowadzi do przepełnienia pamięci GPU lub drastycznego spowolnienia treningu i inferencji.

Rozwiązanie:Stosowanie konektorów kompresujących tokeny (Q-Former, Perceiver Resampler), token pruning/merging, dynamiczne kafelkowanie obrazu z limitowaną liczbą patchy lub sparse attention.
Brak wyrównania przestrzeni embeddingów między enkoderem a LLMWysoka

Enkoder modalności (np. CLIP ViT) i LLM mają różne przestrzenie embeddingów. Niewystarczająco przetrenowany konektor prowadzi do słabego transferu informacji wizualnej do LLM — model ignoruje wizualne wskazówki lub halucynuje.

Rozwiązanie:Wystarczający pretrening konektora na dużym zbiorze par obraz-tekst przed instruction tuningiem; stosowanie sprawdzonych architektur konektorów (Q-Former, MLP).
Katastroficzne zapomnienie zdolności LLM podczas fine-tuninguWysoka

Agresywny fine-tuning LLM backbone podczas treningu MLLM może powodować utratę oryginalnych zdolności językowych modelu (zapomnienie wiedzy ogólnej, pogorszenie generacji tekstu).

Rozwiązanie:Zamrożenie LLM podczas prereningu wyrównania; stosowanie PEFT (LoRA, QLoRA) zamiast pełnego fine-tuningu; mieszanie danych tekstowych i multimodalnych podczas treningu.
Halucynacje obiektu – nieistniejące obiekty w wyjściuWysoka

MLLM generuje opisy obiektów nieistniejących na wejściowym obrazie. Problem wynika z nierównowagi między silnymi apriorycznymi wiedzy językowej LLM a słabszym sygnałem wizualnym, szczególnie gdy obraz nie zawiera oczekiwanych przez LLM elementów.

Rozwiązanie:Stosowanie danych instruction-following z negatywnymi przykładami; regulacja siły sygnału wizualnego; stosowanie wyspecjalizowanych strat wyrównania modalności; ewaluacja na benchmarkach POPE i HallusionBench.

Ewolucja

2021
CLIP (Radford et al., OpenAI) – kontrastywne wyrównanie obrazu i tekstu jako fundament
Punkt przełomowy

CLIP wprowadził skuteczne wyrównanie reprezentacji obrazu i tekstu przez uczenie kontrastywne na dużą skalę, dostarczając silny enkoder wizualny szeroko stosowany w kolejnych MLLM.

2022
Flamingo (Alayrac et al., DeepMind / NeurIPS 2022) – przełomowy MLLM z few-shot learning
Punkt przełomowy

Flamingo zdefiniował architekturę MLLM opartą na wstawianych warstwach cross-attention do zamrożonego LLM (Chinchilla-70B), Perceiver Resampler jako konektorze i treningu na przeplatanych sekwencjach obraz-tekst. Model wykazał silne zdolności few-shot na 16 zadaniach wizualnych.

2023
BLIP-2 (Li et al., Salesforce) i LLaVA (Liu et al.) – efektywne i otwarte MLLM
Punkt przełomowy

BLIP-2 wprowadził Q-Former jako wydajny konektor kompresujący tokeny wizualne do stałej liczby, umożliwiając trening MLLM z wielokrotnie mniejszą liczbą parametrów trenowalnych niż Flamingo. LLaVA pokazał, że prosta projekcja liniowa z danymi instruction-following generowanymi przez GPT-4 wystarczy do uzyskania silnych wyników.

2023
GPT-4V (OpenAI) i Gemini (Google) – komercyjne MLLM pierwszej klasy
Punkt przełomowy

OpenAI i Google opublikowały zamknięte MLLM zdolne do zaawansowanego przetwarzania obrazów i tekstu w ramach jednego systemu, wyznaczając nowe standardy jakości i wywołując szeroką adopcję paradygmatu MLLM w przemyśle.

2024
Ekspansja do wielu modalności i kompresja tokenów wizualnych jako główny obszar badań

Badania skupiły się na obsłudze audio, wideo i dokumentów o wysokiej rozdzielczości, a kwadratowa złożoność tokenów wizualnych stała się wiodącym problemem badawczym. Popularność zyskały metody token pruning, Q-Former-based compression i dynamic resolution.

Hiperparametry (konfigurowalne osie)

Typ enkodera modalnościKrytyczna

Wybór architektury i wagi wstępnego treningu enkodera modalności. Wpływa na jakość reprezentacji wizualnych lub audio oraz zdolność do transferu wiedzy.

CLIP ViT-L/14Najczęściej stosowany enkoder wizualny w LLaVA, BLIP-2 i wielu innych modelach.
CLIP ViT-H/14Większa wariant stosowany w nowszych modelach dla lepszej jakości reprezentacji.
SigLIPAlternatywny enkoder wizualny stosowany w modelach Gemini i nowszych LLaVA.
Typ konektora modalnościKrytyczna

Architektura modułu interfejsu modalności. Determinuje sposób wyrównania i kompresji tokenów modalności przed LLM.

Linear projection (MLP)Stosowany w LLaVA. Prosta, wydajna projekcja bez kompresji liczby tokenów.
Q-FormerStosowany w BLIP-2. Kompresuje tokeny wizualne do stałej liczby tokenów zapytań.
Gated cross-attentionStosowany w Flamingo. Wstawiane pomiędzy zamrożone warstwy LLM.
LLM backboneKrytyczna

Wybór wstępnie wytrenowanego modelu językowego stanowiącego rdzeń MLLM. Determinuje zdolności rozumowania, generacji i rozmiar modelu.

Vicuna-7B / 13BStosowany w LLaVA.
Chinchilla-70BStosowany w Flamingo.
OPT / Flan-T5Stosowany w BLIP-2.
Rozdzielczość wejściowego obrazuWysoka

Rozdzielczość pikseli przetwarzanego obrazu. Bezpośrednio determinuje liczbę tokenów wizualnych i tym samym koszt obliczeniowy.

224×224Standardowa rozdzielczość dla CLIP ViT. Generuje 196 tokenów wizualnych (14×14 patchy).
336×336 – 448×448Wyższa rozdzielczość dla lepszego rozpoznawania szczegółów i OCR.
Dynamic resolution (tile-based)Dynamiczne kafelkowanie obrazu do przetwarzania wysokich rozdzielczości (np. w InternVL, LLaVA-HD).
Strategia treninguWysoka

Określa, które komponenty MLLM są zamrożone, a które trenowane na poszczególnych etapach (pretrening wyrównania, instruction tuning, alignment tuning).

Freeze encoder + LLM, train connector onlyNajczęstszy etap prereningu wyrównania (np. BLIP-2 stage 1, LLaVA stage 1).
Freeze encoder, train connector + LLMInstruction tuning z częściowym odmrożeniem modelu (np. LLaVA stage 2).
Full fine-tuning (PEFT / LoRA)Efektywne dostrajanie wszystkich komponentów przy ograniczonym koszcie obliczeniowym.

Złożoność obliczeniowa

Charakterystyki obliczeniowe
Wymaga dodatkowych enkoderów modalności poza samym LLM
Zwykle zużywa więcej pamięci i mocy obliczeniowej niż model tylko tekstowy
Latencja rośnie wraz z liczbą i złożonością modalności

Złożoność czasowa: O(n² · d). Złożoność przestrzenna: O(n² + P).

Uwagi do benchmarku

Ocena Multimodal LLM wymaga benchmarków obejmujących więcej niż tekst, np. VQA, OCR, chart understanding, document understanding, audio understanding oraz zadania multimodal reasoning.

Wąskie gardło obliczeniowe

Kwadratowa złożoność self-attention dla wizualnych tokenów

Głównym wąskim gardłem obliczeniowym MLLM jest kwadratowa złożoność self-attention w mechanizmie Transformera względem łącznej liczby tokenów wejściowych. Tokeny wizualne (z obrazów, wideo, audio) znacznie wydłużają sekwencję wejściową: standardowy obraz konwertowany przez ViT daje setki tokenów, wideo może generować dziesiątki milionów tokenów.

Zależy od
Rozdzielczość wejściowego obrazu / wideoTyp konektora modalności

Paradygmat wykonania

Tryb główny
Gęsty

Standardowy MLLM przetwarza wszystkie tokeny (tekstowe i wizualne) przez pełne warstwy self-attention LLM. Warianty sparse lub MoE stosowane są w konkretnych implementacjach (np. Mixtral-VL), ale nie są cechą definicyjną paradygmatu MLLM.

Wzorzec aktywacji
Wszystkie ścieżki aktywne

Równoległość

Poziom równoległości
Częściowo równoległy

Enkoder modalności i konektor mogą być przetwarzane w pełni równolegle zarówno podczas treningu, jak i prefill phase inferencji. Tensor parallelism i pipeline parallelism są szeroko stosowane dla dużych LLM backbone w środowiskach wieloGPU.

Zakres
TreningInferencjaPomiędzy tokenamiPomiędzy urządzeniami
Ograniczenia
!Część dekodująca LLM działa autoregtesywnie (token po tokenie) podczas generacji, ograniczając równoległość na etapie inferencji.

Wymagania sprzętowe

Podstawowe

MLLM składa się z Transformerów (enkoder wizualny, konektor, LLM backbone) — wszystkie korzystają z mnożenia macierzy (GEMM), które jest akcelerowane przez Tensor Cores GPU (NVIDIA A100, H100). Trening i inferencja MLLM w praktyce wymagają GPU z dużą pamięcią HBM (40–80 GB).

Dobry fit

TPU v4/v5 są stosowane do treningu MLLM przez Google (Gemini). Oferują wysoką przepustowość dla operacji GEMM i efektywne skalowanie przez TPU Pod.