Obsługa wielu formatów danych

Multimodal LLM

2023AktywnyOpublikowano: 20 marca 2026Aktualizacja: 20 marca 2026Opublikowany

Duży model językowy zdolny do przetwarzania i łączenia wielu modalności, takich jak tekst, obraz, audio lub wideo.

Kluczowa innowacja

Rozszerzenie dekodującego modelu językowego (LLM) o dedykowane enkodery modalności i moduł interfejsu modalności (konektor), umożliwiające przetwarzanie i wspólne rozumowanie nad wejściami z wielu modalności (obraz, audio, wideo) przy zachowaniu zdolności generacji tekstu w modelu LLM.

Kategoria

Obsługa wielu formatów danych

Poziom abstrakcji

System

Poziom operacji

ModelElement architekturyInferencja

Zastosowania

Analiza obrazów i wykresówAsystenci głosowi i multimodalniOCR i rozumienie dokumentówPraca na PDF-ach, zrzutach ekranu i prezentacjachQ&A na podstawie obrazów, tabel i audio

Jak działa

Typowy Multimodal LLM łączy bazowy model językowy z dodatkowymi enkoderami modalności, np. obrazu lub audio, oraz warstwą projekcji/alignmentu, która mapuje reprezentacje różnych danych do wspólnej przestrzeni. Dzięki temu model może rozumieć zależności między tekstem, obrazem i innymi sygnałami oraz generować odpowiedzi obejmujące więcej niż jeden typ danych.

Rozwiązany problem

Klasyczne LLM-y operujące wyłącznie na tekście mają ograniczoną zdolność rozumienia świata przedstawionego w obrazach, dźwięku, dokumentach i innych formach danych. Multimodal LLM redukuje ten problem, integrując różne typy wejść i wyjść w jednym systemie.

Kluczowe mechanizmy

Łączenie bazowego LLM z enkoderami obrazu, audio lub wideo

Alignment reprezentacji różnych modalności do wspólnej przestrzeni semantycznej

Cross-modal reasoning między tekstem a sygnałami niewerbalnymi

Generowanie odpowiedzi tekstowych, głosowych lub multimodalnych

Mocne strony i ograniczenia

Mocne strony

✓Bardziej naturalna interakcja z użytkownikiem

✓Szerszy zakres danych wejściowych i wyjściowych

✓Lepsze rozumienie dokumentów, wykresów i interfejsów

✓Możliwość integracji mowy, obrazu i tekstu w jednym systemie

Ograniczenia

✗Wyższe koszty obliczeniowe i pamięciowe

✗Większa złożoność trenowania i ewaluacji

✗Trudniejsze zapewnienie jakości na wszystkich modalnościach

✗Ryzyko nierównej jakości między poszczególnymi typami danych

Komponenty

Enkoder modalnościEkstrakcja cech modalności nielingwistycznej do przestrzeni embeddingów kompatybilnej z dalszą integracją.

Moduł przekształcający surowe dane z modalności innej niż tekst (obrazy, audio, wideo) w ustrukturyzowane semantycznie reprezentacje tokenowe. Zazwyczaj wstępnie wytrenowany niezależnie (np. CLIP ViT dla obrazów).

Vision Transformer (ViT)Najczęstszy enkoder obrazów w MLLM. Dzieli obraz na patche i przetwarza je jako sekwencję tokenów przez self-attention.

Perceiver ResamplerStosowany w Flamingo. Kompresuje reprezentacje wizualne do stałej liczby tokenów przez cross-attention z uczonymi zapytaniami.

Oficjalna

Interfejs modalnościWyrównanie i integracja reprezentacji różnych modalności przed przetworzeniem przez LLM.

Most między przestrzeniami embeddingów enkodera modalności a przestrzenią wejściową modelu LLM. Odpowiada za wyrównanie (alignment) reprezentacji między modalnościami.

Projekcja liniowa / MLPProsta warstwa liniowa lub MLP mapująca tokeny enkodera wizualnego do przestrzeni embeddingów LLM. Używana w LLaVA.

Q-FormerKonektor oparty na uczonych zapytaniach (learnable queries), stosowany w BLIP-2. Filtruje i kompresuje informację wizualną przez cross-attention między uczonymi tokenami zapytań a tokenami enkodera wizualnego.

Warstwy cross-attention wstawiane do LLMWarstwy cross-attention umieszczane co kilka warstw w modelu LLM, pozwalające tekstowym tokenom uczestniczyć w uwadze nad tokenami wizualnymi. Stosowane w Flamingo.

Oficjalna

Model językowy LLMRozumowanie, rozumienie języka i generacja tekstu na podstawie połączonej sekwencji tokenów tekstowych i modalności.

Rdzeń architektoniczny: wstępnie wytrenowany dekodujący model językowy (decoder-only Transformer), stanowiący moduł rozumowania i generacji tekstu. Podczas treningu MLLM często pozostaje zamrożony lub podlega lekkiemu fine-tuningowi.

Oficjalna

Generator modalności (opcjonalny)Generacja wyjść w modalnościach niezasadniczo tekstowych.

Opcjonalny moduł generujący wyjścia w modalnościach innych niż tekst (np. obrazy, audio) na podstawie wyjść modelu LLM. Nie jest obecny we wszystkich architekturach MLLM.

Implementacja

Implementacje referencyjne

LLaVA – Large Language and Vision Assistant

Python · Haotian Liu et al. (UW-Madison, Microsoft Research, Columbia University)

Oficjalna

OpenFlamingo – open-source implementation of Flamingo

Python · ML Foundations

BLIP-2 – Salesforce Research

Python · Salesforce Research

Oficjalna

Pułapki implementacyjne

Eksplozja liczby tokenów wizualnych przy wysokich rozdzielczościachKrytyczna

Zwiększenie rozdzielczości wejściowego obrazu lub wydłużenie wideo prowadzi do wykładniczego wzrostu liczby tokenów wizualnych, a tym samym do kwadratowego wzrostu kosztu self-attention w modelu LLM. Nieuwzględnienie tego efektu prowadzi do przepełnienia pamięci GPU lub drastycznego spowolnienia treningu i inferencji.

Rozwiązanie:Stosowanie konektorów kompresujących tokeny (Q-Former, Perceiver Resampler), token pruning/merging, dynamiczne kafelkowanie obrazu z limitowaną liczbą patchy lub sparse attention.

Brak wyrównania przestrzeni embeddingów między enkoderem a LLMWysoka

Enkoder modalności (np. CLIP ViT) i LLM mają różne przestrzenie embeddingów. Niewystarczająco przetrenowany konektor prowadzi do słabego transferu informacji wizualnej do LLM — model ignoruje wizualne wskazówki lub halucynuje.

Rozwiązanie:Wystarczający pretrening konektora na dużym zbiorze par obraz-tekst przed instruction tuningiem; stosowanie sprawdzonych architektur konektorów (Q-Former, MLP).

Katastroficzne zapomnienie zdolności LLM podczas fine-tuninguWysoka

Agresywny fine-tuning LLM backbone podczas treningu MLLM może powodować utratę oryginalnych zdolności językowych modelu (zapomnienie wiedzy ogólnej, pogorszenie generacji tekstu).

Rozwiązanie:Zamrożenie LLM podczas prereningu wyrównania; stosowanie PEFT (LoRA, QLoRA) zamiast pełnego fine-tuningu; mieszanie danych tekstowych i multimodalnych podczas treningu.

Halucynacje obiektu – nieistniejące obiekty w wyjściuWysoka

MLLM generuje opisy obiektów nieistniejących na wejściowym obrazie. Problem wynika z nierównowagi między silnymi apriorycznymi wiedzy językowej LLM a słabszym sygnałem wizualnym, szczególnie gdy obraz nie zawiera oczekiwanych przez LLM elementów.

Rozwiązanie:Stosowanie danych instruction-following z negatywnymi przykładami; regulacja siły sygnału wizualnego; stosowanie wyspecjalizowanych strat wyrównania modalności; ewaluacja na benchmarkach POPE i HallusionBench.

Ewolucja

2021

CLIP (Radford et al., OpenAI) – kontrastywne wyrównanie obrazu i tekstu jako fundament

Punkt przełomowy

CLIP wprowadził skuteczne wyrównanie reprezentacji obrazu i tekstu przez uczenie kontrastywne na dużą skalę, dostarczając silny enkoder wizualny szeroko stosowany w kolejnych MLLM.

Learning Transferable Visual Models From Natural Language Supervision (artykuł)

2022

Flamingo (Alayrac et al., DeepMind / NeurIPS 2022) – przełomowy MLLM z few-shot learning

Punkt przełomowy

Flamingo zdefiniował architekturę MLLM opartą na wstawianych warstwach cross-attention do zamrożonego LLM (Chinchilla-70B), Perceiver Resampler jako konektorze i treningu na przeplatanych sekwencjach obraz-tekst. Model wykazał silne zdolności few-shot na 16 zadaniach wizualnych.

Flamingo: a Visual Language Model for Few-Shot Learning (artykuł)

2023

BLIP-2 (Li et al., Salesforce) i LLaVA (Liu et al.) – efektywne i otwarte MLLM

Punkt przełomowy

BLIP-2 wprowadził Q-Former jako wydajny konektor kompresujący tokeny wizualne do stałej liczby, umożliwiając trening MLLM z wielokrotnie mniejszą liczbą parametrów trenowalnych niż Flamingo. LLaVA pokazał, że prosta projekcja liniowa z danymi instruction-following generowanymi przez GPT-4 wystarczy do uzyskania silnych wyników.

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (artykuł)

2023

GPT-4V (OpenAI) i Gemini (Google) – komercyjne MLLM pierwszej klasy

Punkt przełomowy

OpenAI i Google opublikowały zamknięte MLLM zdolne do zaawansowanego przetwarzania obrazów i tekstu w ramach jednego systemu, wyznaczając nowe standardy jakości i wywołując szeroką adopcję paradygmatu MLLM w przemyśle.

GPT-4 Technical Report (artykuł)

2024

Ekspansja do wielu modalności i kompresja tokenów wizualnych jako główny obszar badań

Badania skupiły się na obsłudze audio, wideo i dokumentów o wysokiej rozdzielczości, a kwadratowa złożoność tokenów wizualnych stała się wiodącym problemem badawczym. Popularność zyskały metody token pruning, Q-Former-based compression i dynamic resolution.

Źródła

What is a Multimodal LLM (MLLM)?

article

IBM

Definicja i praktyczne omówienie MLLM jako modeli przetwarzających wiele modalności.

A Comprehensive Survey and Guide to Multimodal Large Language Models

Paper

arXiv

Survey opisujący architekturę, zastosowania i ewolucję multimodalnych LLM-ów.

Hiperparametry (konfigurowalne osie)

Typ enkodera modalnościKrytyczna

Wybór architektury i wagi wstępnego treningu enkodera modalności. Wpływa na jakość reprezentacji wizualnych lub audio oraz zdolność do transferu wiedzy.

CLIP ViT-L/14Najczęściej stosowany enkoder wizualny w LLaVA, BLIP-2 i wielu innych modelach.

CLIP ViT-H/14Większa wariant stosowany w nowszych modelach dla lepszej jakości reprezentacji.

SigLIPAlternatywny enkoder wizualny stosowany w modelach Gemini i nowszych LLaVA.

Typ konektora modalnościKrytyczna

Architektura modułu interfejsu modalności. Determinuje sposób wyrównania i kompresji tokenów modalności przed LLM.

Linear projection (MLP)Stosowany w LLaVA. Prosta, wydajna projekcja bez kompresji liczby tokenów.

Q-FormerStosowany w BLIP-2. Kompresuje tokeny wizualne do stałej liczby tokenów zapytań.

Gated cross-attentionStosowany w Flamingo. Wstawiane pomiędzy zamrożone warstwy LLM.

LLM backboneKrytyczna

Wybór wstępnie wytrenowanego modelu językowego stanowiącego rdzeń MLLM. Determinuje zdolności rozumowania, generacji i rozmiar modelu.

Vicuna-7B / 13BStosowany w LLaVA.

Chinchilla-70BStosowany w Flamingo.

OPT / Flan-T5Stosowany w BLIP-2.

Rozdzielczość wejściowego obrazuWysoka

Rozdzielczość pikseli przetwarzanego obrazu. Bezpośrednio determinuje liczbę tokenów wizualnych i tym samym koszt obliczeniowy.

224×224Standardowa rozdzielczość dla CLIP ViT. Generuje 196 tokenów wizualnych (14×14 patchy).

336×336 – 448×448Wyższa rozdzielczość dla lepszego rozpoznawania szczegółów i OCR.

Dynamic resolution (tile-based)Dynamiczne kafelkowanie obrazu do przetwarzania wysokich rozdzielczości (np. w InternVL, LLaVA-HD).

Strategia treninguWysoka

Określa, które komponenty MLLM są zamrożone, a które trenowane na poszczególnych etapach (pretrening wyrównania, instruction tuning, alignment tuning).

Freeze encoder + LLM, train connector onlyNajczęstszy etap prereningu wyrównania (np. BLIP-2 stage 1, LLaVA stage 1).

Freeze encoder, train connector + LLMInstruction tuning z częściowym odmrożeniem modelu (np. LLaVA stage 2).

Full fine-tuning (PEFT / LoRA)Efektywne dostrajanie wszystkich komponentów przy ograniczonym koszcie obliczeniowym.

Multimodal LLM

Jak działa

Rozwiązany problem

Kluczowe mechanizmy

Mocne strony i ograniczenia

Komponenty

Implementacja

Ewolucja

Źródła

Złożoność obliczeniowa

Wąskie gardło obliczeniowe

Paradygmat wykonania

Równoległość

Hiperparametry (konfigurowalne osie)

Wymagania sprzętowe