Native Multimodal Architecture

Model trenowany od podstaw jednocześnie na danych ze wszystkich modalności, co eliminuje konieczność łączenia odrębnych, wstępnie wytrenowanych enkoderów modalności i umożliwia naukę wspólnych reprezentacji międzymodalnych.

Kategoria
Poziom abstrakcji
Poziom działania
01

Unified Multimodal Tokenizer

Tworzy jednolite wejście dla wspólnego szkieletu transformerowego, umożliwiając sekwencyjne przetwarzanie danych różnych modalności.

modułowy

Moduł odpowiedzialny za konwersję danych ze wszystkich modalności do wspólnej przestrzeni tokenów. Dla obrazów stosuje się zazwyczaj kwantyzację wektorową (VQ-VAE) generującą dyskretne tokeny wizualne; tekst tokenizowany jest standardowo; audio konwertowane jest do spektrogramów lub dyskretnych tokenów akustycznych.

VQ-VAE image tokenizerContinuous patch embeddings
02

Shared Transformer Backbone

Centralna jednostka obliczeniowa modelu; realizuje wspólną reprezentację i rozumowanie między modalnościami.

Pojedynczy stos warstw transformerowych przetwarzający interleaved sekwencje tokenów ze wszystkich modalności. Mechanizm uwagi (self-attention) operuje na połączonej sekwencji, pozwalając tokenom różnych modalności wzajemnie na siebie wpływać.

03

Joint Pretraining Objective

Zapewnia wspólną sygnaturę gradientu dla wszystkich modalności podczas treningu, wymuszając naukę reprezentacji cross-modal.

modułowy

Cel treningowy stosowany jednocześnie do danych ze wszystkich modalności. Typowo jest to autoregresywne przewidywanie kolejnego tokenu (next-token prediction) na interleaved sekwencjach multimodalnych, bez oddzielnych faz wstępnego treningu per modalność.

04

Modality-specific Output Heads

Umożliwia generowanie wyjść w wielu modalnościach przy zachowaniu wspólnego szkieletu.

modułowy

Osobne głowice wyjściowe mapujące wewnętrzną reprezentację transformera na przestrzeń wyjściową właściwą dla danej modalności. Mogą obejmować głowicę językową (softmax nad słownikiem tekstowym) oraz głowicę wizualną (softmax nad słownikiem tokenów obrazu lub dekoder obrazu).

Równoległość

Częściowo równoległy

Trening na interleaved danych multimodalnych jest możliwy do zrównoleglenia na urządzeniach (data parallelism, tensor parallelism), jednak sekwencyjna natura autoregresywnego dekodowania ogranicza równoległość w trakcie inferencji. Trening od zera na danych wielu modalności wymaga dużej liczby GPU/TPU.

Paradygmat

Gęsty

Wszystkie ścieżki aktywne

Podstawowy wzorzec wykonania jest gęsty (dense): wszystkie parametry transformera są aktywowane dla każdego tokenu, niezależnie od modalności. Warianty z MoE wprowadzają warunkową aktywację ekspertów, jednak bazowy paradygmat natywnie multimodalny nie wymaga routingu.

Głębokość fuzji modalności

Krytyczne
  • early fusionTokeny wszystkich modalności łączone są bezpośrednio w jedną sekwencję wejściową — podejście stosowane w Chameleon, GPT-4o.
  • late fusionOddzielne enkodery przetwarzają każdą modalność, wyniki łączone są na późniejszym etapie — np. LLaVA, Flamingo.

Reprezentacja tokenów modalności

Standardowe
  • discrete (VQ-VAE)Obrazy kwantyzowane do dyskretnych tokenów — podejście stosowane w Chameleon.
  • continuous patch embeddingsObrazy reprezentowane jako ciągłe osadzenia fragmentów — podejście stosowane w Gemini.

Zakres modalności

Standardowe
  • text + imageNajczęstszy zakres — Chameleon, Aria.
  • text + image + audio + videoPełny zakres modalności — Gemini, GPT-4o.

Integracja Mixture of Experts

Standardowe
  • dense (bez MoE)Chameleon — w pełni gęsty model.
  • sparse MoEAria, Gemini-styl — MoE umożliwia specjalizację ekspertów per modalność.

Typowe pułapki

Niestabilność treningu przy wczesnej fuzji
WYSOKI

Zastosowanie query-key normalization (QK-Norm), dostosowanie współczynnika uczenia do skali modelu i modalności, ostrożna kuracja danych interleaved.

Koszt treningu od podstaw
WYSOKI

Fazy treningu stopniowanego (curriculum), efektywne mieszanie danych z kontrolą proporcji modalności, wykorzystanie MoE do redukcji FLOP-ów aktywnych na token.

Nierównowaga modalności w danych treningowych
ŚREDNI

Staranna kuracja proporcji danych per modalność; stosowanie oddzielnych tokenizatorów wyważających dystrybucje tokenów.

Trudność generowania w wielu modalnościach jednocześnie
ŚREDNI

Oddzielne głowice wyjściowe per modalność; etapowe wyrównywanie (SFT, RLHF) z danymi obejmującymi mixed-modal outputs.

GENEZA · Papier źródłowy

Chameleon: Mixed-Modal Early-Fusion Foundation Models
2024arXiv 2024 (arXiv:2405.09818)Chameleon Team (FAIR at Meta)
2021
2022

Uczenie z dokumentów mieszanych (Aghajanyan et al.)

2023

Gemini — pierwszy duży model natywnie multimodalny

przełom
2024

Chameleon — otwarty model wczesnej fuzji od podstaw

przełom
2024

GPT-4o — end-to-end trening przez modalności tekst/audio/obraz

przełom
2025

Prawa skalowania dla natywnych modeli multimodalnych (Apple/Sorbonne)

przełom
GPU Tensor CoresGŁÓWNY

Trening i inferencja natywnych modeli multimodalnych opiera się na dużych matrycowych operacjach transformera (QKV projections, FFN), które są zoptymalizowane dla tensorowych rdzeni GPU (np. NVIDIA H100, A100, GB200). Chameleon trenowany był na klastrach GPU A100.

Większość znanych implementacji trenowana była na GPU NVIDIA A100/H100. GPT-4o i Gemini korzystają z TPU (Google) lub GB200 NVL72 (OpenAI).

TPUDOBRY

Google Gemini — jeden z kluczowych natywnych modeli multimodalnych — trenowany był na TPU v4/v5. Architektura transformerowa jest dobrze dopasowana do macierzowych akceleratorów TPU.

TPU szczególnie efektywne dla Gemini-style architectures z dużymi batch size.

ROZSZERZA

Multimodal LLM

Multimodal LLM to klasa dużych modeli językowych rozszerzonych o zdolność odbioru, interpretacji i generowania treści w wielu modalnościach. Oprócz tekstu modele tego typu mogą analizować obrazy, dźwięk, dokumenty, wykresy, a czasem również wideo, dzięki czemu nadają się do bardziej ogólnych i naturalnych interakcji człowiek–AI.

PRZEJDŹ DO KONCEPTU

ŁĄCZY

MoE

Mixture of Experts (MoE) dzieli model na wiele sub-sieci (ekspertów) i używa rutera do aktywacji tylko części z nich dla danego wejścia, co pozwala skalować pojemność bez proporcjonalnego wzrostu kosztów obliczeniowych.

PRZEJDŹ DO KONCEPTU