Native Multimodal Architecture

Model trenowany od podstaw jednocześnie na danych ze wszystkich modalności, co eliminuje konieczność łączenia odrębnych, wstępnie wytrenowanych enkoderów modalności i umożliwia naukę wspólnych reprezentacji międzymodalnych.

Kategoria

Poziom abstrakcji

Poziom działania

Unified Multimodal Tokenizer

Tworzy jednolite wejście dla wspólnego szkieletu transformerowego, umożliwiając sekwencyjne przetwarzanie danych różnych modalności.

modułowy

Moduł odpowiedzialny za konwersję danych ze wszystkich modalności do wspólnej przestrzeni tokenów. Dla obrazów stosuje się zazwyczaj kwantyzację wektorową (VQ-VAE) generującą dyskretne tokeny wizualne; tekst tokenizowany jest standardowo; audio konwertowane jest do spektrogramów lub dyskretnych tokenów akustycznych.

Shared Transformer Backbone

Centralna jednostka obliczeniowa modelu; realizuje wspólną reprezentację i rozumowanie między modalnościami.

Pojedynczy stos warstw transformerowych przetwarzający interleaved sekwencje tokenów ze wszystkich modalności. Mechanizm uwagi (self-attention) operuje na połączonej sekwencji, pozwalając tokenom różnych modalności wzajemnie na siebie wpływać.

Joint Pretraining Objective

Zapewnia wspólną sygnaturę gradientu dla wszystkich modalności podczas treningu, wymuszając naukę reprezentacji cross-modal.

modułowy

Cel treningowy stosowany jednocześnie do danych ze wszystkich modalności. Typowo jest to autoregresywne przewidywanie kolejnego tokenu (next-token prediction) na interleaved sekwencjach multimodalnych, bez oddzielnych faz wstępnego treningu per modalność.

Modality-specific Output Heads

Umożliwia generowanie wyjść w wielu modalnościach przy zachowaniu wspólnego szkieletu.

modułowy

Osobne głowice wyjściowe mapujące wewnętrzną reprezentację transformera na przestrzeń wyjściową właściwą dla danej modalności. Mogą obejmować głowicę językową (softmax nad słownikiem tekstowym) oraz głowicę wizualną (softmax nad słownikiem tokenów obrazu lub dekoder obrazu).

Równoległość

Częściowo równoległy

Trening na interleaved danych multimodalnych jest możliwy do zrównoleglenia na urządzeniach (data parallelism, tensor parallelism), jednak sekwencyjna natura autoregresywnego dekodowania ogranicza równoległość w trakcie inferencji. Trening od zera na danych wielu modalności wymaga dużej liczby GPU/TPU.

Paradygmat

Gęsty

Wszystkie ścieżki aktywne

Podstawowy wzorzec wykonania jest gęsty (dense): wszystkie parametry transformera są aktywowane dla każdego tokenu, niezależnie od modalności. Warianty z MoE wprowadzają warunkową aktywację ekspertów, jednak bazowy paradygmat natywnie multimodalny nie wymaga routingu.

Głębokość fuzji modalności

Krytyczne

early fusionTokeny wszystkich modalności łączone są bezpośrednio w jedną sekwencję wejściową — podejście stosowane w Chameleon, GPT-4o.
late fusionOddzielne enkodery przetwarzają każdą modalność, wyniki łączone są na późniejszym etapie — np. LLaVA, Flamingo.

Reprezentacja tokenów modalności

Standardowe

discrete (VQ-VAE)Obrazy kwantyzowane do dyskretnych tokenów — podejście stosowane w Chameleon.
continuous patch embeddingsObrazy reprezentowane jako ciągłe osadzenia fragmentów — podejście stosowane w Gemini.

Zakres modalności

Standardowe

text + imageNajczęstszy zakres — Chameleon, Aria.
text + image + audio + videoPełny zakres modalności — Gemini, GPT-4o.

Integracja Mixture of Experts

Standardowe

dense (bez MoE)Chameleon — w pełni gęsty model.
sparse MoEAria, Gemini-styl — MoE umożliwia specjalizację ekspertów per modalność.

Typowe pułapki

Niestabilność treningu przy wczesnej fuzji

WYSOKI

Zastosowanie query-key normalization (QK-Norm), dostosowanie współczynnika uczenia do skali modelu i modalności, ostrożna kuracja danych interleaved.

Koszt treningu od podstaw

WYSOKI

Fazy treningu stopniowanego (curriculum), efektywne mieszanie danych z kontrolą proporcji modalności, wykorzystanie MoE do redukcji FLOP-ów aktywnych na token.

Nierównowaga modalności w danych treningowych

ŚREDNI

Staranna kuracja proporcji danych per modalność; stosowanie oddzielnych tokenizatorów wyważających dystrybucje tokenów.

Trudność generowania w wielu modalnościach jednocześnie

ŚREDNI

Oddzielne głowice wyjściowe per modalność; etapowe wyrównywanie (SFT, RLHF) z danymi obejmującymi mixed-modal outputs.

Referencyjne implementacje

Chameleon (FAIR at Meta)oficjalna

Python · FAIR at Meta

GENEZA · Papier źródłowy

Chameleon: Mixed-Modal Early-Fusion Foundation Models

2024arXiv 2024 (arXiv:2405.09818)Chameleon Team (FAIR at Meta)

2021

BEiT i tokenizacja wizualna

BEiT: BERT Pre-Training of Image Transformers

2022

Uczenie z dokumentów mieszanych (Aghajanyan et al.)

2023

Gemini — pierwszy duży model natywnie multimodalny

przełom

Gemini: A Family of Highly Capable Multimodal Models

2024

Chameleon — otwarty model wczesnej fuzji od podstaw

przełom

Chameleon: Mixed-Modal Early-Fusion Foundation Models

2024

GPT-4o — end-to-end trening przez modalności tekst/audio/obraz

przełom

2025

Prawa skalowania dla natywnych modeli multimodalnych (Apple/Sorbonne)

przełom

Scaling Laws for Native Multimodal Models

GPU Tensor CoresGŁÓWNY

Trening i inferencja natywnych modeli multimodalnych opiera się na dużych matrycowych operacjach transformera (QKV projections, FFN), które są zoptymalizowane dla tensorowych rdzeni GPU (np. NVIDIA H100, A100, GB200). Chameleon trenowany był na klastrach GPU A100.

Większość znanych implementacji trenowana była na GPU NVIDIA A100/H100. GPT-4o i Gemini korzystają z TPU (Google) lub GB200 NVL72 (OpenAI).

TPUDOBRY

Google Gemini — jeden z kluczowych natywnych modeli multimodalnych — trenowany był na TPU v4/v5. Architektura transformerowa jest dobrze dopasowana do macierzowych akceleratorów TPU.

TPU szczególnie efektywne dla Gemini-style architectures z dużymi batch size.

ROZSZERZA

Multimodal LLM

Multimodal LLM to klasa dużych modeli językowych rozszerzonych o zdolność odbioru, interpretacji i generowania treści w wielu modalnościach. Oprócz tekstu modele tego typu mogą analizować obrazy, dźwięk, dokumenty, wykresy, a czasem również wideo, dzięki czemu nadają się do bardziej ogólnych i naturalnych interakcji człowiek–AI.

PRZEJDŹ DO KONCEPTU

ŁĄCZY

MoE

Mixture of Experts (MoE) dzieli model na wiele sub-sieci (ekspertów) i używa rutera do aktywacji tylko części z nich dla danego wejścia, co pozwala skalować pojemność bez proporcjonalnego wzrostu kosztów obliczeniowych.

PRZEJDŹ DO KONCEPTU

Wróć do katalogu technologii

Native Multimodal Architecture

Komponenty główne

Unified Multimodal Tokenizer

Shared Transformer Backbone

Joint Pretraining Objective

Modality-specific Output Heads

Złożoność obliczeniowa

Osie konfiguracji

Implementacja

Typowe pułapki

Referencyjne implementacje

Historia i ewolucja

Preferowany sprzęt

Powiązania semantyczne

ROZSZERZA

ŁĄCZY