
Samonadzorowany model wizji typu Joint-Embedding Predictive Architecture, uczący semantycznych reprezentacji obrazów przez przewidywanie embeddingów ukrytych fragmentów.
Parametry
~632M (ViT-H/14) – ~1B (ViT-g/16)
parametrów
Data premiery
19 stycznia 2023
Dostęp:DownloadWdrożenie:💻 Lokalnie
Przegląd
Dostęp i wdrożenie
Pobieranie
Lokalnie
Wagi: Open weights
Kluczowe parametry
🧩 Parametry: ~632M (ViT-H/14) – ~1B (ViT-g/16)
✓ Fine-tuning
📥 Wejście: obraz
Specyfikacja techniczna
Parametry
~632M (ViT-H/14) – ~1B (ViT-g/16)
parametrów
Wymagania sprzętowe
Trening referencyjny ViT-H/14 na ImageNet-1K wykonany na 16 GPU NVIDIA A100 80GB (effective batch-size 2048) w czasie poniżej 72 godzin. Inferencja możliwa na pojedynczym GPU klasy konsumenckiej.
Funkcje:✓ Fine-tuning
Modalności
⬇ Wejście (Input)
image
⬆ Wyjście (Output)
structured_data
Możliwości i zastosowania
Natywne możliwości modelu
Enkoder wizyjny
Zdolność modelu do kodowania obrazów i klatek wideo w gęste reprezentacje (embeddingi), wykorzystywane do dalszych zadań lub jako backbone dla modeli wizyjno-językowych.
Kategoria: vision
Architektura techniczna
Rdzeń architektury (Core Architecture)
Techniki trenowania (Training Techniques)