SSL definiuje zadanie pretekstowe (pretext task), w którym etykieta jest funkcją samych danych wejściowych. Najczęściej spotykane rodziny: (1) generatywne / predykcyjne — fragment wejścia jest ukryty, model uczy się go odtworzyć (BERT, GPT, MAE); (2) kontrastowe — dwa zaszumione widoki tej samej próbki mają mieć podobne reprezentacje, a różne próbki — różne (SimCLR, MoCo); (3) self-distillation — sieć uczeń uczy się odtwarzać reprezentacje sieci nauczyciela bez etykiet (BYOL, DINO). Po pretrainingu reprezentacje są transferowane do zadań docelowych przez fine-tuning, linear probing lub prompt-based use.
Klasyczne uczenie nadzorowane wymaga ogromnych zbiorów ręcznie oznaczonych danych, co jest kosztowne i nie skaluje się do wszystkich domen. SSL pozwala wykorzystać praktycznie nieograniczone, nieoznaczone dane (tekst z internetu, wideo, obrazy, sygnały sensoryczne) do nauczenia ogólnych reprezentacji.
Bez odpowiednich negatywnych przykładów lub stop-gradient model może nauczyć się stałej reprezentacji.
W contrastive SSL dobór augmentacji (cropping, color jitter) wpływa na wyniki bardziej niż architektura.
Skrobane z internetu dane mogą zawierać benchmarks ewaluacyjne lub niepożądane treści — zatruwa to ewaluację i bezpieczeństwo modelu.
Mikolov i in. pokazują, że predykcja kontekstu (CBOW / Skip-gram) z nieoznaczonego tekstu daje użyteczne reprezentacje słów.
Pierwsze szeroko cytowane prace o SSL w wizji — przewidywanie wzajemnego położenia patchy obrazu jako pretext task.
Devlin i in. wprowadzają MLM + NSP jako uniwersalny pretrening transformerów; SSL staje się dominującym paradygmatem w NLP.
Chen i in. (SimCLR) oraz He i in. (MoCo) pokazują, że contrastive learning na augmentacjach obrazu pozwala uzyskać reprezentacje konkurencyjne z supervised ImageNet.
Programowy artykuł Yanna LeCuna i Ishana Misry pozycjonujący SSL jako fundament inteligencji ogólnej.
He i in. pokazują, że proste maskowanie 75% patchy obrazu i rekonstrukcja pikseli daje silne reprezentacje wizyjne — wizyjny odpowiednik BERT.
Meta wypuszcza DINOv2: SSL na 142M obrazów daje uniwersalne reprezentacje konkurencyjne ze specjalizowanymi modelami nadzorowanymi.
Rodzaj zadania pretekstowego: masked language modeling, next-token prediction, contrastive, self-distillation, masked image modeling.
Frakcja tokenów / patchy ukrywanych w zadaniu maskowanym.
Strategia generowania wielu widoków próbki — krytyczna w metodach kontrastowych.
W metodach kontrastowych duże batche dają więcej negatywnych przykładów i znacząco wpływają na jakość.
Sam paradygmat SSL nie narzuca trybu wykonania — może być stosowany do modeli dense (BERT, GPT) lub sparse (MoE). Domyślnie pretrening odbywa się w trybie dense.
Pretrening SSL skaluje się masywnie data-parallel i model-parallel. Loss jest lokalny (per-token / per-sample), więc obliczenia są dobrze równoległe.
SSL pretraining wymaga ogromnej liczby FLOP-ów na danych w fp16/bf16 — GPU z Tensor Cores (A100/H100) są standardem.
TPU v4/v5 są używane przez Google do pretrainingu modeli SSL na dużą skalę (PaLM, Gemini).