Trening

SSL

AktywnyOpublikowano: 9 czerwca 2026Aktualizacja: 9 czerwca 2026Opublikowany

Paradygmat uczenia maszynowego, w którym model uczy się reprezentacji z nieoznaczonych danych, używając zadań pretekstowych generujących etykiety wprost z danych (np. przewidywanie ukrytych fragmentów).

Kluczowa innowacja

Uczenie reprezentacji z surowych, nieoznaczonych danych poprzez generowanie sygnału nadzoru wprost z samych danych — bez ręcznych etykiet.

Kategoria

Trening

Poziom abstrakcji

Paradygmat

Poziom operacji

TreningDane

Zastosowania

Pretrening dużych modeli językowych (LLM)Pretrening modeli wizyjnych (ViT, MAE, DINO)Modele mowy (wav2vec 2.0, HuBERT)Modele wideo i multimodalne (CLIP, VLM)Pretrening reprezentacji w robotyce (VLA, world models)

Jak działa

SSL definiuje zadanie pretekstowe (pretext task), w którym etykieta jest funkcją samych danych wejściowych. Najczęściej spotykane rodziny: (1) generatywne / predykcyjne — fragment wejścia jest ukryty, model uczy się go odtworzyć (BERT, GPT, MAE); (2) kontrastowe — dwa zaszumione widoki tej samej próbki mają mieć podobne reprezentacje, a różne próbki — różne (SimCLR, MoCo); (3) self-distillation — sieć uczeń uczy się odtwarzać reprezentacje sieci nauczyciela bez etykiet (BYOL, DINO). Po pretrainingu reprezentacje są transferowane do zadań docelowych przez fine-tuning, linear probing lub prompt-based use.

Rozwiązany problem

Klasyczne uczenie nadzorowane wymaga ogromnych zbiorów ręcznie oznaczonych danych, co jest kosztowne i nie skaluje się do wszystkich domen. SSL pozwala wykorzystać praktycznie nieograniczone, nieoznaczone dane (tekst z internetu, wideo, obrazy, sygnały sensoryczne) do nauczenia ogólnych reprezentacji.

Implementacja

Implementacje referencyjne

PyTorch Lightning Bolts — SSL

Python · Lightning AI

Lightly SSL

Python · Lightly AI

DINOv2 (official)

Python · Meta AI Research

Oficjalna

MAE (official)

Python · Meta AI Research

Oficjalna

SimCLR (official)

Python · Google Research

Oficjalna

Pułapki implementacyjne

Reprezentacyjny kolaps w metodach kontrastowychWysoka

Bez odpowiednich negatywnych przykładów lub stop-gradient model może nauczyć się stałej reprezentacji.

Rozwiązanie:Duże batche z wieloma negatywami (SimCLR), momentum encoder (MoCo), predictor + stop-gradient (BYOL/SimSiam).

Augmentacje krytyczne dla jakościŚrednia

W contrastive SSL dobór augmentacji (cropping, color jitter) wpływa na wyniki bardziej niż architektura.

Rozwiązanie:Trzymać się sprawdzonych zestawów augmentacji z papierów referencyjnych (SimCLR, DINO).

Zatruwanie danych pretraininguWysoka

Skrobane z internetu dane mogą zawierać benchmarks ewaluacyjne lub niepożądane treści — zatruwa to ewaluację i bezpieczeństwo modelu.

Rozwiązanie:Decontamination filters, dedup, blocklists, reproducible data manifests.

Ewolucja

2013

Word2Vec — distributional embeddings z nieoznaczonego tekstu

Punkt przełomowy

Mikolov i in. pokazują, że predykcja kontekstu (CBOW / Skip-gram) z nieoznaczonego tekstu daje użyteczne reprezentacje słów.

Word2Vec (koncept)

2015

Context Prediction w wizji (Doersch et al.)

Pierwsze szeroko cytowane prace o SSL w wizji — przewidywanie wzajemnego położenia patchy obrazu jako pretext task.

2018

BERT — Masked Language Modeling jako standard pretrainingu NLP

Punkt przełomowy

Devlin i in. wprowadzają MLM + NSP jako uniwersalny pretrening transformerów; SSL staje się dominującym paradygmatem w NLP.

BERT (koncept)

2020

SimCLR / MoCo — contrastive SSL w wizji

Chen i in. (SimCLR) oraz He i in. (MoCo) pokazują, że contrastive learning na augmentacjach obrazu pozwala uzyskać reprezentacje konkurencyjne z supervised ImageNet.

2021

"Self-Supervised Learning: The Dark Matter of Intelligence" (LeCun, Misra)

Programowy artykuł Yanna LeCuna i Ishana Misry pozycjonujący SSL jako fundament inteligencji ogólnej.

Self-Supervised Learning: The Dark Matter of Intelligence (artykuł)

2021

MAE — Masked Autoencoders dla wizji

He i in. pokazują, że proste maskowanie 75% patchy obrazu i rekonstrukcja pikseli daje silne reprezentacje wizyjne — wizyjny odpowiednik BERT.

Masked Autoencoders Are Scalable Vision Learners (artykuł)

2023

DINOv2 — uniwersalne wizyjne SSL features

Meta wypuszcza DINOv2: SSL na 142M obrazów daje uniwersalne reprezentacje konkurencyjne ze specjalizowanymi modelami nadzorowanymi.

DINOv2: Learning Robust Visual Features without Supervision (artykuł)