Sieci neuronowe od podstaw do nowoczesnej AI · Trening w praktyce: optymalizatory i diagnostyka

Bias-variance tradeoff i diagnoza underfitting vs overfitting

Trening w praktyce: optymalizatory i diagnostyka

Wprowadzenie

Generalization gap (val_loss − train_loss) jest centralnym pojęciem statystycznego uczenia. Dekompozycja błędu predykcji w klasycznej teorii (Geman et al. 1992): MSE = bias² + variance + irreducible noise. Wysoki bias = systematyczne pomyłki, model jest „za prosty" (underfitting). Wysoka variance = nadwrażliwość na dane treningowe, model jest „za złożony" (overfitting). Lekcja prowadzi przez: (1) formalną dekompozycję bias-variance dla regresji i klasyfikacji; (2) diagnostykę z learning curves — jak rozróżnić underfit od overfit po kształcie krzywych; (3) klasyczne metody redukcji bias (większy model, więcej features, większa pojemność) i variance (regularization, augmentation, więcej danych, ensembling); (4) double descent (Belkin et al. 2019) — paradoks że bardzo duże modele wracają do dobrej generalizacji mimo idealnego dopasowania do train; (5) implikacje dla LLM era — overparametrized regime, lottery ticket hypothesis, benign overfitting. Lekcja kończy zestawem decyzyjnym: gdy widzisz gap=10pp na test, jakie konkretne zmiany w pipeline'ie wprowadzić w każdym z dwóch reżimów.