Definiuje się parametryczny model f_θ, funkcję straty L mierzącą jakość przewidywań względem danych, i algorytm optymalizacji (najczęściej wariant stochastycznego spadku gradientu, SGD) szukający parametrów θ minimalizujących L na zbiorze treningowym. Generalizację — zdolność modelu do dobrego działania na nowych danych — ocenia się na zbiorze walidacyjnym i testowym, a kontroluje technikami regularyzacji, augmentacją danych i odpowiednim doborem pojemności modelu. W uczeniu nadzorowanym dane to pary (wejście, etykieta); w nienadzorowanym tylko wejścia; w samonadzorowanym etykiety wytwarzane są automatycznie z samej struktury danych (np. przewidywanie następnego tokenu); w uczeniu ze wzmocnieniem agent uczy się polityki maksymalizującej skumulowaną nagrodę poprzez interakcję ze środowiskiem.
Wiele zadań — rozpoznawanie obrazów, mowy, tłumaczenie, sterowanie robotami, rekomendacje — jest praktycznie niemożliwych do zaprogramowania ręcznymi regułami, bo reguły te są zbyt złożone, zmienne lub niejawne nawet dla ekspertów. ML pozwala zastąpić ręczne kodowanie reguł indukcją wzorców z dużych zbiorów danych.
Zbiór przykładów, na których model uczy się wzorców. Jakość, ilość i reprezentatywność danych są kluczowe dla skuteczności modelu.
Parametryczna funkcja f_θ odwzorowująca wejścia na przewidywania. Może być prostą regresją liniową, drzewem decyzyjnym lub głęboką siecią neuronową.
Skalarna miara różnicy między przewidywaniami modelu a oczekiwanym wyjściem. Definiuje cel optymalizacji.
Algorytm aktualizujący parametry modelu w celu minimalizacji funkcji straty (np. SGD, Adam, AdamW, L-BFGS).
Podział danych na zbiory treningowy, walidacyjny i testowy oraz miary skuteczności (accuracy, F1, AUC, perplexity itp.) służące ocenie generalizacji.
Informacja z zbioru testowego lub przyszłości przedostaje się do treningu (np. przez nieprawidłowy split, normalizację na całym zbiorze, target encoding bez fold-aware split). Daje sztucznie zawyżone wyniki, które nie utrzymują się na produkcji.
Model dopasowuje się do szumu w danych treningowych i traci zdolność generalizacji.
Dane produkcyjne odbiegają od rozkładu danych treningowych (covariate shift, label shift, concept drift), powodując degradację modelu w czasie.
Gdy jedna klasa dominuje w danych, model uczy się przewidywać klasę większościową i ignoruje rzadkie przypadki, mimo wysokiej accuracy.
Optymalizacja pod metrykę nie odzwierciedlającą celu biznesowego (np. accuracy w problemach niezbalansowanych, MSE gdy ważne są kwantyle) prowadzi do modeli „dobrze brzmiących", ale bezwartościowych w użyciu.
Arthur Samuel publikuje prace nad samouczącym się programem do gry w warcaby w IBM, popularyzując pojęcie uczenia maszynowego.
Rumelhart, Hinton i Williams popularyzują algorytm wstecznej propagacji błędu, umożliwiając trening głębszych sieci neuronowych.
Cortes i Vapnik publikują pracę o SVM, która stanie się jedną z dominujących metod ML lat 90. i 2000.
Leo Breiman formalizuje lasy losowe — wszechstronną metodę ensemble dominującą w klasycznym ML.
Hinton i in. pokazują, że głębokie sieci da się efektywnie trenować dzięki pre-treningowi warstwa-po-warstwie, otwierając epokę deep learningu.
Krizhevsky, Sutskever i Hinton z dużym marginesem wygrywają ILSVRC 2012 głęboką siecią konwolucyjną na GPU — punkt zwrotny dla deep learningu w wizji komputerowej.
Vaswani i in. publikują „Attention Is All You Need", wprowadzając architekturę Transformer, która stanie się fundamentem nowoczesnego ML w języku i poza nim.
OpenAI publikuje GPT-3 (175B parametrów), pokazując że wystarczająco duże modele językowe wykazują zdolności few-shot learningu.
Wydanie ChatGPT przenosi ML z laboratoriów do codziennego użytku setek milionów ludzi i uruchamia rynkowy wyścig wokół generatywnej AI.
Współczynnik kontrolujący wielkość kroku aktualizacji parametrów. Zbyt duży powoduje rozbieganie, zbyt mały — wolną zbieżność.
Liczba parametrów / głębokość / szerokość modelu. Determinuje balans między underfittingiem a overfittingiem.
Współczynniki L1/L2, dropout, weight decay — przeciwdziałają nadmiernemu dopasowaniu do danych treningowych.
Liczba przykładów na pojedynczą iterację gradientu. Wpływa na stabilność uczenia, generalizację i wykorzystanie pamięci GPU.
Ile razy algorytm przechodzi przez cały zbiór treningowy. Zbyt wiele prowadzi do overfittingu.
Większość nowoczesnego ML, zwłaszcza deep learning, opiera się na masywnych mnożeniach macierzy, które GPU z rdzeniami tensorowymi wykonują o rzędy wielkości szybciej niż CPU.
TPU od Google zaprojektowane są specjalnie pod operacje tensorowe charakterystyczne dla treningu i inferencji modeli ML.
Dla klasycznego ML (drzewa, regresja, SVM, małe sieci) i inferencji lekkich modeli CPU z instrukcjami SIMD/AVX nadal jest praktyczne i częste.
FPGA bywają wykorzystywane w wyspecjalizowanej inferencji o niskim opóźnieniu (np. trading, edge), ale nie są mainstreamem.