Czym jest machine learning?
Machine learning to metoda budowania systemów, które zamiast otrzymywać gotowe reguły od programisty, uczą się tych reguł samodzielnie na podstawie danych.
Machine learning to klasa metod, w których program nie jest jawnie zaprogramowany pod konkretne zadanie — zamiast tego uczy się je wykonywać, analizując dane historyczne. Najczęściej cytowana definicja pochodzi od Arthura Samuela z 1959 roku:
„Dziedzina nauki, która daje komputerom zdolność uczenia się bez konieczności jawnego programowania." — Arthur Samuel, 1959
W praktyce oznacza to system, który dostaje na wejściu duży zbiór obserwacji i samodzielnie dopasowuje swoje wewnętrzne parametry tak, aby coraz lepiej realizować zadanie — klasyfikację, predykcję wartości, generowanie tekstu czy sterowanie ramieniem robota.
ML nie jest synonimem AI. Sztuczna inteligencja to szerszy parasol — obejmuje też systemy oparte na ręcznie wpisanych regułach (np. klasyczne systemy eksperckie czy algorytm min-max w szachach z lat 90.). Machine learning to konkretna metodyka osiągania AI — taka, w której zachowanie systemu wynika z danych, a nie z drzewa decyzyjnego napisanego przez inżyniera. Z kolei deep learning (DL) to podzbiór ML korzystający z wielowarstwowych sieci neuronowych. To właśnie DL stoi za większością przełomów ostatniej dekady — od rozpoznawania obrazów po ChatGPT — ale klasyczne ML (regresja, drzewa, SVM, k-means) wciąż dominuje w setkach mniej spektakularnych, codziennych zastosowań biznesowych. Hierarchia jest więc inkluzywna: każde DL jest ML, każde ML jest AI, ale nie odwrotnie. Tak ujmuje to m.in. IBM w swojej dokumentacji edukacyjnej oraz przeglądowy artykuł LeCuna, Bengio i Hintona w Nature z 2015 roku.
Diagram poglądowy
Poniższy diagram pokazuje, jak ułożone są względem siebie AI, ML i DL oraz cztery główne paradygmaty uczenia maszynowego — wraz z przykładami algorytmów i zastosowań w każdej kategorii.
Hierarchia uczenia maszynowego
Kto za tym stoi?
Machine learning nie ma jednego ojca. Fundament matematyczny położyli w 1943 roku Warren McCulloch i Walter Pitts, formalizując pojęcie sztucznego neuronu, a w 1949 roku Donald Hebb sformułował zasadę uczenia synaptycznego (reguła Hebba). Termin „machine learning" wprowadził w 1959 roku Arthur Samuel z IBM, autor pierwszego praktycznego programu grającego w warcaby i poprawiającego własną strategię.
W 1957 roku Frank Rosenblatt zbudował perceptron — pierwszą prostą sieć neuronową zdolną do klasyfikacji wzorców wizualnych. Lata 70. i 80. to algorytm propagacji wstecznej (m.in. prace Davida Rumelharta, Geoffreya Hintona i Yanna LeCuna), który umożliwił trenowanie sieci wielowarstwowych. W latach 90. Vladimir Vapnik rozwinął Support Vector Machines. Współczesna eksplozja zaczęła się w 2012 roku, gdy AlexNet — konwolucyjna sieć neuronowa autorstwa Alexa Krizhevsky'ego, Ilji Sutskevera i Geoffreya Hintona — wygrała konkurs ImageNet, pokazując, że głębokie sieci trenowane na GPU biją wszystkie wcześniejsze podejścia w widzeniu komputerowym. Pełną historię i podstawową taksonomię w jednym miejscu zbiera hasło Machine learning w angielskiej Wikipedii, wspierane podręcznikami Toma Mitchella oraz „Deep Learning" Goodfellowa, Bengio i Courville'a.
Dlaczego ML eksplodował dopiero po 2012 roku?
To pytanie zadaje sobie większość ludzi: skoro perceptron powstał w 1957 roku, a propagacja wsteczna już w latach 80., dlaczego machine learning stał się wszechobecny dopiero dekadę temu? Odpowiedź brzmi: same algorytmy nie wystarczyły — musiały spotkać się trzy rzeczy naraz.
- Dane — internet, smartfony i platformy społecznościowe wygenerowały bezprecedensowe ilości oznaczonych przykładów. Zbiór ImageNet (ponad milion opisanych zdjęć) dał głębokim sieciom na czym się uczyć.
- Moc obliczeniowa — karty graficzne (GPU), pierwotnie projektowane do gier, okazały się idealne do równoległych obliczeń macierzowych, które są sercem trenowania sieci. To, co kiedyś trwało tygodnie, zaczęło zajmować godziny.
- Algorytmy i oprogramowanie — dojrzały techniki trenowania głębokich sieci (lepsze funkcje aktywacji, regularyzacja, inicjalizacja wag), a otwarte biblioteki jak TensorFlow i PyTorch sprawiły, że budowanie modeli przestało wymagać pisania wszystkiego od zera.
Zwycięstwo AlexNet w 2012 roku było iskrą, ale prawdziwą przyczyną był ten zbieg danych, sprzętu i algorytmów — dlatego rewolucja przyszła właśnie wtedy, a nie dwadzieścia lat wcześniej.
Jak to działa?
W centrum każdego systemu ML jest pętla: dane wejściowe → model → predykcja → porównanie z wartością oczekiwaną → korekta parametrów modelu. Model to funkcja z parametrami (np. wagami sieci neuronowej), a uczenie to proces matematycznej optymalizacji — najczęściej minimalizacji tzw. funkcji straty (różnicy między tym, co model przewidział, a tym, co miało wyjść).
Pętla treningowa modelu ML
Typowy potok składa się z kilku kroków:
- Zebranie danych
- Oczyszczenie danych — usunięcie duplikatów, normalizacja, uzupełnienie braków
- Podział na trzy podzbiory — treningowy (zwykle 70–80%), walidacyjny i testowy
- Trening — wytrenowanie modelu na zbiorze treningowym
- Dobór hiperparametrów — na zbiorze walidacyjnym
- Końcowa ocena jakości — na zbiorze testowym, którego model wcześniej nie widział
Ten ostatni krok jest kluczowy: bez niego nie wiadomo, czy model nauczył się prawdziwych zależności, czy tylko zapamiętał dane treningowe (problem przeuczenia, overfitting).
Najprostszą ilustracją mechaniki jest perceptron Rosenblatta — pojedynczy sztuczny neuron, który na podstawie kilku wejść podejmuje decyzję „tak/nie”. O jego działaniu decyduje pięć elementów:
- Cechy (features) — pojedyncze, mierzalne właściwości obiektu, które podajesz modelowi na wejściu. Dla zdjęcia mogą to być wartości pikseli, dla wniosku kredytowego — wiek, dochód i historia spłat, a dla tekstu — częstości słów. Model nie widzi „surowego” obiektu, tylko ten zestaw liczb; dobór dobrych cech często przesądza o tym, czy w ogóle da się czegoś nauczyć.
- Wagi (weights) — każde wejście ma przypisaną liczbę określającą, jak mocno wpływa na decyzję. Duża dodatnia waga znaczy „ta cecha silnie przemawia za”, duża ujemna — „silnie przeciw”, a bliska zera — „nieistotna”. To właśnie wagi są tym, czego model się uczy: na starcie są losowe, a trening stopniowo ustawia je tak, by odpowiedzi były trafne.
- Obciążenie (bias) — dodatkowa liczba, która przechyla neuron w stronę „tak” albo „nie” jeszcze zanim spojrzy na wejścia — trochę jak wrodzone nastawienie. Dzięki niej model może nauczyć się, że coś jest domyślnie bardziej lub mniej prawdopodobne, zamiast zawsze startować z pozycji idealnie neutralnej. To kolejny parametr, który trening dostraja razem z wagami.
- Funkcja aktywacji — bierze ważoną sumę wejść (plus bias) i zamienia ją na wyjście neuronu. W klasycznym perceptronie jest to zwykły próg: powyżej pewnej wartości neuron zwraca 1, poniżej — 0. We współczesnych sieciach stosuje się funkcje gładkie (np. ReLU czy sigmoid), które wprowadzają nieliniowość — bez niej nawet najgłębsza sieć potrafiłaby modelować wyłącznie zależności liniowe.
- Korekta wag — po każdej błędnej predykcji algorytm sprawdza, w którą stronę i jak bardzo pomyliło się wyjście, a następnie minimalnie przesuwa każdą wagę (i bias) w kierunku zmniejszającym błąd. Wielkość poprawki zależy od skali błędu i od współczynnika uczenia (learning rate), który decyduje, jak duże kroki stawia model.
Współczesne głębokie sieci robią dokładnie to samo, tylko mają miliardy takich wag rozłożone na setki warstw, a do wyliczenia, jak skorygować każdą z nich, używają algorytmu propagacji wstecznej (backpropagation) i gradientów.
Z jakich elementów się składa?
Każdy system ML w praktyce produkcyjnej składa się z kilku warstw:
- Dane — surowy materiał: bazy transakcyjne, obrazy, dźwięk, logi z czujników, korpusy tekstowe.
- Etykiety lub sygnał uczący — informacja, czego model ma się nauczyć (np. „to zdjęcie pokazuje kota”, „ten klient nie spłaci kredytu”, a w uczeniu ze wzmocnieniem — nagroda lub kara).
- Model — sama architektura (regresja logistyczna, drzewo decyzyjne, sieć neuronowa, transformer).
- Algorytm uczenia — sposób, w jaki parametry modelu są aktualizowane (gradient descent i jego warianty, metody bayesowskie, algorytmy ewolucyjne).
- Funkcja straty — określa, co dokładnie znaczy „dobrze” — czyli jak bardzo predykcja modelu rozmija się z prawidłową odpowiedzią.
- Infrastruktura — CPU dla klasycznego ML, GPU i TPU dla głębokich sieci, pipeline’y MLOps do trenowania, wersjonowania i wdrażania modeli.
Do czego może być używane?
Lista zastosowań jest dziś bliska liście branż gospodarki. W medycynie konwolucyjne sieci neuronowe wspierają interpretację zdjęć RTG, tomografii i wycinków histopatologicznych, a algorytmy regresyjne pomagają personalizować dawkowanie leków. W bankowości ML automatycznie wykrywa transakcje oszukańcze, ocenia zdolność kredytową i steruje handlem algorytmicznym. W przemyśle 4.0 modele predykcyjnego utrzymania ruchu (predictive maintenance) analizują drgania, temperaturę i zużycie energii, by przewidzieć awarię maszyny, zanim ona nastąpi. W e-commerce i mediach systemy rekomendacyjne Netflixa, Spotify czy Amazonu stoją w całości na ML. NLP napędza tłumaczenie maszynowe, asystentów głosowych i chatboty.
W robotyce ML jest dziś warstwą percepcji i — coraz częściej — sterowania. Autonomiczne samochody i drony łączą obrazy z kamer, dane z LiDARu i radarów, klasyfikując obiekty w czasie rzeczywistym. Algorytmy uczenia ze wzmocnieniem uczą ramiona przemysłowe optymalnych punktów chwytu, a w robotyce chirurgicznej — np. w eksperymentach z platformą RAVEN w Berkeley — testowano autonomiczne szycie tkanek. To kierunek od sztywno zaprogramowanych ramion montażowych w stronę maszyn adaptujących się do zmiennego, niepewnego środowiska.
Jakie są rodzaje uczenia maszynowego?
Cztery główne paradygmaty uczenia maszynowego rozkładają się następująco:
- Uczenie nadzorowane (dominujące rynkowo) — wymaga zbioru przykładów wraz z poprawnymi odpowiedziami; model uczy się mapować wejście na wyjście. Klasyczny przykład to filtrowanie spamu w skrzynce e-mail.
- Uczenie nienadzorowane — dostaje dane bez etykiet i samo szuka w nich struktury: klastrów, anomalii, ukrytych wymiarów. Klasyczny przykład to segmentacja klientów na grupy o podobnych zachowaniach zakupowych.
- Uczenie częściowo nadzorowane — hybryda: niewielka pula danych z etykietami plus duża pula surowych. Bywa kompromisem ekonomicznym tam, gdzie ręczna anotacja jest droga. Klasyczny przykład to analiza zdjęć medycznych, gdzie opisanie każdego skanu przez lekarza jest kosztowne.
- Uczenie ze wzmocnieniem — odbiega od pozostałych: nie ma „prawidłowych odpowiedzi”, jest agent, środowisko i sygnał nagrody, a agent uczy się strategii metodą prób i błędów. To paradygmat stojący za AlphaGo, autonomicznymi pojazdami i znaczną częścią współczesnej robotyki adaptacyjnej.
Czym różni się od innych podejść?
Względem klasycznej, ręcznie programowanej inżynierii ML wygrywa elastycznością i skalowalnością, ale przegrywa interpretowalnością. Względem dużych modeli generatywnych (LLM-ów) klasyczne ML jest tańsze, bardziej przewidywalne i często wystarczające do problemów strukturyzowanych — predykcji popytu, scoringu, detekcji anomalii.
Najważniejsze ograniczenia i wyzwania
Uczenie maszynowe ma też kilka istotnych ograniczeń:
- Problem „czarnej skrzynki” — głębokie sieci z miliardami parametrów podejmują decyzje w sposób, którego nawet ich twórcy nie potrafią prześledzić krok po kroku. W medycynie czy orzecznictwie to bariera dla wdrożeń — stąd rozwój dziedziny Explainable AI (XAI).
- Uprzedzenia (bias) — model uczący się z historycznych danych internalizuje ich strukturalne nierówności. Głośne przypadki amerykańskich systemów oceny ryzyka recydywy pokazały, jak łatwo zakodować dyskryminację w pozornie obiektywnej matematyce.
- Koszt energetyczny — trenowanie dużych modeli generuje znaczący ślad węglowy.
- Podatność na adversarial attacks — celowo spreparowane wejścia potrafią zmylić nawet bardzo dokładne sieci.
- Jakość danych — reguła „garbage in, garbage out” jest w ML brutalnie aktualna — żaden algorytm nie naprawi tendencyjnej lub niekompletnej bazy.
Unijny AI Act formalizuje te kwestie w obowiązkach dla systemów wysokiego ryzyka.
Dlaczego to jest istotne?
Ekonomiści coraz częściej zaliczają machine learning do tzw. technologii ogólnego przeznaczenia (general purpose technology) — tej samej kategorii co elektryczność na początku XX wieku czy internet w latach 90. Nie jest pojedynczym produktem ani jedną branżą, tylko nową warstwą obliczeniową, na której budowane są kolejne aplikacje, urządzenia i całe modele biznesowe. Wszystkie głośne projekty ostatnich lat — GPT-4, Gemini, Claude, AlphaFold, autonomiczne taksówki Waymo, systemy filtrowania treści, percepcja humanoidów Figure i Unitree — to różne aplikacje tej samej rodziny metod.
Dla inżyniera oznacza to, że znajomość ML przestaje być specjalizacją „data scientisty" i staje się elementem ogólnego warsztatu, podobnie jak kiedyś znajomość baz danych. Dla firm — że zdolność zbierania i porządkowania własnych danych staje się aktywem strategicznym. Dla społeczeństwa — że narzędzia podejmujące decyzje o naszym kredycie, polisie, diagnozie czy karierze zawodowej coraz częściej uczą się z danych, których pochodzenia i zniekształceń nie znamy. Dlatego właśnie dyskusja o ML nie może toczyć się wyłącznie na poziomie technicznym — równolegle musi obejmować regulacje, audyt i mechanizmy wytłumaczalności.
Uczenie maszynowe nie jest więc nową „magią" ani inteligencją w ludzkim sensie. To zestaw statystycznych narzędzi optymalizacyjnych — bardzo potężnych w domenach, gdzie mamy dużo danych i jasno zdefiniowane zadania, ale wciąż naiwnych poza tymi obszarami. Najbliższa dekada zdecyduje, czy nauczymy się tę asymetrię świadomie wykorzystywać, czy będziemy ją mylić z prawdziwym rozumieniem.
Źródła
- IBM — What is machine learning? — link
- Yann LeCun, Yoshua Bengio, Geoffrey Hinton — Deep Learning, Nature 521 (2015) — link
- Ian Goodfellow, Yoshua Bengio, Aaron Courville — Deep Learning (MIT Press, 2016) — link
- Wikipedia — Machine learning — link
- ImageNet — strona projektu i konkursu, fundamentu rewolucji DL — link
- Komisja Europejska — Regulatory framework for AI (AI Act) — link
