Robocikowo>ROBOCIKOWO
Opracowania

Machine Learning — czym jest uczenie maszynowe i jak działa?

machine-learning-czym-jest-uczenie-maszynowe-i-jak-dziaa-cover

Uczenie maszynowe (ang. machine learning, ML) to gałąź sztucznej inteligencji, w której systemy komputerowe budują swoje reguły działania na podstawie danych zamiast otrzymywać je w postaci ręcznie napisanego kodu. To dziś rdzeń niemal każdej praktycznej technologii AI — od filtra spamu po duże modele językowe i autonomiczne roboty.

Czym jest machine learning?

Machine learning to metoda budowania systemów, które zamiast otrzymywać gotowe reguły od programisty, uczą się tych reguł samodzielnie na podstawie danych.

Machine learning to klasa metod, w których program nie jest jawnie zaprogramowany pod konkretne zadanie — zamiast tego uczy się je wykonywać, analizując dane historyczne. Najczęściej cytowana definicja pochodzi od Arthura Samuela z 1959 roku:

„Dziedzina nauki, która daje komputerom zdolność uczenia się bez konieczności jawnego programowania." — Arthur Samuel, 1959

W praktyce oznacza to system, który dostaje na wejściu duży zbiór obserwacji i samodzielnie dopasowuje swoje wewnętrzne parametry tak, aby coraz lepiej realizować zadanie — klasyfikację, predykcję wartości, generowanie tekstu czy sterowanie ramieniem robota.

ML nie jest synonimem AI. Sztuczna inteligencja to szerszy parasol — obejmuje też systemy oparte na ręcznie wpisanych regułach (np. klasyczne systemy eksperckie czy algorytm min-max w szachach z lat 90.). Machine learning to konkretna metodyka osiągania AI — taka, w której zachowanie systemu wynika z danych, a nie z drzewa decyzyjnego napisanego przez inżyniera. Z kolei deep learning (DL) to podzbiór ML korzystający z wielowarstwowych sieci neuronowych. To właśnie DL stoi za większością przełomów ostatniej dekady — od rozpoznawania obrazów po ChatGPT — ale klasyczne ML (regresja, drzewa, SVM, k-means) wciąż dominuje w setkach mniej spektakularnych, codziennych zastosowań biznesowych. Hierarchia jest więc inkluzywna: każde DL jest ML, każde ML jest AI, ale nie odwrotnie. Tak ujmuje to m.in. IBM w swojej dokumentacji edukacyjnej oraz przeglądowy artykuł LeCuna, Bengio i Hintona w Nature z 2015 roku.

Diagram poglądowy

Poniższy diagram pokazuje, jak ułożone są względem siebie AI, ML i DL oraz cztery główne paradygmaty uczenia maszynowego — wraz z przykładami algorytmów i zastosowań w każdej kategorii.

Hierarchia uczenia maszynowego

Diagram hierarchii uczenia maszynowego: AI → ML → cztery paradygmaty (uczenie nadzorowane, nienadzorowane, ze wzmocnieniem, samonadzorowane) oraz deep learning

Kto za tym stoi?

Machine learning nie ma jednego ojca. Fundament matematyczny położyli w 1943 roku Warren McCulloch i Walter Pitts, formalizując pojęcie sztucznego neuronu, a w 1949 roku Donald Hebb sformułował zasadę uczenia synaptycznego (reguła Hebba). Termin „machine learning" wprowadził w 1959 roku Arthur Samuel z IBM, autor pierwszego praktycznego programu grającego w warcaby i poprawiającego własną strategię.

W 1957 roku Frank Rosenblatt zbudował perceptron — pierwszą prostą sieć neuronową zdolną do klasyfikacji wzorców wizualnych. Lata 70. i 80. to algorytm propagacji wstecznej (m.in. prace Davida Rumelharta, Geoffreya Hintona i Yanna LeCuna), który umożliwił trenowanie sieci wielowarstwowych. W latach 90. Vladimir Vapnik rozwinął Support Vector Machines. Współczesna eksplozja zaczęła się w 2012 roku, gdy AlexNet — konwolucyjna sieć neuronowa autorstwa Alexa Krizhevsky'ego, Ilji Sutskevera i Geoffreya Hintona — wygrała konkurs ImageNet, pokazując, że głębokie sieci trenowane na GPU biją wszystkie wcześniejsze podejścia w widzeniu komputerowym. Pełną historię i podstawową taksonomię w jednym miejscu zbiera hasło Machine learning w angielskiej Wikipedii, wspierane podręcznikami Toma Mitchella oraz „Deep Learning" Goodfellowa, Bengio i Courville'a.

Dlaczego ML eksplodował dopiero po 2012 roku?

To pytanie zadaje sobie większość ludzi: skoro perceptron powstał w 1957 roku, a propagacja wsteczna już w latach 80., dlaczego machine learning stał się wszechobecny dopiero dekadę temu? Odpowiedź brzmi: same algorytmy nie wystarczyły — musiały spotkać się trzy rzeczy naraz.

  • Dane — internet, smartfony i platformy społecznościowe wygenerowały bezprecedensowe ilości oznaczonych przykładów. Zbiór ImageNet (ponad milion opisanych zdjęć) dał głębokim sieciom na czym się uczyć.
  • Moc obliczeniowa — karty graficzne (GPU), pierwotnie projektowane do gier, okazały się idealne do równoległych obliczeń macierzowych, które są sercem trenowania sieci. To, co kiedyś trwało tygodnie, zaczęło zajmować godziny.
  • Algorytmy i oprogramowanie — dojrzały techniki trenowania głębokich sieci (lepsze funkcje aktywacji, regularyzacja, inicjalizacja wag), a otwarte biblioteki jak TensorFlow i PyTorch sprawiły, że budowanie modeli przestało wymagać pisania wszystkiego od zera.

Zwycięstwo AlexNet w 2012 roku było iskrą, ale prawdziwą przyczyną był ten zbieg danych, sprzętu i algorytmów — dlatego rewolucja przyszła właśnie wtedy, a nie dwadzieścia lat wcześniej.

Jak to działa?

W centrum każdego systemu ML jest pętla: dane wejściowe → model → predykcja → porównanie z wartością oczekiwaną → korekta parametrów modelu. Model to funkcja z parametrami (np. wagami sieci neuronowej), a uczenie to proces matematycznej optymalizacji — najczęściej minimalizacji tzw. funkcji straty (różnicy między tym, co model przewidział, a tym, co miało wyjść).

Pętla treningowa modelu ML

Diagram pętli uczenia maszynowego: dane wejściowe → model → predykcja → porównanie z wartością oczekiwaną → korekta parametrów modelu, powtarzane iteracyjnie

Typowy potok składa się z kilku kroków:

  • Zebranie danych
  • Oczyszczenie danych — usunięcie duplikatów, normalizacja, uzupełnienie braków
  • Podział na trzy podzbiory — treningowy (zwykle 70–80%), walidacyjny i testowy
  • Trening — wytrenowanie modelu na zbiorze treningowym
  • Dobór hiperparametrów — na zbiorze walidacyjnym
  • Końcowa ocena jakości — na zbiorze testowym, którego model wcześniej nie widział

Ten ostatni krok jest kluczowy: bez niego nie wiadomo, czy model nauczył się prawdziwych zależności, czy tylko zapamiętał dane treningowe (problem przeuczenia, overfitting).

Najprostszą ilustracją mechaniki jest perceptron Rosenblatta — pojedynczy sztuczny neuron, który na podstawie kilku wejść podejmuje decyzję „tak/nie”. O jego działaniu decyduje pięć elementów:

  • Cechy (features) — pojedyncze, mierzalne właściwości obiektu, które podajesz modelowi na wejściu. Dla zdjęcia mogą to być wartości pikseli, dla wniosku kredytowego — wiek, dochód i historia spłat, a dla tekstu — częstości słów. Model nie widzi „surowego” obiektu, tylko ten zestaw liczb; dobór dobrych cech często przesądza o tym, czy w ogóle da się czegoś nauczyć.
  • Wagi (weights) — każde wejście ma przypisaną liczbę określającą, jak mocno wpływa na decyzję. Duża dodatnia waga znaczy „ta cecha silnie przemawia za”, duża ujemna — „silnie przeciw”, a bliska zera — „nieistotna”. To właśnie wagi są tym, czego model się uczy: na starcie są losowe, a trening stopniowo ustawia je tak, by odpowiedzi były trafne.
  • Obciążenie (bias) — dodatkowa liczba, która przechyla neuron w stronę „tak” albo „nie” jeszcze zanim spojrzy na wejścia — trochę jak wrodzone nastawienie. Dzięki niej model może nauczyć się, że coś jest domyślnie bardziej lub mniej prawdopodobne, zamiast zawsze startować z pozycji idealnie neutralnej. To kolejny parametr, który trening dostraja razem z wagami.
  • Funkcja aktywacji — bierze ważoną sumę wejść (plus bias) i zamienia ją na wyjście neuronu. W klasycznym perceptronie jest to zwykły próg: powyżej pewnej wartości neuron zwraca 1, poniżej — 0. We współczesnych sieciach stosuje się funkcje gładkie (np. ReLU czy sigmoid), które wprowadzają nieliniowość — bez niej nawet najgłębsza sieć potrafiłaby modelować wyłącznie zależności liniowe.
  • Korekta wag — po każdej błędnej predykcji algorytm sprawdza, w którą stronę i jak bardzo pomyliło się wyjście, a następnie minimalnie przesuwa każdą wagę (i bias) w kierunku zmniejszającym błąd. Wielkość poprawki zależy od skali błędu i od współczynnika uczenia (learning rate), który decyduje, jak duże kroki stawia model.

Współczesne głębokie sieci robią dokładnie to samo, tylko mają miliardy takich wag rozłożone na setki warstw, a do wyliczenia, jak skorygować każdą z nich, używają algorytmu propagacji wstecznej (backpropagation) i gradientów.

Demo interaktywne
Jak działa perceptron — krok po kroku
Klikaj „Dalej”, aby przejść przez kolejne etapy. Ostatni krok zamyka pętlę uczenia.
Krok 1 / 6
1. Wektor wejść
Perceptron dostaje na wejściu wektor liczb x₁, x₂, …, xₙ — to cechy pojedynczego przykładu (np. piksele obrazu albo odczyty czujników).

Z jakich elementów się składa?

Każdy system ML w praktyce produkcyjnej składa się z kilku warstw:

  • Dane — surowy materiał: bazy transakcyjne, obrazy, dźwięk, logi z czujników, korpusy tekstowe.
  • Etykiety lub sygnał uczący — informacja, czego model ma się nauczyć (np. „to zdjęcie pokazuje kota”, „ten klient nie spłaci kredytu”, a w uczeniu ze wzmocnieniem — nagroda lub kara).
  • Model — sama architektura (regresja logistyczna, drzewo decyzyjne, sieć neuronowa, transformer).
  • Algorytm uczenia — sposób, w jaki parametry modelu są aktualizowane (gradient descent i jego warianty, metody bayesowskie, algorytmy ewolucyjne).
  • Funkcja straty — określa, co dokładnie znaczy „dobrze” — czyli jak bardzo predykcja modelu rozmija się z prawidłową odpowiedzią.
  • Infrastruktura — CPU dla klasycznego ML, GPU i TPU dla głębokich sieci, pipeline’y MLOps do trenowania, wersjonowania i wdrażania modeli.

Do czego może być używane?

Lista zastosowań jest dziś bliska liście branż gospodarki. W medycynie konwolucyjne sieci neuronowe wspierają interpretację zdjęć RTG, tomografii i wycinków histopatologicznych, a algorytmy regresyjne pomagają personalizować dawkowanie leków. W bankowości ML automatycznie wykrywa transakcje oszukańcze, ocenia zdolność kredytową i steruje handlem algorytmicznym. W przemyśle 4.0 modele predykcyjnego utrzymania ruchu (predictive maintenance) analizują drgania, temperaturę i zużycie energii, by przewidzieć awarię maszyny, zanim ona nastąpi. W e-commerce i mediach systemy rekomendacyjne Netflixa, Spotify czy Amazonu stoją w całości na ML. NLP napędza tłumaczenie maszynowe, asystentów głosowych i chatboty.

W robotyce ML jest dziś warstwą percepcji i — coraz częściej — sterowania. Autonomiczne samochody i drony łączą obrazy z kamer, dane z LiDARu i radarów, klasyfikując obiekty w czasie rzeczywistym. Algorytmy uczenia ze wzmocnieniem uczą ramiona przemysłowe optymalnych punktów chwytu, a w robotyce chirurgicznej — np. w eksperymentach z platformą RAVEN w Berkeley — testowano autonomiczne szycie tkanek. To kierunek od sztywno zaprogramowanych ramion montażowych w stronę maszyn adaptujących się do zmiennego, niepewnego środowiska.

Jakie są rodzaje uczenia maszynowego?

Cztery główne paradygmaty uczenia maszynowego rozkładają się następująco:

  • Uczenie nadzorowane (dominujące rynkowo) — wymaga zbioru przykładów wraz z poprawnymi odpowiedziami; model uczy się mapować wejście na wyjście. Klasyczny przykład to filtrowanie spamu w skrzynce e-mail.
  • Uczenie nienadzorowane — dostaje dane bez etykiet i samo szuka w nich struktury: klastrów, anomalii, ukrytych wymiarów. Klasyczny przykład to segmentacja klientów na grupy o podobnych zachowaniach zakupowych.
  • Uczenie częściowo nadzorowane — hybryda: niewielka pula danych z etykietami plus duża pula surowych. Bywa kompromisem ekonomicznym tam, gdzie ręczna anotacja jest droga. Klasyczny przykład to analiza zdjęć medycznych, gdzie opisanie każdego skanu przez lekarza jest kosztowne.
  • Uczenie ze wzmocnieniem — odbiega od pozostałych: nie ma „prawidłowych odpowiedzi”, jest agent, środowisko i sygnał nagrody, a agent uczy się strategii metodą prób i błędów. To paradygmat stojący za AlphaGo, autonomicznymi pojazdami i znaczną częścią współczesnej robotyki adaptacyjnej.

Czym różni się od innych podejść?

Względem klasycznej, ręcznie programowanej inżynierii ML wygrywa elastycznością i skalowalnością, ale przegrywa interpretowalnością. Względem dużych modeli generatywnych (LLM-ów) klasyczne ML jest tańsze, bardziej przewidywalne i często wystarczające do problemów strukturyzowanych — predykcji popytu, scoringu, detekcji anomalii.

Najważniejsze ograniczenia i wyzwania

Uczenie maszynowe ma też kilka istotnych ograniczeń:

  • Problem „czarnej skrzynki” — głębokie sieci z miliardami parametrów podejmują decyzje w sposób, którego nawet ich twórcy nie potrafią prześledzić krok po kroku. W medycynie czy orzecznictwie to bariera dla wdrożeń — stąd rozwój dziedziny Explainable AI (XAI).
  • Uprzedzenia (bias) — model uczący się z historycznych danych internalizuje ich strukturalne nierówności. Głośne przypadki amerykańskich systemów oceny ryzyka recydywy pokazały, jak łatwo zakodować dyskryminację w pozornie obiektywnej matematyce.
  • Koszt energetyczny — trenowanie dużych modeli generuje znaczący ślad węglowy.
  • Podatność na adversarial attackscelowo spreparowane wejścia potrafią zmylić nawet bardzo dokładne sieci.
  • Jakość danych — reguła „garbage in, garbage out” jest w ML brutalnie aktualna — żaden algorytm nie naprawi tendencyjnej lub niekompletnej bazy.

Unijny AI Act formalizuje te kwestie w obowiązkach dla systemów wysokiego ryzyka.

Dlaczego to jest istotne?

Ekonomiści coraz częściej zaliczają machine learning do tzw. technologii ogólnego przeznaczenia (general purpose technology) — tej samej kategorii co elektryczność na początku XX wieku czy internet w latach 90. Nie jest pojedynczym produktem ani jedną branżą, tylko nową warstwą obliczeniową, na której budowane są kolejne aplikacje, urządzenia i całe modele biznesowe. Wszystkie głośne projekty ostatnich lat — GPT-4, Gemini, Claude, AlphaFold, autonomiczne taksówki Waymo, systemy filtrowania treści, percepcja humanoidów Figure i Unitree — to różne aplikacje tej samej rodziny metod.

Dla inżyniera oznacza to, że znajomość ML przestaje być specjalizacją „data scientisty" i staje się elementem ogólnego warsztatu, podobnie jak kiedyś znajomość baz danych. Dla firm — że zdolność zbierania i porządkowania własnych danych staje się aktywem strategicznym. Dla społeczeństwa — że narzędzia podejmujące decyzje o naszym kredycie, polisie, diagnozie czy karierze zawodowej coraz częściej uczą się z danych, których pochodzenia i zniekształceń nie znamy. Dlatego właśnie dyskusja o ML nie może toczyć się wyłącznie na poziomie technicznym — równolegle musi obejmować regulacje, audyt i mechanizmy wytłumaczalności.

Uczenie maszynowe nie jest więc nową „magią" ani inteligencją w ludzkim sensie. To zestaw statystycznych narzędzi optymalizacyjnych — bardzo potężnych w domenach, gdzie mamy dużo danych i jasno zdefiniowane zadania, ale wciąż naiwnych poza tymi obszarami. Najbliższa dekada zdecyduje, czy nauczymy się tę asymetrię świadomie wykorzystywać, czy będziemy ją mylić z prawdziwym rozumieniem.

Źródła

  • IBM — What is machine learning?link
  • Yann LeCun, Yoshua Bengio, Geoffrey Hinton — Deep Learning, Nature 521 (2015) — link
  • Ian Goodfellow, Yoshua Bengio, Aaron Courville — Deep Learning (MIT Press, 2016) — link
  • Wikipedia — Machine learninglink
  • ImageNet — strona projektu i konkursu, fundamentu rewolucji DL — link
  • Komisja Europejska — Regulatory framework for AI (AI Act)link
Udostępnij to opracowanie