Robocikowo>ROBOCIKOWO

Sieci neuronowe od podstaw do nowoczesnej AI · Od neuronu do MLP: architektura i forward pass

Funkcje aktywacji: sigmoid, ReLU, GELU, tanh — kiedy i dlaczego

Od neuronu do MLP: architektura i forward pass

Wprowadzenie

Wybór funkcji aktywacji to jedna z najbardziej fundamentalnych decyzji w projektowaniu sieci. Sigmoid i tanh dominowały w latach 90, ReLU zrewolucjonizowała głębokie sieci po AlexNet (2012), a GELU stała się standardem w transformerach (BERT, GPT). Ta lekcja porównuje cztery kanoniczne aktywacje pod kątem wzorów, pochodnych, problemu zanikających gradientów (vanishing gradients), saturacji, dead neurons w ReLU, oraz nowoczesnych wariantów (Leaky ReLU, ELU, Swish, SiLU). Zrozumiesz dlaczego ReLU wygrała w sieciach feedforward, a GELU w transformerach.