Robocikowo>ROBOCIKOWO

Transformer od zera · Multi-head attention

Projekcje liniowe Q, K, V

Multi-head attention

Wprowadzenie

Multi-head attention zaczyna się od projekcji liniowych. W tej lekcji zobaczysz, jak jedna projekcja może wytworzyć Q, K i V dla wszystkich głowic oraz jak bezpiecznie dzielić ostatni wymiar tensora.