Transformer od zera · Multi-head attention
Projekcje liniowe Q, K, V
Multi-head attention
Wprowadzenie
Multi-head attention zaczyna się od projekcji liniowych. W tej lekcji zobaczysz, jak jedna projekcja może wytworzyć Q, K i V dla wszystkich głowic oraz jak bezpiecznie dzielić ostatni wymiar tensora.