Transformer od zera · Multi-head attention
Łączenie głowic i projekcja wyjściowa
Multi-head attention
Wprowadzenie
Po obliczeniu attention dla wielu głowic trzeba połączyć ich wyniki i przepuścić je przez projekcję wyjściową. Ta lekcja skupia się na konkatenacji, contiguous, view oraz roli warstwy output projection.