Robocikowo>ROBOCIKOWO

Transformer od zera · Multi-head attention

Łączenie głowic i projekcja wyjściowa

Multi-head attention

Wprowadzenie

Po obliczeniu attention dla wielu głowic trzeba połączyć ich wyniki i przepuścić je przez projekcję wyjściową. Ta lekcja skupia się na konkatenacji, contiguous, view oraz roli warstwy output projection.