Robocikowo>ROBOCIKOWO

Transformer od zera · Decoder-only Transformer

Architektura mini-GPT

Decoder-only Transformer

Wprowadzenie

Złożysz ogólną architekturę mini-GPT: embeddingi tokenów i pozycji, stos bloków decoder-only, końcową normalizację i głowicę językową.