MoE
MoE • Sparse MoE
ArchitekturaAktywny
Rok wprowadzenia: 2017Status: AktywnyMechanizmy: 4
Mixture of Experts to technika, w której model składa się z wielu "ekspertów" – mniejszych podsieci. Mechanizm bramkowania wybiera, które eksperci przetwarzają dany token.
Jak działa
Router decyduje, które eksperci (zwykle 2-8 z kilkudziesięciu) przetwarzają każdy token, co redukuje rzeczywiste obliczenia.
Problem rozwiązywany
Skalowanie gęstych modeli wymaga ogromnych zasobów obliczeniowych proporcjonalnych do liczby parametrów.
Kluczowe mechanizmy
gating mechanism
top-k routing
load balancing
expert specialization
Ocena
Mocne strony
- Wydajność obliczeniowa
- Skalowalność
- Specjalizacja ekspertów
Ograniczenia
- Trudny trening
- Load balancing
- Wymagania pamięciowe
