Mixture of Experts
Architektura
Mixture of Experts (MoE) dzieli model na wiele sub-sieci (ekspertów) i używa rutera do aktywacji tylko części z nich dla danego wejścia, co pozwala skalować pojemność bez proporcjonalnego wzrostu kosztów obliczeniowych.
Powiązania
Powiązane modele
Źródła
| Tytuł | Wydawca | Typ | Data dostępu |
|---|---|---|---|
| Switch Transformers | — | — | — |



