Powrót do katalogu

Mixture of Experts

Architektura
Mixture of Experts (MoE) dzieli model na wiele sub-sieci (ekspertów) i używa rutera do aktywacji tylko części z nich dla danego wejścia, co pozwala skalować pojemność bez proporcjonalnego wzrostu kosztów obliczeniowych.

Powiązania

Źródła

TytułWydawcaTypData dostępu
Switch Transformers