Otwartowagowy model Sparse Mixture-of-Experts od Mistral AI: 46,7 mld parametrów (12,9 mld aktywnych na token), okno 32K, licencja Apache 2.0.
Okno kontekstowe
32K
tokenów
Parametry
46.7B total / 12.9B active
parametrów
Data premiery
11 grudnia 2023
Dostęp:APIDownloadWdrożenie:💻 Lokalnie☁ Cloud
Przegląd
Dostęp i wdrożenie
APIPobieranie
LokalnieChmura
Wagi: Open source
Kluczowe parametry
📏 Kontekst: 32K
🧩 Parametry: 46.7B total / 12.9B active
✓ Fine-tuning
📥 Wejście: tekst
Specyfikacja techniczna
Okno kontekstowe
32K
tokenów
Parametry
46.7B total / 12.9B active
parametrów
Licencja
Apache 2.0
Funkcje:✓ Fine-tuning
Modalności
⬇ Wejście (Input)
text
⬆ Wyjście (Output)
textcode
Możliwości i zastosowania
Natywne możliwości modelu
Modelowanie języka
Zdolność przewidywania kolejnych tokenów i generowania spójnego tekstu w języku naturalnym na podstawie poprzedzającego kontekstu.
Kategoria: language
Programowanie
Generowanie, analiza i modyfikacja kodu źródłowego.
Kategoria: coding
Wielojęzyczność
Rozumienie i generowanie tekstu w wielu językach.
Kategoria: language
Długi kontekst
Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.
Kategoria: language
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Wyniki benchmarków
2 benchmarki
MT-Bench
8.30
📄 mistral.ai/news/mixtral-of-experts
Wynik dla Mixtral 8x7B Instruct (SFT + DPO).
MMLU
accuracy
70.6%%
📄 mistral.ai/news/mixtral-of-experts
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
