Robocikowo>ROBOCIKOWO
DBRX MoE-A

DBRX MoE-A

DBRX MoE-A · Rodzina: DBRX
Uzywany wewnetrznie przez Databricks do badan efektywnosci treningu MoE. Osiaga wynik Databricks Gauntlet 30.5% przy 3.7x mniejszym koszcie FLOP niz MPT-7B.
🔬 Research🔬 Research onlyLLM📁 DBRX
Okno kontekstowe
32K
tokenów
Parametry
7.7B total / 2.2B active
parametrów
Data premiery
27 marca 2024
Dostęp:APIWdrożenie:☁ Cloud

Przegląd

DBRX MoE-A to najmniejszy czlon rodziny DBRX: wewnetrzny model badawczy Databricks z 7.7 mld parametrow lacznie i 2.2 mld aktywnych. Nie zostal opublikowany publicznie — sluzy do badan efektywnosci treningu architektur Mixture of Experts (MoE) i walidacji koncowej recepty treningowej DBRX.

Cel modelu

DBRX MoE-A jest punktem porownawczym wobec MPT-7B (modelu Databricks/Mosaic z maja 2023). Wyniki maja pokazac, jak nowy stos treningowy DBRX (architektura MoE, lepsze dane, lepszy tokenizer GPT-4) poprawia efektywnosc treningu wzgledem dense modeli klasy 7B.

Wyniki

Na Databricks Model Gauntlet v0.3 osiaga 30.5% — wynik zblizony do MPT-7B (30.9%), ale przy 3.7x mniejszym koszcie obliczeniowym (FLOPs). Pokazuje to, ze cala recepta treningowa rodziny DBRX jest okolo 4x bardziej compute-efficient niz pipeline MPT z poprzedniej generacji.

Status

Model nie jest dostepny publicznie ani na Hugging Face. Wagi i checkpointy pozostaja w wewnetrznym uzytku Databricks. W publicznym blogu DBRX (marzec 2024) wymieniony tylko jako artefakt walidacyjny pipeline'u treningowego.

Klasyfikacja
LLM
Rodzina: DBRX
Zastosowania
Dostęp i wdrożenie
API
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 32K
🧩 Parametry: 7.7B total / 2.2B active
📥 Wejście: tekst

Specyfikacja techniczna

Okno kontekstowe
32K
tokenów
Parametry
7.7B total / 2.2B active
parametrów
Licencja
Databricks internal / research
Wymagania sprzętowe
Wewnetrzny model badawczy Databricks; brak publicznego checkpointu.
Modalności
⬇ Wejście (Input)
text
⬆ Wyjście (Output)
textcode

Możliwości i zastosowania

Dziedziny zastosowań

Wyniki benchmarków

1 benchmark
Databricks Model Gauntlet v0.3
avg score
30.5%
📄 Databricks DBRX blog (2024-03-27)

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)