Robocikowo>ROBOCIKOWO
DBRX MoE-B

DBRX MoE-B

DBRX MoE-B · Rodzina: DBRX
Uzywany do badan efektywnosci treningu MoE. Osiaga Databricks Gauntlet 45.5% przy 1.7x mniejszym koszcie FLOP niz LLaMA2-13B (13B aktywnych parametrow).
🔬 Research🔬 Research onlyLLM📁 DBRX
Okno kontekstowe
32K
tokenów
Parametry
23.5B total / 6.6B active
parametrów
Data premiery
27 marca 2024
Dostęp:APIWdrożenie:☁ Cloud

Przegląd

DBRX MoE-B to wewnetrzny model badawczy Databricks z rodziny DBRX, posredni miedzy MoE-A (7.7B) a flagowym DBRX (132B). Liczy 23.5 mld parametrow lacznie i 6.6 mld aktywnych. Nie zostal opublikowany publicznie — sluzy do walidacji skalowania architektury Mixture of Experts (MoE) na rosnacych rozmiarach modelu.

Cel modelu

DBRX MoE-B jest punktem porownawczym wobec LLaMA2-13B oraz pelnego DBRX-132B. Pokazuje, jak efektywnosc treningu rodziny DBRX skaluje sie do klasy 20+ mld parametrow oraz jak fine-grained MoE (16 ekspertow, 4 aktywne) zachowuje sie w srodkowym przedziale wielkosci.

Wyniki

Na Databricks Model Gauntlet v0.3 osiaga 45.5%, przewyzszajac LLaMA2-13B (43.8%) przy znaczaco mniejszym koszcie treningu. To kluczowa walidacja, ze recepta DBRX (architektura MoE + curriculum learning + dane wysokiej jakosci + tokenizer GPT-4) skaluje sie liniowo z wielkoscia modelu.

Status

Model nie jest dostepny publicznie ani na Hugging Face. Wagi pozostaja w wewnetrznym uzytku Databricks. W publicznym blogu DBRX (marzec 2024) wymieniony tylko jako artefakt walidacyjny — wraz z MoE-A — pelnej recepty treningowej DBRX-132B.

Klasyfikacja
LLM
Rodzina: DBRX
Zastosowania
Dostęp i wdrożenie
API
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 32K
🧩 Parametry: 23.5B total / 6.6B active
📥 Wejście: tekst

Specyfikacja techniczna

Okno kontekstowe
32K
tokenów
Parametry
23.5B total / 6.6B active
parametrów
Licencja
Databricks internal / research
Wymagania sprzętowe
Wewnetrzny model badawczy Databricks; brak publicznego checkpointu.
Modalności
⬇ Wejście (Input)
text
⬆ Wyjście (Output)
textcode

Możliwości i zastosowania

Dziedziny zastosowań

Wyniki benchmarków

1 benchmark
Databricks Model Gauntlet v0.3
avg score
45.5%
📄 Databricks DBRX blog (2024-03-27)

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)