Robocikowo>ROBOCIKOWO
DBRX Base

DBRX Base

DBRX Base · Rodzina: DBRX
Bazowy pretrenowany model DBRX bez instruction tuningu. 132B parametrow lacznie, 36B aktywnych (MoE 16 ekspertow, wybieranych 4). Pretrenowany na 12T tokenow, okno 32K.
✓ Aktywny✓ Publiczny dostęp⚖ Open weightsLLM📁 DBRX
Okno kontekstowe
32K
tokenów
Parametry
132B total / 36B active
parametrów
Max output
32 000
tokenów
Data premiery
27 marca 2024
Dostęp:APIDownloadWdrożenie:☁ Cloud💻 Lokalnie

Przegląd

DBRX Base to bazowy pretrenowany model jezykowy z rodziny DBRX, opublikowany 27 marca 2024 roku przez Databricks na otwartej licencji Databricks Open Model License. W odroznieniu od DBRX Instruct nie zostal poddany instruction tuningowi — sluzy jako fundament do dalszego dostrajania (fine-tuning) lub kontynuacji treningu na wlasnych danych enterprise.

Architektura

DBRX Base to decoder-only Transformer z fine-grained Mixture of Experts (MoE): 132 mld parametrow lacznie, 36 mld aktywnych dla danego tokenu, 16 ekspertow z ktorych wybierane sa 4. Uzywa Rotary Position Encodings (RoPE), Gated Linear Units (GLU), Grouped Query Attention (GQA) i tokenizera GPT-4 z biblioteki tiktoken. Maksymalne okno kontekstu wynosi 32 768 tokenow.

Dane treningowe i koszt

DBRX Base byl pretrenowany na 12 bilionach tokenow starannie wyselekcjonowanych danych tekstowych i kodu, z curriculum learning (zmiennym mixem danych w czasie). Dane przetwarzano przez Apache Spark, Databricks Notebooks i Unity Catalog. Trening wykonano na 3072 GPU NVIDIA H100 polaczonych InfiniBand 3.2 Tbps, z uzyciem MegaBlocks, LLM Foundry, Composer i Streaming. Databricks szacuje, ze nowe dane sa co najmniej 2x lepsze token-na-token niz dane uzyte do pretreningu modeli MPT.

Zastosowanie

DBRX Base jest przeznaczony glownie dla zaawansowanych uzytkownikow: zespolow ML chcacych przeprowadzic wlasny instruction tuning, RLHF lub continued pretraining na danych domenowych. Dla typowych zastosowan dialogowych i instrukcyjnych Databricks rekomenduje DBRX Instruct.

Klasyfikacja
LLM
Rodzina: DBRX
Dostęp i wdrożenie
APIPobieranie
ChmuraLokalnie
Wagi: Open weights
Kluczowe parametry
📏 Kontekst: 32K
🧩 Parametry: 132B total / 36B active
✓ Fine-tuning
📥 Wejście: tekst

Specyfikacja techniczna

Okno kontekstowe
32K
tokenów
Parametry
132B total / 36B active
parametrów
Max output tokens
32 000
tokenów na odpowiedź
Knowledge cutoff
1 gru 2023
Data graniczna wiedzy
Licencja
Databricks Open Model License
Wymagania sprzętowe
Trening: 3072x NVIDIA H100 + 3.2 Tbps InfiniBand. Inference: GPU klasy enterprise (np. 8x H100 lub A100) z TensorRT-LLM, mozliwa kwantyzacja 8-bit.
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
text
⬆ Wyjście (Output)
textcode

Możliwości i zastosowania

Natywne możliwości modelu
Kodowanie
Zdolność modelu do generowania, analizowania, poprawiania i wyjaśniania kodu.
Kategoria: coding
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Długi kontekst
Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.
Kategoria: reasoning
Wielojęzyczność
Zdolność modelu do rozumienia i generowania treści w wielu językach.
Kategoria: language

Wyniki benchmarków

1 benchmark
MMLU
accuracy · 5-shot
73.7%
📄 Databricks DBRX blog (2024-03-27)
Wynik pochodzi z Tabeli 1 bloga DBRX (DBRX Instruct). DBRX Base nie ma osobno raportowanych liczb MMLU.

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)

Wdrożenie i bezpieczeństwo

☁ Dostępny na platformach