DBRX Base

DBRX Base · Rodzina: DBRX

Bazowy pretrenowany model DBRX bez instruction tuningu. 132B parametrow lacznie, 36B aktywnych (MoE 16 ekspertow, wybieranych 4). Pretrenowany na 12T tokenow, okno 32K.

✓ Aktywny✓ Publiczny dostęp⚖ Open weightsLLM📁 DBRX

Okno kontekstowe

32K

tokenów

Parametry

132B total / 36B active

parametrów

Max output

32 000

tokenów

Data premiery

27 marca 2024

🏢DatabricksProducent

Dostęp:APIDownloadWdrożenie:☁ Cloud💻 Lokalnie

Przegląd

DBRX Base to bazowy pretrenowany model jezykowy z rodziny DBRX, opublikowany 27 marca 2024 roku przez Databricks na otwartej licencji Databricks Open Model License. W odroznieniu od DBRX Instruct nie zostal poddany instruction tuningowi — sluzy jako fundament do dalszego dostrajania (fine-tuning) lub kontynuacji treningu na wlasnych danych enterprise.

Architektura

DBRX Base to decoder-only Transformer z fine-grained Mixture of Experts (MoE): 132 mld parametrow lacznie, 36 mld aktywnych dla danego tokenu, 16 ekspertow z ktorych wybierane sa 4. Uzywa Rotary Position Encodings (RoPE), Gated Linear Units (GLU), Grouped Query Attention (GQA) i tokenizera GPT-4 z biblioteki tiktoken. Maksymalne okno kontekstu wynosi 32 768 tokenow.

Dane treningowe i koszt

DBRX Base byl pretrenowany na 12 bilionach tokenow starannie wyselekcjonowanych danych tekstowych i kodu, z curriculum learning (zmiennym mixem danych w czasie). Dane przetwarzano przez Apache Spark, Databricks Notebooks i Unity Catalog. Trening wykonano na 3072 GPU NVIDIA H100 polaczonych InfiniBand 3.2 Tbps, z uzyciem MegaBlocks, LLM Foundry, Composer i Streaming. Databricks szacuje, ze nowe dane sa co najmniej 2x lepsze token-na-token niz dane uzyte do pretreningu modeli MPT.

Zastosowanie

DBRX Base jest przeznaczony glownie dla zaawansowanych uzytkownikow: zespolow ML chcacych przeprowadzic wlasny instruction tuning, RLHF lub continued pretraining na danych domenowych. Dla typowych zastosowan dialogowych i instrukcyjnych Databricks rekomenduje DBRX Instruct.

Klasyfikacja

LLM

Rodzina: DBRX

Zastosowania

Kodowanie Asystent badawczy Praca z wiedzą

Dostęp i wdrożenie

APIPobieranie

ChmuraLokalnie

Wagi: Open weights

Kluczowe parametry

📏 Kontekst: 32K

🧩 Parametry: 132B total / 36B active

✓ Fine-tuning

📥 Wejście: tekst

Platformy

Databricks Mosaic AI

Specyfikacja techniczna

Okno kontekstowe

32K

tokenów

Parametry

132B total / 36B active

parametrów

Max output tokens

32 000

tokenów na odpowiedź

Knowledge cutoff

1 gru 2023

Data graniczna wiedzy

Licencja

Databricks Open Model License

Wymagania sprzętowe

Trening: 3072x NVIDIA H100 + 3.2 Tbps InfiniBand. Inference: GPU klasy enterprise (np. 8x H100 lub A100) z TensorRT-LLM, mozliwa kwantyzacja 8-bit.

Funkcje:✓ Fine-tuning

Modalności

⬇ Wejście (Input)

text

⬆ Wyjście (Output)

textcode

Możliwości i zastosowania

Natywne możliwości modelu

Kodowanie

Zdolność modelu do generowania, analizowania, poprawiania i wyjaśniania kodu.

Kategoria: coding

Rozumowanie

Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.

Kategoria: reasoning

Długi kontekst

Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.

Kategoria: reasoning

Wielojęzyczność

Zdolność modelu do rozumienia i generowania treści w wielu językach.

Kategoria: language

Dziedziny zastosowań

Kodowanie Asystent badawczy Praca z wiedzą

Wyniki benchmarków

1 benchmark

MMLU

accuracy · 5-shot

73.7%

📄 Databricks DBRX blog (2024-03-27)

Wynik pochodzi z Tabeli 1 bloga DBRX (DBRX Instruct). DBRX Base nie ma osobno raportowanych liczb MMLU.

Architektura techniczna

Rdzeń architektury (Core Architecture)

TRTransformer MOMoE RORoPE GLGLU GQGQA

Forma modelu (Model Form)

LLLLM

Wdrożenie i bezpieczeństwo

☁ Dostępny na platformach

☁Databricks Mosaic AIPlatforma

Źródła i powiązane strony

3 źródła

BlogDBRX — Databricks Blogdatabricks.com RepoDBRX Base on Hugging Facehuggingface.co RepoDBRX GitHub repositorygithub.com

Przeglądaj powiązane tematy

📁 DBRX 🌐 Kodowanie 🌐 Asystent badawczy 🌐 Praca z wiedzą 🧠 Transformer 🧠 MoE 🧠 RoPE ☁ Databricks Mosaic AI Wszystkie modele llm