Robocikowo>ROBOCIKOWO
PL

PLLuM

Family (8B / 12B / 8x7B / 70B)
Otwarta rodzina polskich modeli językowych rozwijana przez konsorcjum naukowe pod liderem Politechniki Wrocławskiej.
✓ Aktywny✓ Publiczny dostęp⚖ Open weightsLLM
Okno kontekstowe
8K (Mistral-based) / 128K (Llama 3.1-based)
tokenów
Parametry
8B / 12B / 47B (8x7B MoE) / 70B
parametrów
Data premiery
1 grudnia 2024
Dostęp:DownloadHostedWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

PLLuM (Polish Large Language Model) to rodzina otwartych modeli językowych zorientowanych na język polski, opracowana w 2024 roku przez konsorcjum polskich instytucji naukowych pod liderem Politechniki Wrocławskiej. Projekt był finansowany ze środków Ministra Cyfryzacji (dotacja celowa nr 1/WI/DBiI/2023, 14 504 392 PLN) i miał na celu stworzenie modelu wspierającego sektor publiczny i prywatny w Polsce, ze szczególnym uwzględnieniem polskich realiów językowych i kulturowych.

Rodzina obejmuje warianty bazowe (base), instrukcyjne (instruct) i dialogowe (chat) o rozmiarach 8B, 12B, 8x7B (MoE) oraz 70B parametrów. Warianty oznaczone „nc” są dostępne na licencji CC BY-NC 4.0 (non-commercial), pozostałe na licencjach dziedziczonych po modelach bazowych (Llama 3.1 Community License dla wariantów Llama-PLLuM, Apache 2.0 dla części pozostałych). Modele bazują na dostrajaniu (pretraining-continued + SFT + preference tuning) istniejących architektur — Llama 3.1 (8B, 70B), Mistral 7B i Mixtral 8x7B — na rozległym, polskim korpusie tekstów.

Projekt formalnie zakończono 31 grudnia 2024 roku; dalsze prace prowadzone są w ramach inicjatywy HIVE AI (NASK). Modele są publicznie dostępne na HuggingFace pod organizacją CYFRAGOVPL (Ministerstwo Cyfryzacji), a interaktywny czat działa na platformie pllum.clarin-pl.eu utrzymywanej przez Politechnikę Wrocławską.

Klasyfikacja
LLM
Dostęp i wdrożenie
PobieranieHostowane
LokalnieChmura
Wagi: Open weights
Kluczowe parametry
📏 Kontekst: 8K (Mistral-based) / 128K (Llama 3.1-based)
🧩 Parametry: 8B / 12B / 47B (8x7B MoE) / 70B
✓ Fine-tuning
📥 Wejście: tekst

Specyfikacja techniczna

Okno kontekstowe
8K (Mistral-based) / 128K (Llama 3.1-based)
tokenów
Parametry
8B / 12B / 47B (8x7B MoE) / 70B
parametrów
Licencja
CC BY-NC 4.0 (warianty „nc”) / Llama 3.1 Community License / Apache 2.0 (zależnie od wariantu)
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
text
⬆ Wyjście (Output)
text

Możliwości i zastosowania

Natywne możliwości modelu
Wielojęzyczność
Zdolność modelu do rozumienia i generowania treści w wielu językach.
Kategoria: language
Długi kontekst
Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.
Kategoria: reasoning
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Kodowanie
Zdolność modelu do generowania, analizowania, poprawiania i wyjaśniania kodu.
Kategoria: coding

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)